尼尔下定决心离开PARC,因为他觉得〃一次改组就已经足够了〃。(有趣的是,Google的首席执行官埃里克·施米特以前也供职于施乐)。
莫尼尔告诉我:〃我一直都对解决困扰人类的大问题很感兴趣。〃搜索就是令人困扰的问题之一。1994年的时候,待解决的问题不计其数,更重要的是,市场上还存在对性能优越的搜索引擎实实在在的需求。莫尼尔回忆道:〃当时的搜索引擎简直是糟透了。雅虎是很好的地址目录,但是没有搜索功能。我的工作是从网页捕获开始的。〃
我们在第二章已经说过,传统的搜索引擎的核心由三部分组成。首先是网页捕获装置(或者网络爬虫),它尽可能地收集网络上的每一张网页。然后是索引,也就是根据被捕获网页生成的巨型数据库。最后是用户界面和搜索软件,它们共同以智能化的方式为终端用户提供索引中相关的内容。
1994~1995年间,互联网还是新生事物,没有人真正知道它到底有多大以及它成长得有多么快。但是,这个行业中的人都知道它大极了,而且它正在以一种令工程师和数学家们心悸的速度发展壮大。网络信息的数量在非常短的时间里就不断翻番,直至无穷大。莫尼尔觉得,如果可以发明一种机器来权威地为因特网的大小做个结论,那么他就可以名垂青史了。
当时已经存在十几种搜索引擎了,但是它们都存在这样或那样的缺陷。有的用户界面非常糟糕,有的则缺少强有力的查询语言。大部分只索引URL,而不是网站的所有基本内容。莫尼尔利用阿尔法计算机强大的处理能力发明出一种新式的网页捕获装置。这一点对实现莫尼尔完整性的目标非常关键,他的目标是要建立整个网络的索引,而不仅仅限于URL。
网页捕获以线形方式工作,也就是说,一个接一个地发现网站并储存它一路上找到的所有网页。如果局限于单一的查找链,一个网页捕获器永远也不能穷尽整个网络它需要花费太多时间来收集所有这些不计其数的链接。远在它完成这些工作之前,互联网已经又明显地长大了许多,收集所有网页的工作根本就没有可能了。
要解决这个问题,就要求许多个网页捕获器同时作业,共同建立网络索引。仰仗阿尔法64位的内存,莫尼尔可以同时派出1000个网络捕获器,这是前所未闻的数量。它们所带回来的东西是在网络短暂的历史上所能见到的最接近完整的索引包含数十亿单词的1000万个文件。
第12节:莫尼尔描绘互联网2
作者:'美'约翰·
本章未完,请点击下一页继续阅读! 第4页 / 共7页