经是搜索领域的专家了。
1996年,28岁的薛奇在道•琼斯公司担任高级技术顾问时,他就已经牵头开发了《华尔街日报》网络版的实时金融信息系统,这也是全球第一个网络实时金融信息系统。每天有多达15万条的资讯,如此海量的信息,用户很难快速找到自己想要的信息,在这样的前提下,就迫切需要一种快速并且准确的检索技术来破解这样的难题。
薛奇苦思如何解决搜索准确性技术,一直没有想到太好的解决方法,这难住了他。
1996年4月,一场关于信息检索方面的学术会议在躁动不安的赌城拉斯韦加斯召开,会议枯燥乏味,让人昏昏欲睡,但对薛奇来说,却是一个难得的能让人静心思考的机会。他坐在台下,伴随着台上冗长的发言,思索搜索引擎怎样才能突破眼下的瓶颈,忽然,台上发言者以他的论文被引用的次数来验证自己的观点,薛奇脑中灵光蓦然闪现!
人们往往根据一篇论文被引用次数的多少来评价这篇论文是否权威,同理,如果应用到网页检索上,哪个网页被链接的次数最多,是否就可以认定哪个网页质量最高,人气最旺?如果再加上相应的链接文字分析,就可以应用到搜索结果的排序上了。
突如其来的思路让薛奇兴奋异常,他立即就这一理论进行论证并且整理成稿,于当年正式提出“超链分析”的概念并发表了相关文章。
1997年2月,他申请了专利—超链分析技术(Hypertextdocumentretrievalsystemandmethod,专利号5920859)。超链分析技术的发明,一改互联网搜索杂乱无章、信息冗余的局面,使搜索效果大幅提升。薛奇给这个原理取了一个很人文的名字,叫人气质量定律,也叫搜索引擎的第二定律。此前利用检索词在一篇文章中出现的频率多少进行网页排序,被称为第一定律。
然而薛奇的专利技术在《华尔街日报》并没有得到充分的重视,作为一家媒体,他们的资源更倾向于编辑和记者。超链分析技术受到了冷落,没有展现应有的巨大价值。
后来在一次学术会议上,薛奇请时任InfoseekCTO的威廉•张观看超链分析的实践。薛奇输入chinatimes,排在第一位的就是中国时报的网站,再搜IBM,IBM官方网站排在第一,这在以后看来是非常正常的搜索排序在当时是想象不到的了不起的成就!
本章未完,请点击下一页继续阅读! 第2页 / 共6页