第二节 搜索引擎的发展历史

来源:百度文库 编辑:神马文学网 时间:2024/05/02 00:01:07
早在Web出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。那些资源当时主要存在于各种允许匿名访问的FTP站点(anonymous ftp),内容以学术技术报告、研究性软件居多,它们以计算机文件的形式存在,文字材料的编码通常是PostScript或者纯文本(那时还没有HTML)。
为了便于人们在分散的FTP资源中找到所需的东西,1990年加拿大麦吉尔大学(University of McGill)计算机学院的师生开发了一个软件,Archie。它通过定期搜集并分析FTP系统中存在的文件名信息,提供查找分布在各个FTP主机中文件的服务。Archie能在只知道文件名的前提下,为用户找到这个文件所在的FTP服务器的地址。Archie实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。该数据库中包括大量可通过FTP下载的文件资源的有关信息,包括这些资源的文件名、文件长度、存放该文件的计算机名及目录名等。尽管所提供服务的信息资源对象(非HTML文件)和本书所讨论搜索引擎的信息资源对象(HTML网页)不一样,但基本工作方式是相同的(自动搜集分布在广域网上的信息,建立索引,提供检索服务),因此人们公认Archie为现代搜索引擎的鼻祖。
值得一提的是,即使是在10多年后的今天,以FTP 文件为对象的信息检索服务技术依然在发展,尤其是在用户使用界面上充分采用了Web风格。北大天网文件检索系统就是一个例子(见http://bingle.pku.edu.cn)。不过鉴于本书写作定位的关系,后面将主要讨论网页搜索引擎的相关问题。
以Web网页为对象的搜索引擎和以FTP文件为对象的检索系统一个基本的不同点在于搜集信息的过程。前者是利用HTML文档之间的链接关系,在Web上一个网页、一个网页的“爬取”(crawl),将那些网页“抓”(fetch)到本地后进行分析;后者则是根据已有的关于FTP站点地址的知识(例如得到了一个站点地址列表),对那些站点进行访问,获得其文件目录信息,并不真正将那些文件下载到系统上来。因此,如何在Web上“爬取”,就是搜索引擎要解决的一个基本问题。在这方面,1993年Matthew Gray开发了World Wide Web Wanderer,它是世界上第一个利用HTML网页之间的链接关系来监测Web发展规模的“机器人”(robot)程序。刚开始时它只用来统计互联网上的服务器数量,后来则发展为能够通过它检索网站域名。鉴于其在Web上沿超链“爬行”的工作方式,这种程序有时也称为“蜘蛛”(spider)。因此,在文献中crawler, spider, robot一般都指的是相同的事物,即在Web上依照网页之间的超链关系一个个抓取网页的程序,通常也称为“搜集”。在搜索引擎系统中,也称为网页搜集子系统。
现代搜索引擎的思路源于Wanderer,不少人在Matthew Grey工作的基础上对它的蜘蛛程序做了改进。1994年7月,Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos,成为第一个现代意义的搜索引擎。在那之后,随着Web上信息的爆炸性增长,搜索引擎的应用价值也越来越高,不断有更新、更强的搜索引擎系统推出(下一节会有介绍)。这其中,特别引人注目的是Google(http://www.google.com),虽然是个姗姗来迟者(1998年才推出),但由于其采用了独特的PageRank技术,使它很快后来居上,成为当前全球最受欢迎的搜索引擎(作者2003年初访问印度,就听到总统阿卜杜勒·卡拉姆讲他经常用Google在网上查找信息!)。
在中国,据我们所知,对搜索引擎的研究起源于“中国教育科研网”(CERNET)一期工程中的子项目,北京大学计算机系的项目组在陈葆珏教授的主持下于1997年10月在CERNET上推出了天网搜索1.0版本。该系统在这几年里不断发展,目前已成为中国最大的公益性搜索引擎(http://e.pku.edu.cn)。在这之后,几位在美国留学的华人学者回国创业,成立了百度公司,于2000年推出了“百度”商业搜索引擎(http://www.baidu.com),并一直处于国内搜索引擎的领先地位。我们看到慧聪公司也在中国推出了一个大规模搜索引擎(http://www.zhongsou.com),用起来感觉也不错,但往后发展如何,还有待时间的考验。
当我们谈及搜索引擎的时候,不应该忽略另外一个几乎是同期发展出来的事物:基于目录的信息服务网站。1994年4月,斯坦福(Stanford)大学的两名博士生,David Filo和杨致远(Gerry Yang)共同创办了Yahoo!门户网站,并成功地使网络信息搜索的概念深入人心。1996年中国出现了类似的网站,“搜狐”,(http://www.sohu.com)。在许多场合,也称Yahoo!之类的门户网站提供的信息查找功能为搜索引擎。但从技术上讲,这样的门户中提供的搜索服务和前述搜索引擎是很不同的。这样的门户依赖的是人工整理的网站分类目录,一方面,用户可以直接沿着目录导航,定位到他所关心的信息;另一方面,用户也可以提交查询词,让系统将他直接引导到和该查询词最匹配的网站。图1-2就是我们在搜狐上查询“伊拉克战争”的结果。和图1-1相比,不难看到其风格是很不相同的。在需要区别的场合,我们可以分别称“自动搜索引擎”和“目录搜索引擎”,或者“网页搜索引擎”和“网站搜索引擎”。一般来讲,前者的信息搜索会更全面些,后者则会准确些。在没有特殊说明的情况下,本书中所讨论的“搜索引擎”不包括Yahoo!和搜狐这样的搜索方式。
随着网上信息越来越多,单纯靠人工整理网站目录取得较高精度查询结果的优势逐渐退化——对海量的信息进行高质量的人工分类已经不太现实。目前有两个发展方向。一是利用文本自动分类技术,在搜索引擎上提供对每篇网页的自动分类,这方面最先看到的例子是Google的“网页分类”选项,但它分类的对象只是英文网页。在中文方面,文本自动分类的研究工作有很多,但我们知道的第一个在网上提供较大规模网页自动分类服务的是北大网络实验室冯是聪和龚笔宏等人的工作[冯是聪,2003],他们于2002年10月在天网搜索上挂接了一个300万网页的分类目录。另一个发展方向是将自动网页爬取和一定的人工分类目录相结合,希望形成一个既有高信息覆盖率,也有高查询准确性的服务。
互联网上信息量在不断增加,信息的种类也在不断增加。例如除了我们前面提到的网页和文件,还有新闻组,论坛,专业数据库等。同时上网的人数也在不断增加,网民的成分也在发生变化。一个搜索引擎要覆盖所有的网上信息查找需求已出现困难,因此各种主题搜索引擎,个性化搜索引擎,问答式搜索引擎等纷纷兴起。这些搜索引擎虽然还没有实现如通用搜索引擎那样的大规模应用,但随着互联网的发展,我们相信它们的生命力会越来越旺盛。另外,即使通用搜索引擎的运行现在也开始出现分工协作,有了专业的搜索引擎技术和搜索数据库服务提供商。例如美国的Inktomi,它本身并不是直接面向用户的搜索引擎,但向包括Overture(原GoTo)、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜集服务。从这个意义上说,它是搜索引擎数据的来源。
搜索引擎出现虽然只有10年左右的历史,但在Web上已经有了确定不移的地位。据CNNIC统计,它已经成为继电子邮件之后的第二大Web应用。虽然它的基本工作原理已经相当稳定,但在其质量、性能和服务方式等方面的提高空间依然很大,研究成果层出不穷,是每年WWW学术年会1的重要论题之一。