中文搜索引擎研究

来源:百度文库 编辑:神马文学网 时间:2024/05/02 06:09:30
1.为什么需要搜索引擎?
什么叫搜索引擎呢?Internet是一个巨大的信息资源宝库,几乎所有的Internet用户都希望宝库中的资源越来越丰富,使之应有尽有。每天都有新的主机被连接到Internet上,每天都有新的信息资源被增加到Internet中,使Internet中的信息以惊人的速度增长。然而Internet中的信息资源分散在无数台主机之中,如果用户想将所有主机中的信息都做一番详尽的考察,无异于大海捞针。那么用户如何在数百万个网站中快速有效地查找到想要得到的信息呢?这就要借助于Internet中的搜索引擎。

2.搜索引擎使用的信息检索技术
目前搜索引擎使用的信息检索技术主要有:Robot技术、索引技术、翻译技术、转换技术、过滤技术、数据库技术、结果处理技术等。
2.1Robot技术
搜索引擎通过蜘蛛机器人自动在选定的范围内进行检索,并将所检索到的信息自动标引导入数据库中
2.2翻译技术
翻译技术主要运用于跨语言搜索引擎工作过程。如下:
用户向系统提交检索词,形成一个源语言的搜索式,系统对搜索式进行语言识别,识别出语种后,就对进行提问式的词法分析和结构分析,然后把这个分析过的搜索式翻译成各种语言的搜索式,最后把这一系列的搜索式提交给系统进行检索就可以了。
2.3转换技术
转换技术主要针对中文繁简转换出理。如下:
大陆与台湾、香港的文化背景不同,因此形成的一些词汇方面的差异。例如:
大陆词汇 录像   知识产权 磁盘   新西兰  克林顿 硅谷  
台港词汇 录影   智慧财产权 磁碟   纽西兰  柯林顿  矽谷
搜索引擎应该根据自动判别词汇的繁简编码,转成相对应的词汇意思,然后进行检索
2.4过滤技术
搜索引擎通过“关键字过滤”等过滤技术对检索到的信息进行过滤、屏蔽。
2.5结果处理技术
结果处理技术主要是将检索到查询结果,进行去重、基本信息提取、排序等操作。



3.搜索引擎分类
3.1按信息的组织方式
按照信息的组织方式,一般把搜索引擎分为目录式分类搜索引擎,机器人搜索引擎,“混合型”搜索引擎
(1)目录式分类搜索引擎
录搜索引擎是通过人工方式进行资源搜集,且采取人工方式来进行网站描述。
参照分类法的思路,按照主题建立分类索引,形成一个树形等级式的分类体系结构,建立起一套既可搜索又可浏览的等级式主题分类目录,以

超文本链接方式把资源按不同类型划分成不同的目录,各类目录下面引出属于这一类别的网站名称和网址链接以及每个网站的内容简介
目前,对于中文网站来说,最重要的分类目录有以下几个:开放式目录ODP,Yahoo!,门户搜索引擎目录搜狐、网易、新浪。
。当用户查询某个关键词,系统会在这些描述中进行搜索。由于目录是依靠人工进行整理搜索的,而且只在保存的对站点的描述中进行搜索,

因此搜索范围较小,查全率较低,对偏僻主题、新兴学科、交叉学科不能很好地涵盖,类目间的交叉又会导致重复和资源浪费。另外,由于数

据库更新速度比较慢,站点本身的动态变化不能及时地反映到搜索结果中,严重影响了查询结果的时效性。
够提供更为准确的查询结果,但收集的内容却非常有限
(2)机器人搜索引擎
搜索引擎机器人(robots), 或者说是爬行程序(crawlers)、蜘蛛程序(spiders)。
机器人(robots)事实上是一个精心设计的网站爬行程序,依照网站的连接从一个网站游历到另一个网站。根据这种自动化程序,基于预先设计

好的网站排名标准及算法,对网站进行评估排名。
查全率,精确率
(3)“混合型”搜索引擎
提供分类浏览检索和关键词检索两种途径.目前,大多数引擎都采用这种方式。

3.2按支持的语言进行分类
目前国内用户使用的搜索引擎主要有两类:即英文引擎和中文引擎。
常用的英文搜索引擎包括google、Yahoo!、MSN、Infoseek等。
常用的中文搜索引擎主要有:中文google、一搜、3721、百度、中搜、搜狐搜狗、网易等。
传统中文引擎所采用的技术:
中文分词技术;
索引技术;
繁简转换;
关键词加亮;
热词提取;
词频分析;
新词发现;
更新频率;
新一代中文搜索引擎的技术特点:
海量级数据的精确搜索;
智能信息处理—基于语义理解的文本挖掘技术;

3.3垂直搜索引擎和普通的网页搜索引擎
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
   垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
  整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
    垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索…

…几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。
    举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。
   垂直搜索引擎大体上需要以下技术:
    网页结构化信息抽取技术或元数据采集技术
    分词、索引
    其他信息处理技术
   垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。



4.主流中文搜索引擎简介
4.1、Google简介
http://www.google.com
Google的成功得益于其强大的功能和独到的特点:

Google检索网页数量达24亿,搜索引擎中排名第一;
Google支持多达132种语言,包括简体中文和繁体中文;
Google网站只提供搜索引擎功能,没有花里胡哨的累赘;
Google速度极快,年初时据说有15000多台服务器,200多条T3级宽带;
Google的专利网页级别技术PageRank能够提供准确率极高的搜索结果;
Google智能化的“手气不错”功能,提供可能最符合要求的网站;
Google的“网页快照”功能,能从Google服务器里直接取出缓存的网页。

Google具有独到的图片搜索功能;
Google具有强大的新闻组搜索功能;
Google具有二进制文件搜索功能(PDF,DOC,SWF等);
Google还有很多尚在开发阶段的令人吃惊的设想和功能。

4.2、百度搜索
http://www.baidu.com
百度搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保持快速的增长。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点

4.3、雅虎中国
http://www.yahoo.com.cn
雅虎在全球共有24个网站,12种语言版本,其中雅虎中国网站(www.yahoo.com.cn)于1999年9月正式开通,它是雅虎在全球的第20个网站。
Yahoo!目录是一个Web资源的导航指南,包括14个主题大类的内容
支持中国用户完成包括英文在内的38种语言搜索
4.4、中国搜索
http://www.zhongsou.com/
中国搜索(原慧聪搜索)2002年正式进入中文搜索引擎市场,2003年8月24日慧聪搜索(现中国搜索)正式推出第三代智能中文搜索引擎.特点:
海量数据:超过2亿网页的中文信息库。
高速响应:检索平均响应时间不超过0.2秒,支持500次/秒高迸发量。
智能排序:非唯一主导因素的高级人工排序
行业分类:43个行业的分类,使搜索更加精准
具备第三代智能中文搜索引擎的特点


4.5、搜狗搜索
http://www.sogou.com/
搜狗是搜狐公司于2004年8月3日推出的完全自主技术开发的全球首个第三代互动式中文搜索引擎,是一个具有独立域名的专业搜索网站--“搜狗”。以一种人工智能的新算法,分析和理解用户可能的查询意图,给予多个主题的“搜索提示”,在用户查询和搜索引擎返回结果的人机交互过程中,引导用户更快速准确定位自己所关注的内容,帮助用户快速找到相关搜索结果,并可在用户搜索冲浪时,给与用户未曾意识到的主题提示。
搜狗搜索引擎的三大特点:
  海量:全球首个网页收录量达到100亿的中文搜索引擎
  及时:每天更新5亿网页,最新资讯最快1分钟即可被检索到
4.6、奇虎社区搜索引擎
http://www.qihoo.com/
特点:
奇虎社区搜索引擎是具备Web2.0特征的垂直搜索引擎
专著于社区搜索,增强与网民的互动,强调个性化搜索。

4.7、网易搜索引擎 (http://search.163.com/)
特点:
开放式目录管理系统(ODP)
拥有超过一万个类目,超过25万条活跃站点信息,
日增加新站点信息500~1000条,日访问量超过500万次
4.8、北京大学天网中英文搜索引擎
http://e.pku.edu.cn/
收录 135 万网页和 9 万新闻组文章,
支持电子邮件查询。
无分类查询。
不支持数字关键词和URL名检索。

4.9、Openfind搜索引擎
http://www.openfind.com.tw
Openfind创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,特点:
海量数据:宣布累计抓取网页35亿,
多元排序(PolyRankTM):使用者用可以不同标准来排序查询结果