中文搜索引擎发展现状

来源:百度文库 编辑:神马文学网 时间:2024/04/24 09:55:33
中文搜索引擎发展现状和使用技巧

卢旺堂
文章编号:1005-6033(2005)01-0265-02收稿日期:2004-11-08


摘要:随着网络技术的发展,网上信息量急剧增长,中文搜索引擎为人们在网络信息中实现个性化查询提供了方便。简述了中文搜索引擎的发展现状和工作流程,介绍了常用的网络中文搜索引擎及其使用技巧,指出有针对性地选择合适的搜索引擎,并利用检索中的一些经验技巧,可以达到事半功倍的效果。
关键词:网络;中文搜索引擎;工作流程;使用技巧
中图分类号:TP393文献标识码:A1中文搜索引擎的发展现状和工作流程
搜索引擎是指对WWW站点资源和其他各类网络资源进行标引和检索的一类检索系统机制,是网上查询信息的主要工具,也是互联网上最为有效的信息导航工具和网上冲浪的得力助手。在最受欢迎的中文热门网站中,中文搜索引擎是吸引用户的关键。根据中国互联网信息中心(CNNIC)的统计结果,在中国网民中,搜索是排在电子邮件之后的第二大互联网应用。从1993年我国建立了第一个Internet网络节点以来,随着眼球经济席卷互联网,各具特色的中文搜索引擎在近lO年中超常规发展。目前在中文搜索领域,百度搜索引擎占有中文互联网网页检索80 %的市场份额。此外国内知名的搜索引擎还有搜狐、网易、新浪、一搜、中国搜索联盟、372l网络实名等一系列有影响的中文搜索引擎,国外比较有名的中文搜索引擎有Google,Lycos等。中文搜索引擎除了常规网页内容的搜索,还可以定制MP3、图片、歌词、新闻、诗词和购物等专业内容的搜索服务。
搜索引擎工作流程一般由3部分组成,分别是搜索采集数据、建立索引数据库、根据用户需求输出检索结果。
(1)搜索采集数据:搜索程序按照一定规律和方式对网上WWW站点进行搜索,将搜索到的Web页面信息存入到搜索引擎的临时数据库。搜索程序通常是指一种被称为“蜘蛛”的“机器人”程序,“机器人”是编程的专用术语,它指那些可以高速不间断地执行某项任务的程序。搜索引擎的“机器人”程序可以像蜘蛛一样自动沿着任意网页中的链接爬到其他网页,并自动收集因特网上千万到几十亿个网页信息。在采集的过程中,搜索程序一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。
(2)建立索引数据库:由分析索引系统程序对收集回来的数据进行分析,提取相关信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大些与其他网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。在构建索引数据库的同时,数据采集标引功能仍然继续发挥作用,主要是针对不断变化的网络信息资源进行跟踪,使索引数据库保证能够准确反映网络信息资源的当前状况。
(3)输出检索结果:根据用户的查询信息在索引数据库中快速检索,并根据关键词进行排序,当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低依次排列,然后由页面生成系统显示查询结果,将搜索结果组织起来反馈给用户。
2常用的网络中文搜索引擎介绍
2.1国内三大门户网站的搜索引擎
(1)搜狐搜索。搜狐是国内最著名的门户网站,也是国内最早提供搜索服务的站点。互联网概念在国内的普及,搜狐功不可没。搜狐于1998年推出中国首家大型分类查询搜索引擎,到现在已经发展成为中国影响力最大的分类搜索引擎。搜狐设有独立的目录索引,每日页面浏览量超过800万,并新推出第三代互动式搜索引擎搜狗,提供网站、网页、类目、新闻、黄页、中文网址、软件等多项搜索选择。
(2)网易搜索。网易搜索引擎最大的特色之一是采用“开放式目录”管理方式,在功能齐全的分布式编辑和管理系统的支持下,现有5 000多位各界专业人士参与可浏览分类目录的编辑工作,极大地适应了互联网信息爆炸式增长的趋势。新版搜索引擎在此基础上,更增加了全新搜索技术及广告搜索服务,这一举措将可使用户检索高达16亿条的信息和及时的新闻内容,同时为广告客户提供更有效的广告方式。
(3)新浪搜索。这是中国第一家可对多个数据库查询的综合搜索引擎。在关键词的查询反馈结果中,在同一页面上包含目录、网站、新闻标题、新闻全文、频道内容、网页、商品信息、消费场所、中文网址、沪深行情、软件、游戏等各类信息的综合搜索结果,最大程度地满足用户的检索需要,使用户得到最全面的信息,这项服务在国内尚属唯一。
2.2其他常用中文搜索引擎介绍
百度搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3.5亿页以上,并且还在保持快速的增长。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点,能够帮助广大网民快速地在浩如烟海的互联网信息中找到自己需要的信息,因此深受网民的喜爱。百度MP3搜索在每日更新的3.5亿中文网页中提取MP3下载链接,从而建立了庞大的MP3歌曲库;百度新闻搜索是目前世界上最大的中文新闻搜索平台,每天发布80 000~100 000条新闻;百度图片搜索从3.5亿中文网页中提取各类图片,建立了目前世界最大的中文图片库。百度还提供中文搜索风云榜,可以使你及时把握当前各个方面的焦点和热点。
一搜是雅虎公司在中国推出的独立搜索门户。一搜于2004年6月21日正式发布,具有简洁、专业、海量、客观精准、国际化、稳定等特质,是值得依赖的专业搜索门户。一搜推出的时间段检索功能,使用户可以按时间段检索互联网上的信息,根据需要用户可以筛选出一周内、一月内或是三月内的信息。
3721已经悄然将用户的IE地址栏打造成了一个神奇的搜索器,提供了许多独具特色的搜索功能,特别是其中的歌曲搜索和短信发送功能。不仅如此,3721还提供了著名搜索引擎的地址栏快速搜索功能,直接在地址栏中先输入著名搜索引擎的第一个字母,然后输入一个空格加上关键词,即可得到该搜索引擎的结果。
2.3国外重要的两个中文搜索引擎
Google中文搜索引擎。Google开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对30多亿网页进行整理,它可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。此外Google还有储存网页的快照,当存有网页的服务器暂时出现故障时您仍可浏览该网页的内容。
Lycos中国搜索引擎。随着国内带宽的瓶颈逐渐被解决,多媒体文件(包括MP3,图片和Video等等)的搜索出现在众多搜索引擎的热门搜索排行榜上,Lycos在中国的搜索引擎特别推出了多媒体搜索业务。同时该搜索引擎拥有全球最大的FTP和多媒体搜索库。
3中文搜索引擎使用技巧
3.1根据检索目的选择合适的搜索引擎
互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千Gb甚至几万Gb。但即使最大的搜索引擎建立超过20亿网页的索引数据库,也只能占到互联网上普通网页的30 %,我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。因为在查询范围、检索功能等方面,各种搜索引擎各具特长,因此应选用不同的搜索引擎,才能做到有的放矢,事半功倍。一个好的专业搜索引擎(有人物搜索引擎、旅行路线搜索引擎、域名搜索引擎、网址搜索引擎、主机名搜索引擎、商业搜索引擎、RP搜索引擎等)在某一行业的信息较之综合性的搜索引擎更全、更新,而且因信息相对集中,检索起来也能够节省很多时间,查准率也有保证。进行信息检索过程中,应根据课题的学科领域、专业范围、所需要的信息形式有针对性地选择搜索引擎和检索工具。比如平常要搜索网站、网页或MP3、图片等多媒体文件,可以用百度、Google搜索引擎,搜索的结果比较全面;要了解查询某一些方面的网站,可以使用搜狐、网易的目录搜索,分类比较专业全面;需要简便快捷可使用3721的IE地址栏搜索;而一搜、Lycos中国搜索引擎则分别适用于限制时间段的搜索和对FTP搜索情有独钟的用户。同时多个搜索引擎联合使用,可以使搜索功能更强大,搜索结果更全面。
3.2选择合适的关键词
使用搜索引擎进行信息检索,最重要的技巧是关键词的选醛关键词,就是您输入搜索框中的文字,也就是您命令寻找的东西。关键词的内容可以是:人名、网站、新闻、小说、软件、游戏、星座、工作、购物、论文等。在进行检索之前,应首先把检索课题分解成一系列的基本概念,再为每个概念确定一个合适的关键词或词组,最后确定关键词之间的逻辑关系。一般搜索引擎都要求关键词一字不差。例如:分别输入 [舒淇]和[舒琪],搜索结果是不同的。分别输入[电脑]和[计算机],搜索结果也是不同的。因此,如果您对搜索结果不满意,建议检查输入文字有无错误,并换用不同的关键词搜索。输入多个关键词搜索,可以获得更精确更丰富的搜索结果。当你要查的关键词较为冗长时,建议将它拆成几个关键词来搜索,词与词之间用空格隔开。多数情况下,输入两个关键词搜索,就已经有很好的搜索结果。
3.3构造恰当的检索式
关键词确定之后,根据基本概念之间的逻辑关系,利用各种逻辑运算和限定方法,来构造检索提问式。常见的逻辑运算和限定方法如下:一是使用AND,OR,NOT来进行逻辑组配;二是使用“—”来限定关键词一定不要出现在检索结果中。例如要搜寻关于“武侠小说”,但不含“古龙”的资料,可使用如下查询:“武侠小说—古龙”。
3.4使用搜索软件
现在许多软件都有不需打开网页而直接利用搜索引擎搜索的功能,有的还可以同时在多种搜索引擎中间搜索,使我们更快速地得到较全面的结果,因此可以下载安装一些这类软件,比如IE搜索伴侣、百度搜霸等,可以使我们达到事半功倍的效果。
总之,搜索引擎在信息社会具有很重要的价值,随着计算机及其网络技术的飞速发展,专家预测第四代搜索引擎的特点是“求易”,在目前求快、求难的基础上将加重智能化的服务。我们应在使用中不断积累经验,更好地享受网络时代给我们提供的快捷和便利。
参考文献
[1]徐家坤.搜索引擎的实用检索技巧[J].科技情报开发与经济,2003(1):97.
[2]杨敏.寻找的乐趣:搜索引擎[N].中国电脑教育报,2004-09-20(A2).
(责任编辑:刘翠玲)
───────────────
第一作者简介:卢旺堂,男,1969年4月生,山西省原平市人,1992年毕业于山西大学图书馆学系,馆员,现为太原大学图书馆副馆长,山西
The Developing Situation and Application Skills of Chinese Search Engine

LU Wangtang

ABSTRACT:Along with the development of the network techniques, the information quantity on the Internet is growing rapidly, and the Chinese search engine provides convenience for the people to realize the individual polling in the network information. This paper expounds the developing situation and working process of the Chinese search engine, introduces some common Chinese search engines and their application skills, and points out that making proper selection of the search engines correspondingly and using some experiences and skills of the retrieval can obtain effective results.
KEY WORDS:network; Chinese search engine; working process; application skill