集成搜索引擎与元搜索引擎[转贴] - 网上读书园地 - 信息资讯 - 检索讨论 - 检索方...

来源:百度文库 编辑:神马文学网 时间:2024/04/28 12:51:25
集成搜索引擎与元搜索引擎[转贴]
作者: acdacd  发布日期: 2006-7-08    查看数: 211   出自:网上读书园地(www.readfree.net)
2003-10-05 作者 邢志宇
--------------------------------------------------------------------------------
搜索引擎是开启网络知识殿堂的钥匙,获取知识信息的工具。随着网络技术的飞速发展,搜索技术的日臻完善,中外搜索引擎已广为人们熟知和使用。任何搜索引擎的设计,均有其特定的数据库索引范围、独特的功能和使用方法,以及预期的用户群指向。一种搜索引擎不可能满足所有人或一个人所有的检索需求。在某些情况下,如文献普查、专题查询、新闻调查与朔源、软件及MP3下载地址搜索等等,人们往往需要使用多种搜索引擎,对搜索结果进行比较、筛选和相互印证。为解决逐一登陆各搜索引擎,并在各搜索引擎中分别多次输入同一检索请求(检索字串)等烦琐操作,集成搜索引擎和元搜索引擎应运而生。
集成搜索引擎和元搜索引擎尽可能地减少和优化了检索操作,实现了“一次检索输入,多引擎同时搜索”。
目前国内对集成搜索引擎和元搜索引擎的概念界定尚不清晰,二者多互称、通用。事实上,集成搜索引擎和元搜索引擎是两种不同类型的搜索工具,既有共同特点,又有明显差异。
一、集成搜索引擎
集成搜索引擎( All-in-One Search Page),亦称为“多引擎同步检索系统 ”(如http://www.bioon.com/multisearch.htm)是在一个WWW页面上链接若干种独立的搜索引擎,检索时需点选或指定搜索引擎,一次检索输入,多引擎同时搜索,搜索结果由各搜索引擎分别以不同页面提交,其实质是利用网站链接技术形成的搜索引擎集合,而并非真正意义上的搜索引擎。
集成搜索引擎无自建数据库,不需研发支持技术,当然也不能控制和优化检索结果。但集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业(如FLASH、MP3等)搜索引擎集成链接,深受特定用户群欢迎。在搜索引擎发展进程中,集成搜索引擎只是元搜索引擎的初级形态,以其方便、实用在网络搜索工具家族中占据一席之地。典型的集成搜索引擎有“搜索之家”(http://so.web165.com/)、“网际瑞士军刀”(http://free.okey.net/~free/search1.htm)等。
二、元搜索引擎
元搜索引擎(Metasearch Engine),是一种调用其它独立搜索引擎的引擎,亦称“搜索引擎之母(The mother of searce engines)”。在这里,“元”(Meta)为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。相对元搜索引擎,可被利用的独立搜索引擎称为“源搜索引擎”(source Engine),或“搜索资源”(searcing resources),整合、调用、控制和优化利用源搜索引擎的技术,称为“元搜索技术”(Meta-searching technique),元搜索技术是元搜索引擎的核心。
元搜索引擎分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将用户的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理,串行处理式元搜索引擎将用户的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询处理。
元搜索引擎是用户同时利用多引擎进行网络搜索的中介。检索时,元搜索引擎根据用户提交的检索请求,调用源搜索引擎进行搜索,对搜索结果进行汇集、筛选、删并等优化处理后,以统一的格式在同一界面集中显示。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。如提交检索请求时,根据源搜索引擎的特点和技术参数,指定优先顺序,并对检索时间、检索结果数量进行控制;作为若干源搜索引擎的检索接口代理,元搜索引擎必须具有较强的字符和语法转换功能,使用户的检索请求为各具语法特点的不同的源搜索引擎所人知和接受; 而对检索结果的显示,不同的元搜索引擎有不同的处理技术,由于元搜索引擎设定的检索结果排序依据、最大返回结果数量、相关度参数及优化机制等不同,调用相同的源搜索引擎的不同元搜索引擎显示检索结果的数量多少、排序先后、结果信息描述选择亦有较大差异。
一款理想的元搜索引擎应该具备以下特点和功能:第一,含盖较多的搜索资源,可随意选择和调用源搜索引擎;其次,具备尽可能多的可选择功能,如资源类型(网站、网页、新闻、软件、FTP、MP3、图像等)选择、返回结果数量控制、结果时段选择、过滤功能选择等;第三,强大的检索请求处理功能(如支持逻辑匹配检索、短语检索、自然语言检索等)和不同搜索引擎间检索语法规则、字符的转换功能(如对不支持“NEAR”算符的搜索引擎,可自动实现由“NEAR”向“AND”算符的转换等);第四,详尽全面的检索结果信息描述(如网页名称、URL、文摘、源搜索引擎、结果与用户检索需求的相关度等);第五,支持多种语言检索。
目前运营的元搜索引擎各具特色,功能各有侧重,完全“理想”的尚不多见。一些元搜索引擎在某些方面较为优秀,而其它功能则欠缺或需改进:如大多元搜索引擎不支持多语种,尤其是汉语检索;一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;部分元搜索引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;大部分元搜索引擎仅支持调用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人为地限制了搜索资源的利用;在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约:一方面,源搜索引擎的各具特色的强大功能在元搜索引擎中受到限制而不能充分体现,而另一方面,任何一种元搜索技术都不能发掘和利用源搜索引擎的全部功能。
1995年华盛顿大学硕士生 Eric Selberg 和 Oren Etzioni 推出第一个元搜索引擎---Metacrawler以来,这一新型的网络检索工具异军突起,发展迅速,目前可用的元搜索引擎已近百种。尽管元搜索引擎存在着这样那样的功能局限,但其以含盖较多的搜索资源,能够在尽可能短的时间内提供相对全面、准确的检索结果等诸多优异功能受到用户的青睐,已渐成为一种不可或缺的极具潜力的网络检索工具。
元搜索引擎一览:
《搜索引擎观察》2002年最佳元搜索引擎
1、Vivisimo (http://vivisimo.com/)
调用多种搜索引擎,并对返回的结果自动分类,界面友好,简单易用。
2、EZ2WWW (http://www.ez2www.com/)
调用AllTheWeb, AltaVista, Google, Open Directory, Teoma, Wisenut and Yahoo等搜索引擎,高级搜索功能提供1000多种专项资源检索,可进行目录检索。
3、Kartoo (http://www.kartoo.com/)
在搜索结果中显示链接各相关页面的关键词。
4、SurfWax (http://www.surfwax.com/)
有一个其它元搜索引擎没有的独特功能,即点击每条结果左边的“网址揿钮”图标,可浏览该结果包括的任何页面,并显示搜索语句在文件中的位置。可以把搜索结果和文件存储起来以备后用。
5、Fazzle (http://www.fazzle.com/)
即可进行一般的网址搜索,又有一个主题目录提供专题资源搜索。其前身为SearchOnline
著名元搜索引擎
1、InfoGrid (http://www.infogrid.com/)
提供与主要搜索网站的直接连结和目录检索,具有强大的元搜索和新闻搜索功能。
2、Infonetware RealTerm Search (http://www.infonetware.com/)
原为检验网络分类技术而设计。它以元搜索引擎知名,但具有强大的对搜索结果进行主题分类的功能。与众不同的是,用户可选择不同的主题,并得到来自所有主题搜索结果,而不是仅仅把搜索结果限制在一个主题范围之内。
3、Ithaki (http://www.ithaki.net/dir.html)
支持包括中文在内的14种语言检索。
4、Ixquick (http://www.ixquick.com/)
可搜索网站、MP3、新闻、图象等多种网络资源。
5、ProFusion (http://www.profusion.com)
拥有智能化的搜索方案,提供诸如搜索引擎选择、检索类型、结果显示、摘要选项、链接检查等较多的检索选项,支持个性化设置,可以选择三个最好的搜索引擎、或三个最快的搜索引擎、或全部搜索引擎、或手工选择任意几个搜索引擎来进行搜索。自动实现符合特殊检索语法要求的转换,如在调用Excite、InfoSeek、WebCrawler时将“NEAR”转换成“AND”,在调用GoTo、Yahoo时将“NOT”删除等。原为堪萨斯州大学所有,2000年四月被Intelliseek 搜索公司购买。
6、Mamma (http://www.mamma.com)
1996年面世,自称为“搜索引擎之母”的并行元搜索引擎,可同时调用7个最常用的独立搜索引擎,并且可查询网上商店、新闻、股票指数、图像和声音文件等资源。其特点是检索界面友好,检索选项丰富,主要包括:可控制调用的独立搜索引擎、选择使用短语检索功能、设定检索时间、设定每页可显示记录数等。另外,Mamma支持常用检索语法在不同搜索引擎中的转换,还提供了专门检索页面文件标题的特殊检索服务,以及通过E-mail传输检索结果的特色功能。检索结果以相关性排序,内容包括网页名称、URL、文摘、源搜索引擎。
7、MetaCrawler (http://www.metacrawler.com)
1995年由华盛顿大学推出,1997年被InfoSpace购买。支持调用12个独立搜索引擎,提供涵盖近20个主题的目录检索服务。其检索特性非常丰富,包括常规检索、高级检索、定制检索、国家或地区的资源检索等检索服务模式。其中,高级检索模式可实现:搜索引擎的选择调用,基于域名、地区或国家的检索结果过滤,最长检索时间设置,每页可显示的和允许每个搜索引擎返回的检索结果数量的设定,设定检索结果排序依据(包括相关度、域名、源搜索引擎)等。以上内容均可作为定制检索的个性化选项并予以保存。另外,检索结果中包括一个以1000为最大值的相关度指标。
8、ByteSearch (http://www.bytesearch.com)
搜索速度快,可检索资源丰富,搜索范围包括Web、城市信息、公司名录、域名、FTP网站、多媒体、新闻组、包裹跟踪等,并提供新闻浏览、URL提交、最新的20个检索浏览、联机商店等内容方面的服务。支持完全匹配(All)、部分匹配(Any)、短语检索(Phrase)等特性检索功能,没有搜索引擎列表,不能控制源搜索引擎的选择。
9、SavvySearch (http://savvy.cs.colostate.edu:2000/)
支持二十种语言(不包括中文),可调用全部或任意几个搜索引擎,可选择每个搜索引擎返回结果的数目,可进行目录检索。
常用元搜索引擎
1、qbSearchhttp://www.qbsearch.com/)
2、Query Serverhttp://www.queryserver.com)
3、Turbo10http://turbo10.com/)
4、Dogpilehttp://www.dogpile.com/)
5、Webcrawlerhttp://www.webcrawler.com/)
6、Search.comhttp://www.search.com/)
其它元搜索引擎
1、1Blinkhttp://www.1blink.com/)
2、Gimeneihttp://gimenei.com/)
3、IcySpicyhttp://www.icyspicy.com/)
4、MetaEurekahttp://www.metaeureka.com/)
5、Moonmisthttp://www.moonmist.info/)
6、Widow Meta Searchhttp://www.widow.com/)
7、Family Friendly Search
http://www.familFamily Friendly Searchyfriendlysearch.com/)
8、Searchy.co.ukhttp://www.searchy.co.uk/)
9、TeRespondohttp://sl.terespondo.com/home/)
10、Watson for the Macintosh
http://www.apple.com/downloads/m ... ilities/watson.html)
11、Chubbahttp://chubba.whatuseek.com/)
12、Debriefinghttp://debriefing.ixquick.com/)
13、C4http://www.c4.com/ )
14、Infindhttp://www.infind.com/)
15、Infozoidhttp://www.infozoid.com/)
16、Ixquickhttp://www.ixquick.com)
17、OneSeekhttp://www.oneseek.com/)
18、One2Seekhttp://one2seek.com/)
19、Query Serverhttp://www.queryserver.com/general.htm)
20、Proteushttp://www.thrall.org/proteus.html)
21、Searcheshttp://www.searches.com)
22、Searchbughttp://www.searchbug.com/)
23、Skwormhttp://www.skworm.com/)
24、Skwormhttp://www.skworm.com/)
25、Sleuthhttp://www.isleuth.com)
26、SurfWaxhttp://www.surfwax.com/)
27、Supercrawlerhttp://www.supercrawler.com/)
28、Highway61http://www.highway61.com/)
29、Cyber 411http://www.cyber411.com/ )
集成搜索引擎与元搜索引擎[转贴] - 网上读书园地 - 信息资讯 - 检索讨论 - 检索方... 利用GOOGLE全面突破ip限制 利用GOOGLE全面突破ip限制 - 网上读书园地 - 信息资讯 - 检索讨论 - 检索方法 画地为牢与跳出圈子 - 网上读书园地 - 信息资讯 减少搜索引擎使用 恢复大脑检索运动 《汉语大字典(PDF 884MB高清检索版)》 读书参考 网上读书园地论坛 - power... 英语生活箴言 [转贴] - 网上读书园地 - 信息资讯 - 专业交流 - 外语学习 免费读... 空空考研ftp - 网上读书园地 - 信息资讯 - 资源共享 - FTP联盟 搜索引擎用户使用关键词组合检索的比例逐年递增 搜索引擎机器人研究报告 中文全文检索网 如何做好一个垂直搜索引擎[原创] 中文全文检索网 搜索引擎用户使用关键词组合检索的比例逐年递增 网络资源的收集和文献的检索 网上读书园地论坛 免费学术资源站 - powered by p..天齐天宁天安. 7招解决安全 - 网上读书园地 - 信息资讯 - 专业交流 - 计算机技术 免费读书 《TIME》中的1000个美妙英语句子 - 网上读书园地 - 信息资讯 - 专业交流 - ... 经典英语句子(背熟了,你的英语水平就会突飞猛进) - 网上读书园地 - 信息资讯 -... 基于Sphinx MySQL的千万级数据全文检索(搜索引擎)架构设计[原创] 基于Sphinx+MySQL的千万级数据全文检索(搜索引擎)架构设计[原创] - 回忆未来... 基于Sphinx MySQL的千万级数据全文检索(搜索引擎)架构设计[原创] - 回忆未来[张宴] - 服务器系统架构与底层研发 致张维迎学弟的一封公开质问信 - 网上读书园地 - 信息资讯 - 读书交流 - 读书参考免... 致张维迎学弟的一封公开质问信 - 网上读书园地 - 信息资讯 - 读书交流 - 读书参考免... 删除U盘时提示无法停止‘通用卷’设备的解决方法 - 网上读书园地 - 信息资讯 - 专业交... 搜索引擎 搜索引擎 搜索引擎