元搜索引擎返回结果的合成策略--Focus on DM&IR

来源:百度文库 编辑:神马文学网 时间:2024/04/28 22:53:38
元搜索引擎返回结果的合成策略 [Nirvana 发表于 2006-12-11 10:43:00]
搜索引擎(search engine)是一种基于关键字检索的因特网信息查询工具,其核心是一个排序系统.由于因特网上的信息量巨大,没有一个搜索引擎能够覆盖整个网络.为了获得所需的信息,人们有时不得不使用
多个搜索引擎.而元搜索引擎(meta search engineE)则是多个搜索引擎的集成,其工作过程可以归纳为
如下6 步:
(1) 接受用户的原始查询
(2) 把原始查询分别转换为各个成员搜索引擎能够接受的形式
(3) 向成员搜索引擎发送查询
(4) 收集各个搜索引擎的原始查询结果
(5) 对原始查询结果进行合成,形成最终结果
(6)把最终查询结果递交给用户
Metasearch, SavvySearch,Metacrawler,Profusion,Inquirus 和MetaGer 等是一些有代表性的元搜索引擎系统.从元搜索引擎的工作原理可以看出,查询结果合成是一个十分重要的环节.由于搜索引擎查询结果的规模常常比较庞大,而用户又通常缺乏足够的耐心、精力和时间去遍历所有的命中文档,他们一般只会检查前几条或几十条信息,因此,最终查询结果中各个项目的排列顺序是至关重要的.
查询结果合成在分布式信息检索系统中得到了广泛的关注,人们提出了许多种合成方法.有4 种典型的合成算法:
(1) 如果只有文档的原始顺序是已知的,则可以采用间隔排列合成法:首先把每个查询结果中的第1 项交叉列出,然后再把各个查询结果中的第2 项交叉列出,依此类推
(2) 如果可以得到文档的原始相关性分值,那么当这些分值可以直接比较时,则可以采用原始分值合成法:直
接依据每个文档的原始相关性分值决定其合成排列次序
(3) 如果文档的原始分值不能直接比较,则可以通过对idf(倒排文档频率)等进行标准化来得到规范的相关性分值,并以之为根据确定文档的合成排列次序(规范分值合成)
(4) 加权分值法:首先计算出各个信息源相应于查询条件的重要性,再以此为权乘上文档的相关性分值作为决定其合成排列次序的根据.
实际的元搜索引擎系统所使用的合成方法是各种各样的.
Metacrawler引入概念可信度来决定文档与查询的相关程度.Metacrawler 把可信度的取值范围限定0~100 0 之间.每个搜索引擎查询结果中第1 项的可信度初值为1 000,第2 项的可信度初值为999,依次递减.重复出现文档的可信度等于其所有初值之和.从本质上看,Metacrawler 的合成策略允许各个搜索引擎就最终结果中文档的排列顺序进行投票,被多个搜索引擎选中的文档更有可能排在只被一个搜索引擎选中的文档前面.
Profusion的合成算法其实就是规范分值法和加权分值法的一种集成.它由3个步骤组成:首先把搜索引擎
给出的文档与查询之间的(原始)相关值规范映射到[0,1],然后把规范分值乘上搜索引擎的权,最后如果有重复出现的文档,则取其中的最大值作为文档的(最终)相关值.
SavvySearch的合成方法就是规范分值法,重复出现的文档则以其相关性分值之和作为排序的依据.
Inquirus采用了客户端重新计算文档相关性的合成策略.与Kirsch 不同,Inquirus 首先对搜索引擎查询结
果中的文档进行下载,然后再在客户端独立计算文档与查询之间的相关性.