同主题-搜索引擎技术-第四代搜索引擎前沿综述

来源:百度文库 编辑:神马文学网 时间:2024/04/28 07:59:12
标  题: 第四代搜索引擎前沿综述
发信站: 水木社区 (Wed May 26 00:39:14 2010), 站内

一个课程论文,我把长久以来关于下一代搜索引擎的想法总结了下,希望和大家交流。
我只是入门水平,不正确之处望指正。下面贴上我的主要想法:

 
另外推荐下文中提到的问答平台Quora.com,上面有个帖子很有意思
Could two smart CS PhD studentscreate a search engine that unseats Google?
How vulnerable is Googleto this possibility?
需要邀请的站短我邮件地址吧。登录要翻墙用facebook一次,以后就不用了。

2.3第三代搜索引擎的缺陷

基于链接分析的第三代搜索引擎呈现出以下几点局限性:
1,一个关键字查询词对所有用户呈现的搜索结果均相同。但是实际上,比如一个计算
机用户搜索“树”可能指数据结构,与其他用户有很大区别。
2,Pagerank基于链接反映网页质量的方法,只反映了网页制作者对于网页质量的评
价,并没有反映网页浏览着对于网页的评价。对于一些不善于进行链接优化的网站,虽
然内容可能很优质,但是Pagerank可能并不高。同时,一些新网站很难在短期内提高
Pagerank,而一些擅长优化技术的网站会用大量垃圾链接作弊。
3,基于关键词的搜索方法是建立在用户对于搜索有明确目的,并能清晰表述这种目的
的假设上。但是实际上,用户的搜索引擎使用水平参差不齐;并且由于存在同义词等现
象,同一个搜索请求有不同的表示方法,搜索结果也大为不同。
4,现在的图像搜索,视频搜索,音乐搜索也都是基于关键字,如图像Tag,音乐电影介
绍等,而文字对于这些信息的表现能力是很有限的,也不直观。
5,并不是所有有价值的信息都能被搜索引擎爬取到,比如学校论坛,公司内网资料等
有价值的资料就无法被搜索引擎检索,这叫做Hidden Web现象;同时一些信息需要经过
人脑的加工,这方面问答平台更能胜任。这部分不能被爬取的信息实际上占了人类所有
信息的大部分。

2.4 下一代搜索的趋势

此处的下一代搜索即指第四代搜索引擎,一个主要的变化是从信息检索(Information
Retrieval)到信息推送(InformationSupply)的转变,信息推送将主要通过个性化搜
索和社交搜索实现。
第四代搜索将呈现出以下几个主要趋势:
1,个性化的搜索。基于个人的网页浏览历史,搜索关键词历史,个人档案信息,使得
即使是同一个搜索关键词,也能为不同用户呈现不同的搜索结果。个性化搜索将基本解
决2.3节提到的第一点局限。
2,社交搜索大大提高网页排序质量,其影响主要在两方面:a,网页浏览者(普通用
户)对于网页的评价(收藏行为,评分,举报等)将可以作为排序的依据b,通过用户的
社交圈推测用户兴趣,通过用户间的不同程度信任关系为其提供不同权重的网页排序推
荐。社交搜索也包括问答系统,用优质的设置提高信息的质量。社交搜索将基本解决
2.3节中提到的2,3,5中Pagerank和关键字搜索的局限。
3,跨媒体搜索将打通文字,图像,声音,视频间的界限,使得用图像搜图像,用声音
搜声音,用图像搜视频等都成为可能。
本文的以下3,4,5节就将分别从个性化搜索,社交搜索,跨媒体搜索三个主要趋势进
行探讨,并且尝试探讨基因搜索,移动搜索,情绪搜索。

3.   个性化搜索(Personalized Search)

个性化搜索是搜索引擎根据用户搜索的历史记录,包括用户所搜索的关键词,在搜索结
果中的点击情况,在各个网站的访问情况,书签情况等,然后对这些信息进行分析,在
用户搜索新的关键词时,能返回更有针对性的搜索结果,从而提高用户体验
个性化搜索主要存在两个难点:a,搜索引擎怎样才能准确猜测用户在特定时间的搜索目
的?人的需求是不断变更的,依据历史记录完全可能得出相差十万八千里的猜测。b,如
何在利用用户信息为其提供个性化服务的同时,保护用户的隐私?
对于第二个问题,YaboXu[4]等人的文章中进行了有益的探讨。
首先,他们观察到两个有趣的现象:
a,如果能够提供个性化的服务,用户愿意牺牲一些隐私。
b,不一定需要用户隐私的细节来猜测用户兴趣,实际用更普遍的信息也可推测用户兴
趣。

4.    社交搜索 (SocialSearch)
随着Facebook为代表的社交网站兴起,互联网用户通过网络进行社交的时间大大增加,
并且在网络上留下了真实社交关系的数字表达,这使得利用社交关系改善搜索质量成为
了可能。如第2节所说,社交关系将从三个方面大大改善搜索质量。

4.1用户对网页评价改善搜索结果排序质量
用户对网页的评价包括主动评价和行为暗示。主动评价包括通过delicious收藏夹的评
分,评论等,行为暗示则包括用户对网页的收藏等。Shenghua Bao[5]通过delicious收
藏夹的数据,进行了这方面的研究。
他们引入了两个评价指标及相应算法:SSR(SocialSimRank)评价搜索关键词和用户对收
藏夹评价的关联性,SPR(SocialPageRank)揭示了网页在浏览者中的热度。
    
他们的结果显示,通过SSR和SPR建立的搜索引擎,更容易发现优质但是外链较少的网
页。比如这个网页http://37signals.com/papers/introtopatterns//index虽然内容很
少,但是Pagerank为0,而SPR为10,这样有效的发掘出了内容优质但是不善于搜索引擎
优化的网页,并且新网站也更容易得到推广。
但是Shenghua Bao等人的这篇论文也存在一定的局限性,首先数据集delicious仅有用
户对网页的文字评论而没有评分,因此无法对网页质量进行较大区分。其次没有考虑不
同的社交圈子对于网站的不同评价。另外可以做的提升就是对用户的评价进行opinion
mining。

4.2 根据用户社交圈推测用户兴趣
一个社交圈子通常有相似的喜好,在社交关系的基础上,可以通过用户的社交圈子来推
测其兴趣,从而有产生更准确的搜索结果。同时,用户之间可以建立信任关系,也可改
善搜索效果。信任关系的应用比如如下情景:A是搜索引擎专家,B是一个本科生,B通
过twitter与A建立了信任关系,同时A又通过delicious对很多搜索引擎研究网站进行了
评价和打分;因此,B可以声称在搜索引擎领域对A十分信任,从而在B搜索此领域关键
词时A推荐的网页将有更高的排序权重。

 
4.3高效的问答系统
问答系统是另一个高效的获取信息的渠道,我们熟知的问答系统包括百度知道,
AskJeeves等,但是他们主要存在两个关键问题:1,问答者水平参差不齐,十分缺少领
域专家的参与;2,通过积分奖励的办法并不能吸引有价值的回答,经常看到的回答都
是互联网上的复制粘贴,而缺乏思考。
现在我发现的最好的问答系统是美国Quora.com。
 
Quora的优势主要体现在:1,新用户需要通过原有用户的邀请才能加入,并且通过
Facebook Connect登录,自然地在问答系统内形成了社交关系;同时由于初始用户都是
硅谷的IT人士,因此从一开始就聚集了大量领域专家,保持了问答的水平。2,由于社
交关系的引入,即使系统并没有设置积分奖励,用户仍然十分活跃,他们的参与完全是
因为对知识的渴望和分享的欲望,进一步保证了信息质量。3,良好的信息组织形式,
包括类似wiki的用户自主建立,编辑Topic,每个Topic下有一系列问题,问题之间又通
过RelatedQuestion联系起来。4,在现有Quora的信息架构上,未来还可以利用机器学
习推测用户的话题喜好等。

5.   跨媒体搜索 (Cross Media Search)
传统的文本、图像、音频和视频分析与检索技术都是相互独立的,缺乏面向多种媒体的
跨媒体搜索技术。这些多媒体信息应用的发展,要求信息搜索“必须是跨媒体的,也就
是说用户通过统一的界面和单一的提问,就能够获得以各种媒体形式存在的语义相似的
结果。”为了提供支持多种检索方式和多模态用户信息需求的跨媒体检索,跨媒体搜索
技术研究涉及海量多媒体数据的智能处理、多通道信息的融合和集成、快速准确的跨媒
体索引等关键问题研究和应用。最终,跨媒体将打通图像,文字,声音,视频的界限,
使得用图像搜图像,用声音搜声音,用图像搜视频等都成为可能。

6.    其他趋势
JeongheeYi[8]等人发现在移动用户的搜索关键词通常在2.35个词,短于通过PC提交的
关键词。另外移动用户的搜索集中在娱乐领域(44%)及旅游(7%)。移动互联网将是
新的科技周期,如何根据移动设备的特点优化搜索将是重要的课题。同时基于地理位置
的广告和聚会建议也大有可为。
生物信息的发展方兴未艾,测定大众基因序列有可能在近10年普及。当基因信息也可用
时,个性化搜索将更有可为,比如根据基因的药物建议,餐饮建议等。
NLP的发展有助于更准确理解用户搜索意图。