laolu: 信息过载和个性化搜索[for论文]

来源:百度文库 编辑:神马文学网 时间:2024/04/28 00:15:58
3天前keso 提到了信息过载问题,确实,这是一个很大的市场机会。信息过载源于信息爆炸。传统文献的猛增,促使信息检索领域的独立。网络文献的猛增,加速了搜索引擎的发展。唯一的不同是,在传统文献领域担任知识导航、信息整理角色的图书情报机构,在互联网上的集体缺席。这不能不说是很大的遗憾。搜索引擎从一开始,就是商业公司的产物。一度以拥有图书馆员为特色的Northern Light,也于2002年1月关闭了公共搜索,转向收费的商业搜索。
网上文档的日益增多,使得搜索超越新闻,成为网络上的第二大应用。在相当大的程度上,搜索是面临信息过载的唯一选择。但是,现在的搜索引擎缺陷也很明显,几乎快成了新的信息过载:一是搜索结果数量庞大;二是搜索结果的线性排列。
搜索的目的是为了获得特定的信息,只要搜索引擎能满足用户的需求就行。但这是一个说起来简单,做起来一点也不简单的事情。搜索引擎是一个直接面向最终用户服务的市场,用户的需求非常个性化,这不仅使相关性的评价变得无法客观,而且很难以统一的搜索结果来满足不同的用户。对张三来说合适的结果,对李四则未必合适。或者说,对搜索引擎的评价,很大程度上,是用户个人对搜索结果是否适用的主观判断,这是一种带有强烈个人色彩的价值评判。这也是为什么网上有人推崇 Google、有人喜欢百度的原因,就两者的搜索结果(排除竞价排名的不算)来说,是有些差异,但肯定没有那么大的差异。
理想的情况是,搜索引擎具有智能,能代理每个用户,自动从网络上搜索到最符合每个用户特定需求的结果。在计算机不能想大脑那样思考、在计算机的自然语言理解还没有实现的情况下,要实现这样的搜索理想,可能只是一个梦想。于是,迫切的现实就是,怎样在现有的基础上,降低搜索引擎的信息过载。大体上有这么三种做法:
1. 对搜索结果提供内容分类
内容分类主要有人工和自动两种方式。
以前的搜索引擎,还曾有设想利用编辑对网络资源予以分类,并追踪每个类别里最好的网站。对于搜索引擎这样显然不经济,也不易得到大众的承认,更不符合2.0的潮流。不过,图书情报机构却可以利用这种做法,提供各专业领域的学科知识导航,仍然有积极意义。作为商业公司,搜索引擎把眼光转向自动分类/聚类的技术实现。例子有:
Vivisimo 不仅有商业搜索的聚类引擎,还推出了面向普通用户的Clusty。Mooter 有智能聚类(Intelligent clustering),以认知模式等心理学为理论基础,提出“三到五次点击之内”得到用户所需要的信息。
对搜索结果提供进一步的内容分类,并没有改变搜索结果,只是改变了搜索结果线性排列,使用户能更好地查看和选择结果。自动聚类的优势在于技术先进,但从实用的角度来说还有不足。
2. 对搜索结果进行价值评定
主要是依靠用户的力量,对搜索结果作出某种形式的价值评定。例子有:
Yahoo! Search - My Web 2.0,注册用户能保存搜索结果,并共享给好友或任何人。这是 Yahoo! 搜索个性化和社区化(社会化)的特性。在搜索结果页面,每个结果的描述下面,显示有该结果页面被保存的次数。在一定程度上,这些也能体现出各个结果的重要性。Rollyo 走了另外一条线路,以用户推荐列表的方式,对搜索结果(来自 Yahoo! Search )进行筛选,也能对结果的重要性作出区分。
好处在于借助用户,但需要较长时间的使用积累才能体现效果。并且,这些依然更像是大众的选择,还不算是典型的个性选择,离 Yahoo! COO Daniel L. Rosensweig 说的“我们相信世界正从从大众媒体转向‘我的媒体’”,还有些距离。
3. 对搜索结果予以个性化
在搜索结果中,要么列出最好的网页,要么列出最符合特定用户的网页。Google 看起来更看重后者,并从用户和网页两方面入手做了准备。其申请的专利“搜索结果内容排序的个性化”,内容是利用用户描述文档,对搜索结果进行个性化排序,PageRank 可能演变为 Personalized Rank。今年3月,Google 还申请了专利“基于历史数据的信息检索”,则是针对网页文献的历史数据(如用户如何存取该文献、用户是否将其加入书签、用户在该页面的停留时间等等),生成该网页文献的分值,对搜索结果进行调整。
这或许是最贴近个性化搜索本意的做法,并使搜索服务具有粘性,你用得越多给你的结果就越符合你的习惯。显然,这需要追踪用户的浏览行为,可能引发所谓的隐私关注问题。
另外,对比 Yahoo! 和 Google 在个性化搜索的发展,还有个区别,前者有 Community 特征,但后者没有。如果是刻意的回避,那么就值得留意了。
如果不能给你最好的结果,那就给你最符合你的结果。个性化搜索是能够减少信息过载的办法之一。沿着这样的轨迹下去,第二代引擎可能会渐变为第三代引擎。从市场空间来说,还会有新出现的第三代引擎吗?