信息过载和个性化搜索

来源:百度文库 编辑:神马文学网 时间:2024/04/29 22:58:13
3天前keso 提到了信息过载问题,确实,这是一个很大的市场机会。信息过载源于信息爆炸。传统文献的猛增,促使信息检索领域的独立。网络文献的猛增,加速了搜索引擎的发展。唯一的不同是,在传统文献领域担任知识导航、信息整理角色的图书情报机构,在互联网上的集体缺席。这不能不说是很大的遗憾。搜索引擎从一开始,就是商业公司的产物。一度以拥有图书馆员为特色的Northern Light,也于2002年1月关闭了公共搜索,转向收费的商业搜索。
网上文档的日益增多,使得搜索超越新闻,成为网络上的第二大应用。在相当大的程度上,搜索是面临信息过载的唯一选择。但是,现在的搜索引擎缺陷也很明显,几乎快成了新的信息过载:一是搜索结果数量庞大;二是搜索结果的线性排列。
搜索的目的是为了获得特定的信息,只要搜索引擎能满足用户的需求就行。但这是一个说起来简单,做起来一点也不简单的事情。搜索引擎是一个直接面向最终用户服务的市场,用户的需求非常个性化,这不仅使相关性的评价变得无法客观,而且很难以统一的搜索结果来满足不同的用户。对张三来说合适的结果,对李四则未必合适。或者说,对搜索引擎的评价,很大程度上,是用户个人对搜索结果是否适用的主观判断,这是一种带有强烈个人色彩的价值评判。这也是为什么网上有人推崇 Google、有人喜欢百度的原因,就两者的搜索结果(排除竞价排名的不算)来说,是有些差异,但肯定没有那么大的差异。
理想的情况是,搜索引擎具有智能,能代理每个用户,自动从网络上搜索到最符合每个用户特定需求的结果。在计算机不能想大脑那样思考、在计算机的自然语言理解还没有实现的情况下,要实现这样的搜索理想,可能只是一个梦想。于是,迫切的现实就是,怎样在现有的基础上,降低搜索引擎的信息过载。大体上有这么三种做法:
1. 对搜索结果提供内容分类
内容分类主要有人工和自动两种方式。
以前的搜索引擎,还曾有设想利用编辑对网络资源予以分类,并追踪每个类别里最好的网站。对于搜索引擎这样显然不经济,也不易得到大众的承认,更不符合2.0的潮流。不过,图书情报机构却可以利用这种做法,提供各专业领域的学科知识导航,仍然有积极意义。作为商业公司,搜索引擎把眼光转向自动分类/聚类的技术实现。例子有:
Vivisimo 不仅有商业搜索的聚类引擎,还推出了面向普通用户的Clusty。Mooter 有智能聚类(Intelligent clustering),以认知模式等心理学为理论基础,提出“三到五次点击之内”得到用户所需要的信息。
对搜索结果提供进一步的内容分类,并没有改变搜索结果,只是改变了搜索结果线性排列,使用户能更好地查看和选择结果。自动聚类的优势在于技术先进,但从实用的角度来说还有不足。
2. 对搜索结果进行价值评定
主要是依靠用户的力量,对搜索结果作出某种形式的价值评定。例子有:
Yahoo! Search - My Web 2.0,注册用户能保存搜索结果,并共享给好友或任何人。这是 Yahoo! 搜索个性化和社区化(社会化)的特性。在搜索结果页面,每个结果的描述下面,显示有该结果页面被保存的次数。在一定程度上,这些也能体现出各个结果的重要性。Rollyo 走了另外一条线路,以用户推荐列表的方式,对搜索结果(来自 Yahoo! Search )进行筛选,也能对结果的重要性作出区分。
好处在于借助用户,但需要较长时间的使用积累才能体现效果。并且,这些依然更像是大众的选择,还不算是典型的个性选择,离 Yahoo! COO Daniel L. Rosensweig 说的“我们相信世界正从从大众媒体转向‘我的媒体’”,还有些距离。
3. 对搜索结果予以个性化
在搜索结果中,要么列出最好的网页,要么列出最符合特定用户的网页。Google 看起来更看重后者,并从用户和网页两方面入手做了准备。其申请的专利“搜索结果内容排序的个性化”,内容是利用用户描述文档,对搜索结果进行个性化排序,PageRank 可能演变为 Personalized Rank。今年3月,Google 还申请了专利“基于历史数据的信息检索”,则是针对网页文献的历史数据(如用户如何存取该文献、用户是否将其加入书签、用户在该页面的停留时间等等),生成该网页文献的分值,对搜索结果进行调整。
这或许是最贴近个性化搜索本意的做法,并使搜索服务具有粘性,你用得越多给你的结果就越符合你的习惯。显然,这需要追踪用户的浏览行为,可能引发所谓的隐私关注问题。
另外,对比 Yahoo! 和 Google 在个性化搜索的发展,还有个区别,前者有 Community 特征,但后者没有。如果是刻意的回避,那么就值得留意了。
如果不能给你最好的结果,那就给你最符合你的结果。个性化搜索是能够减少信息过载的办法之一。沿着这样的轨迹下去,第二代引擎可能会渐变为第三代引擎。从市场空间来说,还会有新出现的第三代引擎吗?
添加评论 |阅读评论 (12)
21:17  | 固定链接 |引用通告 (2) |记录它 |白色
固定链接
http://spaces.msn.com/laolu/blog/cns!8FDD94E24830A815!879.entry
评论 上一页 | 下一页
信息过载是谁提出来的?恐怕30年前就有人提出来了吧。
至少我们在一年多前讨论课上就有人提过这个概念,对我们而言根本就不是新名词了
发布者 yet - 2月18日 0:12
机器永远不能代替人吧。似乎,推荐制和自定义共享很有2.0的本义。我们需要搜索再和sns系统联系起来。
发布者 iceberg爱死博哥(http://spaces.msn.com/members/bertpeng/) - 12月2日 12:58
请问laolu,你是情报学专业的吗?还是在这方面下过一番功夫?
发布者 maonaa - 11月30日 18:56
很有深度啊
的确下了功夫了
敬礼~
------------------------------------------
世界上第一个售卖时间的网站
http://www.timeismoney.cn
时间就是金钱网站
如果想购买时间,请访问http://www.timeismoney.cn/default.html
发布者 时间就是金钱(http://www.timeismoney.cn) - 11月30日 17:53
是的,要引入人的因素,还有怎样引入?
发布者 laolu - 11月30日 15:59
不错,我这段时间也一直思考改善搜索结果的问题。其实应该算上新浪爱问,他试图直接拿人做爬虫。搜索,其实就是提问,机器再聪明也是没有办法了解人究竟想知道什么的。问题,远远比关键字来的直接、精确。
发布者 WOLFay(http://spaces.msn.com/members/possiblog/) - 11月30日 10:25
文章写得不错!
感觉以后的搜索可能会很多,所以做了个工具http://www.okgo.cn
发布者HabitualSalamander(http://spaces.msn.com/members/snsing/) - 11月29日 18:47
个性化搜索需要有大量的用户数据作为分析基础,但这又似乎与"没有信息的共享,就没有知识的共享"这句话相矛盾了.
发布者 风在南方(http://spaces.msn.com/members/ksyinthesouth/) - 11月29日 11:28
谢啦,您过奖了:)
发布者 laolu - 11月29日 10:36
深入研究了的。。
很好的blog
发布者Lee子(http://blog.donews.com/myokey/) - 11月29日 2:45
博客越写越好了。
发布者 lovelock(http://spaces.msn.com/members/lovelock/) - 11月28日 22:12
嘻嘻。
发布者 蔬菜瓜果(http://spaces.msn.com/members/spina/) - 11月28日 22:02
发布评论
若要向此网站发布评论,您必须用 Microsoft Passport Network 登录。
没有 Passport?今天就获取一个
使用我的档案文件信息
名称:
电子邮件地址(可选):
您的网络日志 URL(可选):
评论:

引用通告
引用此项的网络日志
谈论信息过载和个性化搜索信息过载和个性化搜索