可信内容

来源:百度文库 编辑:神马文学网 时间:2024/04/27 19:31:06

可信内容

(2010-10-07 00:24:08)转载

刘挺 博客

http://blog.sina.com.cn/tliu7221  

    一天中午,窗外飘起了细雨,我懒得去食堂,就想打电话叫肯德基送餐。原来是有肯德基送餐电话的,不知怎么找不到了。于是我上网找到了一个肯德基的800电话,拨过去,电话里说“此电话尚未开通”。又找到哈工大附近那家肯德基的电话,打通了,一位老奶奶和蔼的声音响起:“小伙子,你打错了”。无奈,我拨打了114号码百事通,服务员说没有登记。这通折腾,肚子都饿瘪了。看看窗外,雨下得更大了,没辙,还是继续搜吧。看到一条网上的留言说“肯德基不送餐”,My God,不可能啊,再看留言的时间是2007年。历尽千辛万苦,终于,我找到了4008-823-823这个电话,感觉这就是对的,果然顺利完成了订餐。10分钟后,我一边大口地嚼着奥尔良鸡腿堡,一边回想着整个搜索过程,不禁感叹“信息的可信度太重要了”。

 

    在前面的这个真实经历中,我遇到了多种典型的信息不可信的情况。800的电话可能是把400和800弄混了;老奶奶接听的电话可能是该店以前用过的,失去了时效性;114的信息一般是经过验证的,可惜不全;关于“不送餐”的留言在2007年是正确的,但发贴日期往往字体很小,人们容易忽视,如此会误导用户。

 

    Google的使命是要整合全球信息,但全球信息有太多是不可信的信息了,我们可否提出一个新的使命“整合全球可信的信息”,或者先“整合可信的中文信息”。搜索引擎试图解决信息的相关性问题,但对信息的可信性缺乏足够的判断。对用户来说,你给他一大堆相关的信息,但他不知道哪条可信,又有什么用呢?比如有人在百度知道上问“中国的海洋国土面积有多大”,结果得到两个答案,一个是300万平方公里,一个是473万平方公里,他该信哪个呢?信息多了,困惑更多,因为不知道如何判定可信性。

 

    在Web 1.0时代,主要是媒体在说话,信息的可信度还比较高。在Web 2.0时代,无数草根都在发言,由于发个帖子的成本实在太低,还不用承担任何责任,于是各种各样虚假的、错误、过时的信息开始泛滥成灾了。我们不但在“可信信息”的丛林里迷失了方向,更可悲的是被“可疑信息”的海洋所淹没。在Web 1.0时代迫切需要解决信息的相关性问题,于是搜索引擎应运而生了,在Web 2.0时代迫切需要解决信息的可信性问题,“信息可信度的计算”将受到越来越多的重视。

 

    信息之所以变得不可信,是由以下原因造成的:

    1、  录入错误

    2、  作者不够专业或记忆有误

    3、  以讹传讹,转贴了别人发的不可信的信息

    4、  恶意造假

    5、  过时

    6、  信息残缺

 

    为了发现和纠正这些不可信的问题,就需要以下技术:

 

    1、  可信度计算的理论基础

    包括概念、原理、计算模型、社会学基础、心理学基础等。

 

    2、  可信度评估

    对新闻媒体可信度的评估

    对UGC(User Genarated Content)可信度的评估

    垃圾网页识别

     “水帖”或称“软文”识别

    谣言识别

 

    3、  时效性判断

    不仅仅是信息发出的时间,而且包括信息内容中涉及到的信息有效时段,比如,一条国庆节打折信息,可能是在9月25日发出的,但打折有效区间是10月1-7日。为了进行时效性判断,需要准确识别信息中表达时间和空间线索

 

    4、  可信信息库构建

    抽取可信事实(关系或事件)

    从论坛挖掘寻找可信的问答对

 

    5、  利用推理,判断可信性

 

    6、  信息源权威性判别

    发帖人权威性判别:利用回复数、点击数等进行统计分析

    网站可信度判别:Pagerank等链接分析是网站权威性判断的基本手段

 

    7、  信息传播脉络识别

    信息出处识别:“原始贴”的发现

    转载脉络

 

    8、  网络互动知识库建设中知识可信度的判定

    互动问答系统中的多答案选择

    互动百科(如Wikepedia)中网友共建信息可信度的判定

 

    9、  利用人本计算判断信息可信度

    利用用户的褒贬评论,分析发现权威性

    在SNS背景下基于网络计算进行可信度判别

    激发用户帮助确认可信信息,发现可疑信息

 

    10、          应用系统

    以可信内容为基础的搜索引擎

    信息可信度的综合判定支持平台

 

    信息可信度的研究成果将使三方受益:对于用户来说,可以更方便地判定信息的可信程度;对于搜索引擎来说,可以有意识地抓取可信的信息,并在搜索结果排序时把可信的链接排在前面;对于网站制作者而言,可以更好地理解用户或搜索引擎判定信息可信度的方式,从而使自己制作的网站可信度更高。

 

    信息可信度,是对信息质量的探究,在人们对信息的数量和处理速度的追求达到一定程度的时候,信息质量问题会浮出水面。人们会越来越认识到自己需要的不是信息,而是那些可信的有用的信息,而在信息可信度的计算上,自然语言处理将发挥至关重要的作用。

 

    期待着某一天,我们能够用上“内容可信”的搜索引擎,如果我们发现某条信息不可信,还可以送到“网络信息质监局”去判定一下。那时,我们获取信息和做出决策的效率会大幅度提高,生活的品质也会改善。不过,道高一尺魔高一丈,如果信息安全问题一样,“可信”与“可疑”信息的斗争也会由于虚假信息制造者的存在而成为永恒的话题。