语义网: Web 3.0为何盖不过 Web 2.0 的风头

来源:百度文库 编辑:神马文学网 时间:2024/04/30 01:32:55
作者:李牧
图1:语义网示意图 在Google搜索中输入“我想去夏威夷度假,但希望花销不超过3000美元,哪条线路和酒店更适合我?”敲回车,共搜索出3460条包含其词语的文档,但没有一条是理想中的答案。 不是说语义搜索能解决这些问题吗?不是到处疯炒Web 3.0的概念吗?语义网到底什么时候才能来到老百姓的身边? 在2007年4月的“2007 Web 2.0”博览会上,大量Web 2.0企业参展,而其中Web 3.0的声音似乎略显微薄——两家语义网解决方案和程序设计工具制造商TopQuadrant和Franz宣布将通过整合各自公司的拳头产品来增强当前的语义网发展环境和数据库基础——他们希望在实践中探讨以语义网应用为核心的Web3.0的未来。 在过去的十年里,互联网之父蒂姆·伯纳斯·李都致力于推动互联网朝语义网推进,但该事业始终停留于研发阶段。Web 3.0理应优于Web 2.0,为什么发展进程如此缓慢?2007年4月,蒂姆·伯纳斯·李在接受媒体记者采访时谈到了他最新的思考——对于语义网的新定义,语义网发展中遇到的挑战,乃至对于语义网商用的探讨。在近期的海外论文、访谈中,科学家们向人们阐述了语义网发展缓慢的原因分析。 隐私是个问题 语义网最大的优点就是能轻松、精准地找到包括个人信息在内的几乎所有完整信息。语义网冲破了各个领域之间的界线,将各个封闭的“知识仓库”一一打通。 但科技是把双刃剑,一面砍向旧的桎梏,一面砍向良好的社会规范。如果不妥善处理好安全问题,这也将成为语义网的最大缺点。正如有人质疑的那样:一旦这些私密资料落入居心不良的人手中,造成的危害和损失将难以估计。 对此,虽然MIT(麻省理工学院)实验室的研究人员已经意识到了这个社会问题,并尝试建立一些防范系统来避免这种状况,但显然目前进展还不乐观,这也势必成为语义网发展道路上最危险的不稳定因素。 盗版带来尴尬 互联网发展了十几年,直到今天我们还面临着这样一种尴尬:数字化时代的今天,三盗(盗名、盗链、盗版)天天在网络上演得不亦乐乎。可以设想,在开放程度更高、关联程度更广的语义网上,版权纠纷是否会愈演愈烈? 据IEEE的学术论文《语义网归来》介绍,基于RDF的版权公约“CC协议(Creative Commons)”能够最大程度地推动资源和资源再利用。但是专家也表示,目前语义网环境中还没有明确的法律规定来约束用户行为,而版权问题恐怕不是一个约定就能一笔带过的,所以改善这一点的解决方案还值得多方努力。 信任出现危机 发展语义网的标准已经耗费数年时间,这与它的复杂架构难脱干系,RDF的纷繁复杂,OWL的标准之争无一不让人劳心费神。四层架构之上的资料推理、逻辑处理工作,还有信息可靠性的判断等都不是朝夕之功。 如何判断信息的可靠性?能否信任电脑为你做出的判断?这是语义网实现大范围应用的关键前提。“何时”、“何地”、“对象”、“条件”这些信息都需要证实。 确实,我们需要更贴近搜索问题,也需要更有效的资料,但如果语义网告诉搜索者无法保证这些资料的准确性,那么资料再多也聊胜于无。就好比文章开头所问的“我想去夏威夷度假,但希望花销不超过3000美元,哪条线路和酒店更适合我?”如果语意搜索引擎给出了一个具体的答案——A饭店,B线路,但事实上A饭店一年前就倒闭了,B线路是旅游公司伪造的,那么这条信息对用户来说是毫无意义的。 最理想的语义网,不仅能够判断资料的准确性,更能保证资料的可靠性。 而这显然是语义网不易迈过的一道槛。 平民化需要费神 就连语义网命名者蒂姆·伯纳斯·李也在2006年普林斯顿大学演讲和后期接受媒体采访时公开表示,他最初将这种智能网络命名为语义网或许不够贴切,更准确的名称应该是数据网(Date Web)。就像互联网刚盛行时,人们也很难顾名思义立马了解互联网是什么?能干什么用?现在语义网也遇到了同样的问题,语义网目前的影响也仅限于有限的圈子里。 人们对于语义网的认知度亟待提高,语义网这个名称的形象感和直观性都不尽如人意。如何加强宣传攻势,如何驱散普通大众的陌生感也是将来一个不可忽视的课题。 未来似乎很美 现在在美国政府部门,已经有了语义网应用的雏形。比如DARPA(美国国防部高级研究计划署)以及NASA(美国国家航空和宇宙航行局)已完成了一些关于语义网架构的初期工作。 据此分析,蒂姆·伯纳斯·李认为政府机构将会是语义网应用的“吃螃蟹者”,因为他们拥有着海量资料,并且来自海量的信息源。这些资料散落在网络不同的节点,“信息孤岛”现象非常严重,妨碍了政府工作的高效开展。如何解决这一问题?政府官员们看到了语义网未来大有用武之地。 但蒂姆·伯纳斯·李对于目前的互联网发展远未满意,他正在尝试着让网络智能化有个质的飞跃,这也就是他从2001年起大力倡导的真正的语义网。在语义网中,计算机可以独立思考而不是单纯地执行命令。比如,个性化的金融投资组合;智能系统为家庭勾勒退休养老规划;为高中毕业生提供教育咨询,例如选择最适合的大学。这些项目努力的目标就是充分利用日益强大的计算机创造Web 3.0。 在接受外刊记者采访时,他坚持认为语义网将会给知识创新和商业应用带来前所未有的推动力,未来应当有更多的行业对语义网抱有浓厚兴趣。 以医疗行业为例,每制造一种药,医药公司都必须先明确哪些化学成分会催生细胞中的有害物质,哪些会有助于细胞产生良性变化,以及这些化学成分与哪些物质密切相关。与此同时医药公司还得搜集大量别的信息:政府政策导向、临床医用审核条件、基因相关数据、生物学信息等。但是这么多的必需信息,却分别存在于不同的社会部门和同一部门不同的网页中,不同网络间互联互通的现状非常不乐观。 巧妇难为无米之炊,医药科学家要实现医学突破光靠头脑风暴是不现实的,他们还需要一个工具,依靠它迅速分析好相关资料,并把相关资料之间的逻辑关系都清晰地摆在眼前。 蒂姆·伯纳斯·李认为语义网正是这样的工具,科学家和工程师可以在它的强力支撑与启发下展开各种假设,甚至可能发现以前从未想像过的新大陆。图2:语义网架构 贴士 什么是语义网? 对于Web 3.0蓝图的描述通常是:“计算机可以独立思考而不是单纯地执行命令。比如,个性化的金融投资组合;智能系统为家庭勾勒退休养老规划;为高中毕业生提供教育咨询像选择最适合的大学。这些项目努力的目标就是充分利用日益强大的计算机创造Web 3.0。”这里的Web 3.0指的就是语义网(Semantic Web)。 最早关于语义网的系统理论阐述是由互联网之父蒂姆·伯纳斯·李和L.Masinter所提出并发表于2001年的《Scientific American》杂志上。(见图1) 语义网的七层架构 基础层:编码层URI,如果说语义网是要为网页加上内容索引,那么URI要做的就是明确索引方式,好比字典中的部首查字法、拼音查字法。 第二层:句法层XML,可扩展标记语言在这代表了索引的语法形式,这就好比互联网最早用的HTML语言。 第三层:资源描述框架RDF,RDF明确了索引中大项小项之间的逻辑关系,比方说主题A是主题B的一个子问题,主题B是主题C的相关问题。 第四层:本体层OWL,OWL明确了索引中项目的精确意思,比方说你说菜谱1后面的索引里的“炒三鲜”和菜谱2后面的索引里的“炒三鲜”是不是一样的,“炒三鲜”菜谱里提到一个概念叫“酱油”,到底是老抽还是生抽。 第五层是逻辑,在1~4层的基础上进行逻辑推理操作。 第六层是验证,根据逻辑陈述进行验证,以得出结论。 第七层是信任,在用户间建立信任关系。 (见图2)