互联网怒放的关联数据:你为什么应该关注?

来源:百度文库 编辑:神马文学网 时间:2024/04/28 07:48:11
关联数据是和万维网一样的伟大发明,我们正在通过万维网从文件互联网走向数据互联网。

我们上周讨论了互联网的发展趋势,其中一个重要概念就是关联数据(linked data),2009年将是关联数据之年。万维网发明者Tim Berners-Lee爵士今年早些时候曾在TED大会上提到关联数据。他说关联数据是和万维网的发明一样的巨大变革,我们正在通过万维网从文件互联网走向数据互联网。Berners-Lee号召政府部门和个人开发自己的数据,并发布到网上,这样其他人就可以关联并使用这些数据。本文我们深入讨论一下关联数据。

Tim爵士的TED演讲是了解关联数据的绝佳入门材料。强烈推荐这段时长15分钟的视频:

关联数据时代已经到来
关联数据是一个正式的W3C项目。它“通过网络把以前没有关联的相关数据连接在一起,或者通过网络降低现有(通过其它方式)关联数据的门槛儿。”


Tim Berners-Lee认为关联数据是一场草根运动。以上这张图片显示了当前所有参与该项目的数据集(data set)。关联数据发展迅速。下面这张图是2007年5月时的数据集,两年时间就发展到了今天的规模。


关联数据概述
Berners-Lee曾提出关联数据的四个原则,维基百科对其进行了阐述:

1)通过URI(统一资源标识符)识别用户在网上发现的东西,并把其当做资源。
2)使用HTTP URI,这样人们就可以定位并查找(解引用)这些东西。
3)当URI被解引用时,提供资源相关的有用信息。
4)在发现的数据中包括链向其它相关URI的链接,是一种提高发现网络信息能力的手段。

简而言之,关联数据允许用户发现、关联、描述并再利用各种数据。它和数据的关系就好比万维网和文件的关系。


W3C: 关联数据:原则和最新进展, 2008.4

读写网曾多次提到关联数据。上月Alexander Korth写了一篇高级入门介绍。他认为关联数据建立在现有本体论(ontologies,如WordNet、FOAF、SKOS等) 之上,并和本体论相互关联。他进一步解释道,数据集授权访问自己的知识库,并且连接到其它数据集内容。

这些数据集内的知识库都可以被访问,并和其它数据集的内容连接在一起。LOD遵 循了万维网的基本设计原则:简单、兼容、模块化设计,以及去中心化。目前该计划含有20多亿个RDF(注:Resource Description Framework,资源描述框架,由W3C支持开发的一种通用的元数据描述结构,是一个能对结构化的元数据进行编码、交换和再利用的体系框架)三元组 (triple),其中包含了大量知识。此外参加该计划的数据集还在不断增加。目前这些数据集可以通过非均匀方(heterogeneous)式访问,比 如通过语义网页浏览器,或者通过语义搜索引擎爬虫收录。

百花齐放
要问关联数据什么地方最重要,那就是你可以利用它们。关联数据让数据开放并连接在一起,这样人们就可以在它们基础之上建立有趣的东西。在TED大会上,Berners-Lee认为关联数据就是一箱箱数据,当通过开放标准关联在一起时,从中可以萌发出很多新事物。


Tim Berners-Lee在TED大会上的幻灯片

关联数据将是2009年最重要的趋势之一,我们将继续保持关注。