走近科技数据共享

来源:百度文库 编辑:神马文学网 时间:2024/04/29 14:42:00

走近科技数据共享


■ Shuichi Iwata 陈宇 译


科学发展越来越离不开数据的采集、管理、共享和应用。2006年10月第20届CODATA(国际科技数据委员会)国际学术大会将在北京举办,会议主题是信息社会的科技数据与知识。会议适逢CODATA成 立40周年,届时全球500余名科技数据精英将齐聚北京,共商数据大事。到底什么是科技数据共享?是什么力量在推动这一全球领域的科研盛举?其研究的价值何在?在这次盛会召开之前,本报独家邀请到来自中国科学院、日本东京大学、美国国家科学院从事科技数据工作的专家学者,剖析了数字鸿沟、科技数据共享政策、科技数据技术、科技数据在公共领域和科研领域中的应用等五个问题,层层揭开科技数据共享的面纱。

跨越“数字鸿沟”全球科技界在行动

科技数据的共享、归档、保护和安全,能为人们提供同样的“数字机遇”,消除因经济、文化等方面的差异和不平衡带来的“数字鸿沟”。

“数字鸿沟”是当今世界日益引人注目的现象。它通常指由于信息和通信技术、网络技术的应用程度不同和创新能力的差别而造成的鸿沟,也可把它形象地称为“比特流”的鸿沟。占世界人口12.9%的非洲,它的互联网使用人数只占世界的1.2%,而35.2%的互联网用户却集中在人口稀少的美洲。在收入最高的国家中互联网的用户总数占据了世界总数的93%,而收入最低的国家只占互联网用户总数的0.2%。这些数据都在提醒人们全球数字鸿沟确确实实地存在着,并影响着世界经济和社会的发展。而科技数据缺乏共享、存在壁垒更使“数字鸿沟”难以跨越。

科学是一种人人可以理解的语言,数据是科学语言的基础。科技数据的共享能缩短“数字鸿沟”的“语言”差异。在信息社会,数字化的数据将大量涌现。人们需要使用更复杂的手段来维护和使用日益丰富的数据资源,并使这些资源在全球范围内得到共享。人类通信半径的延伸,为人们带来了空前的机遇。我们应该如何抓住机遇呢?第20届CODATA会议将关注如何把握信息社会的福祉,利用科技数据和知识助力科研和社会进步。

第20届CODATA会议主题是信息社会的科技数据与知识,它关注的主要领域包括数据的共享、归档、保护和安全,以及人们在把握“数字机遇”的过程中,由于社会、经济和其他因素所面临的障碍和不平等问题。科研、技术、经济、语言、法律、法制体系、政策、文化等方面的差异和不平衡带来了所谓的“数字鸿沟”,也就是存在于有能力获取数字资源和技术的有“产”群体与一穷二白的无“产”群体之间的差异; 也同样赋予了人们改变命运的动力和能力。

科技数据共享面临的问题

在海啸发生之后,由于知识产权和国家安全的制约,海拔、人口定位、领土边界和受灾程度等方面的重要数据不能在短时间内得到开放。即便是现在,高清晰度的数据也没有完全开放,尽管这些数据可能为全球多数海岸提供最需要的海拔信息。科研界需要说服政府开放对防灾规划和管理具有重要价值的专业数据,以便在人道主义紧急事件中开放有价值的数据和信息。

科学知识拥有巨大潜能,帮助世界向着联合国千年发展目标前进,信息通信技术的使用为加速这一进程创造良机。科学家应与各国政府一道,向“数字鸿沟”宣战,向贫富差距和南北差距问题宣战。

2003年联合国教科文组织巴黎研讨会后,国际科学理事会和CODATA发展了题为“信息社会的科学”的纲领性文件和行动日程。行动日程强调科技数据和信息在公共领域的重要作用,确保必要的政策和基础设施各就各位,为平等开放信息资源创造条件。众多国际科技组织和国家级的科研院所签署了这个行动日程。

2003年7月,一个政府间的特别会议在巴黎举行,完善将在信息社会世界首脑会议(下称峰会)日内瓦阶段会议中由世界各国首脑签署的原则宣言和行动计划。以瑞士、法国和罗马尼亚为代表的一些国家,接受了科研界传递的信息,促使科技在修改后的文件中占据了更重要的席位。

然而,商界和受到同化的政府组织发出强烈信号,要求加大知识产权和版权制度的比重。尽管没有人强烈反对平等开放科技数据和知识的原则,但这种“平等”的价值观很容易在短期商业利益的驱使下退居二线。因此,科研界需要持续推动科学知识的广泛传播,放大科技进步的社会效益。

日内瓦阶段会议后,世界各国达成共识; 肯定了科学在发展信息社会中的核心作用。峰会原则宣言也承认了图书馆、档案库、博物馆等公共机构在促进信息社会发展和免费开放信息资源方面扮演的“基石”角色。峰会上签署的行动日程对如何实现这些原则提出了分步走的建议。其中,促进科研信息化(e-Science)作为信息通信技术在促进可持续发展中的一个关键应用被提上日程。

2004年12月发生在亚洲南部一场悲剧,被Jeffrey Sachs等人称作“沉默的海啸(silent tsunamis)”:千百万无谓的死亡起因于营养不良、疾病、贫穷以及那些藏在暗处的苦难。所有的一切告诉我们: 科学要走的路还很长。科学家必须努力工作,除了预报天灾、开发新药和疫苗,还要向社会传递更有效和容易获取的科学数据和信息,以利决策。

这场突发事件也向我们提出一个问题: 如何以最佳方式来组合社会资源,应对有限资源、冲突、基础设施严重不足、知识贫乏等问题引起的危机。作为信息通信技术的创造者,科学家通过共享数据、信息、软硬件和学术关系网尝到了甜头; 这似乎成了一件理所当然的事情。但对于很多人来说,获取最基本的自救技能或者一条灾难预警信息,都不是一件容易的事情。

在与“数字鸿沟”的战役中,科研界能做点什么呢?很多科学家和科研机构正在通过信息通信技术来努力延伸科技效益的半径。国际科学理事会和CODATA联合峰会在线(http://www.wsis-online.net/science/home_EN/),为整理和汇总科学们做出了各种尝试。

数据科学中的共用

开放的社会能够给更多人带来机会; 医生可以获取医药信息,病人可以获取各种医疗服务的可信度,学生可以获取实验数据,救援人员可以更好地与救援对象沟通。通过降低通信、计算机和手机的成本,我们可以让更多的人拥有机会。同时,人们需要通过受教育来获取读写和运用技术手段的技能,从而更好地利用机会。由此看来,要使更多人在信息社会中分一杯羹,开放有用信息和能力建设缺一不可。然而,建设从可用数据中提取价值的能力需要更多的投入。对于不同类型的“共用”,我想借用中国诗人李白的《月下独酌》来作出解释:

花间一壶酒,独酌无相亲。

举杯邀明月,对影成三人。

……

月亮是一个“共用”点,每个人都可以赏月作诗。唯有李白,能够“提取”出一个有“价值”的虚拟世界,把“我”、月光、月亮、美酒、影子和周围的景致融合在一起。如果不懂中国的语言和文化,我们无法与李白一起天马行空; 但我们脑海里那些共通的感知特征让不同语言之间有了转换的模式。在某种程度上,转换模式可以用术语来描述; 如元数据、元知识,正如在基于XML\RDF\OWL等的语义网中所展示的。

诗人、译者、出版社和把原始资料数字化的人拥有的不同层面上的版权,对产品的“上市”产生影响。对于科技数据来说,CODATA始终致力于着眼全局,以促进制度建设的方式来提高科技生产力。2005年9月1-2日,CODATA研讨会“创造信息共用,助力科研信息化: 向着统一的政策和行动准则”在位于巴黎的联合国教科文组织总部召开。会议得到联合国教科文组织(UNESCO)、国际科学理事会(ICSU)、第三世界科学院(TWAS)、科技出版物全球共享网(INASP), 国际科技信息委员会(ICSTI)的赞助和经济合作与发展组织(OECD)的支持。

通过这次会议,上述机构达成共识,共谋利用信息共用促进科技创新的契机 (相关活动简称GICSI)。

GICSI在突尼斯阶段会议期间的CODATA特别圆桌会议上正式启动。专家组成员包括来自上述各机构的代表,来自欧洲核子研究中心(CERN)和科研共用组织(Science Commons)的代表也在圆桌会议上加入GICSI的阵营。

在解决了数据的“经济动机问题”(也就是GICSI推动的经济和制度方面的框架和政策)后,语义学和上下文的问题浮出水面。研究李白的生平和他写《月下独酌》的地点,诗歌的文本数据可以变得更加栩栩如生。没有知识和经验层面的默契,李白的切身感受不容易传递给另一个人。跨越时空的复杂现象,如气候变化、生物多样性、身体的衰老退化和人造产品,在数据方面有共同特征。我们需要用模型来补足获取的数据,从而还原天衣无缝的“影像”。在发展的过程中,建模可以用来预测和规划未来; 这需要通过计算得出的数据来实现,而不是实验中获得的原始数据。如何建设从可用数据中提取价值的能力成为一个越来越重要的问题。

通过一系列标准方法来衡量和计算关于月球的天文数据,并不困难; 数据语义学在特定的学科领域中有明确的定义。然而,这种定义可以在简单的科研问题中起作用,却无关“数字鸿沟”的痛痒。数据科学需要摸索出一系列基本原则来应对跨学科问题的挑战,比如人类健康、防病、安全和对人造产品的依赖。全世界的科技数据工作者,面临的可能是漫长的旅行: 随着数据和社会的变迁,人类需要对科学内容进行一次洗牌。

作者简介

Shuichi IWATA

东京大学数据科学和环境工程的教授,国际 CODATA 主席。他曾是 JSPS122委员会的主席。他是日本金属研究所、钢铁研究所、日本能量与资源学会以及日本原子能学会的学术委员会成员。曾在1998年获得 JST 的科技信息奖,在1999年获得了日本金属研究所优秀论文奖以及2003 年 GIW 的最佳论文奖。他的个人网页: http://mori.q.t.u-tokyo.ac.jp/~iwata/

CODATA: 四十年磨一剑

■ Shuichi IWATA

CODATA(Committee on Data for Science and Technology)即“国际科技数据委员会”,是享有“科学界联合国”盛名的“国际科学理事会”,它是在1966年成立的跨学科组织,致力于在全球范围推动科技数据的编辑、评估和分发,进而对科研产生积极影响。四十年来,CODATA在提高数据的质量、可靠性、管理水平和共享程度方面做出了很大贡献。

CODATA是一个数据源,它为科技工作者创造参与全球数据活动的机会,并由此增进了解、激励合作。CODATA关注通过实验、观察和计算手段得到的各个领域的数据,包括物理学、生物学、地质学、天文学、工程学、环境科学、生态学等; 其中的焦点是“放之四海而皆准”的数据管理问题、以及某个学科领域产生的数据在其他学科领域中的应用。

CODATA的使命包括:

● 提高数据质量和共享程度,尤其关注发展中国家;

● 促进科技工作者间开展国际合作;

● 数据共享和知识产权保护。

为了达成使命,CODATA通过以下“零件”来保证整个系统的正常运转: 任务组、工作组、各国家委员会的活动、会议和学术研讨会、期刊以及与其他组织间的合作。

需要强调的是,与数据相关的活动不应该局限于某个特定的学科领域,而是科技的各个领域: 从生物学到全球变暖,从物理学到工程学。随着成员的增加,CODATA家族不断壮大,其触角伸向不同的学科领域; 每个领域强调自身的数据需求,并分享其他领域的数据活动经验,借助共同的兴趣点擦出火花。

CODATA的主要活动,都以促进科技数据领域的国际合作为目标:

● 赞助两年一次的CODATA学术大会。第20届CODATA学术会议将于10月23日到25日在北京举行,它吸引了全球500余名数据专家。CODATA任务组和其他国际机构组织的卫星会议也将同期举行。

● 围绕某个特定学科领域或主题,举办专家组会议。

● 出版科技数据方面的刊物、数据活动调查报告和大会论文集。

CODATA各个国家委员会的工作着眼于国家层面。而国际CODATA的工作重点在于营造一种环境: 给不同国家的数据专家制造“邂逅”和产生“化学反应”的机会,通过CODATA牵的“红线”带动双边合作。

科技数据的管理无法依靠个人的努力和贡献,这是CODATA成立的一个主要动因。二战后期开始,科研的腾飞使数据量大规模增加。科研经费要想物尽其用,需要更好的机制来评估、保存、检索和分发数据。当国家组织履行其中部分职责的时候,CODATA作为一个兼容并包的国际组织扮演协调员的角色,并试图避免重复劳动。

计算机模拟和互联网的发展使数据的地位得到提升; 在这样的时代背景下,CODATA不断对新项目抛出橄榄枝。如今,人们通过互联网可以轻易地获取质量和来历不明的数据源。CODATA为关心数据质量和数据共享问题的专家学者提供一个阵地,引导数据革命转化为促进发展的正面能量。

第20届CODATA国际学术会议涉及的部分前沿问题包括:

● 数字鸿沟;

● 数据归档和存储;

● 数据共享政策和法规;

● 数据可视化和多媒体技术;

● 数据挖掘和知识发现;

● e-Science和网格;

● 数字图书馆;

● 元数据和互操作;

● 科学数据与科普;

● eGY和IPY(电子地球物理年和国际极年) ;

● 科学数据在教育、经济、环境和社会领域的应用;

● 科学数据在科学研究中的应用服务。

(计算机世界报 2006年09月11日 第35期 B14、B15)