把科研数据变“活”

来源:百度文库 编辑:神马文学网 时间:2024/04/29 20:33:15

由973计划支持的“全球变化的响应与适应对策”项目中,科技工作者在钻取冰芯。项目获得的数据都已进行汇交,实现了共享。 资料图片
日前,“973计划资源环境领域项目数据汇交工作会议”在京召开,标志着这个已启动两年的科学数据共享平台进入了新的发展阶段。
记者就此专访数据交汇中心主任孙九林院士和科技部基础司处长沈建磊。他们认为,由国家财政支持的科研项目所取得的数据,不是哪个科学家、哪个研究团体、哪个机构的私产,而是全社会的财富。这个平台,把国家科技计划资环领域的“财富”管理起来,让数据在流动中产生更大价值,让国家科技投入产生更大效益。
国家支持科研项目所取得的数据,是全社会的财富
记者:2002年我国开始实施“科学数据共享工程”,很多行业领域的研究数据实现了共享,为什么还要建立这样一个共享平台?
沈建磊:国家投资产生的科学数据主要包括两种类型,一是行业部门长期采集和管理的科学数据;二是各类科技计划项目产生的研究型数据。长期以来,获取科研数据难一直是科技工作者反应比较集中的问题之一,很多科学家一直呼吁由国家财政支持的科研项目的数据能够实现共享。
2002年我国实施了《科学数据共享工程》,气候、水文等行业领域的数据实现了共享,但国家科技计划项目数据还没有建立实质性的汇交管理体系和共享机制。科技部从2008开始启动了“973计划资源环境领域项目数据交汇”工作。2009年10月,科技部下发文件,规定了2009年(含)以后参加验收的项目必须先完成数据汇交工作,才能进行项目验收。973计划资源环境领域项目是从1998年开始启动的,现在2010年以前结题的29个项目均已完成数据汇交,绝大部分数据提供完全开放共享;2010年以前启动但尚未结题的32个项目均已完成了数据汇交计划的编制。
这些数据既是项目研究成果的组成部分,又是科技创新的重要基础,如果不把他们交汇、管理起来,不仅不能充分在共享和流通中发挥其使用价值,也会使一些研究结果无法进行检查和验证,从而削弱国家队科技投入的效益。
我们选择资环领域为试点,是因为资环领域科学数据学科交叉性强、时空特征明显,如果不按领域汇交管理,很难充分发挥数据资源的集成优势。另外,资源环境领域的一些特定条件下采集和产生的数据资源具有不可回溯和重现的特点。
流通起来,数据才能产生最大价值
记者:在您的解释中,我们注意到“流通”这个词。数据“流通”有何意义?
沈建磊:在科学研究中,除了以论文形式发表的数据,在过程中还会产生很多数据。这些研究型数据可能与科研项目本身关系不大,也许从此就锁在科学家的档案柜中了。然而这些中间过程的数据对其他研究者来说,可能有很大价值。比如在天文领域,可能很多观测到的数据与项目本身无关,但对其他研究者却很有帮助。
孙九林:数据只有流动起来,才能产生最大价值。科学家们在开展一项科学研究时,第一件要做的事,可能就是搜索一下前人做过哪些研究、取得过哪些成果,尽量多地了解和自己研究课题相关的数据,这些研究型数据对他们来说可能非常有用。
也许其他科研人员通过对这些研究型数据的分析,能得出新的成果;甚至某个或某几个研究型数据也能创造巨大价值。这在美国都有先例。比如美国国立卫生研究院(NIH)是世界上从事生命科学研究最重要的研究机构,代表美国国家政府支配着庞大的科研经费。这个机构在2003年3月就出台了《NIH数据共享政策和执行规范》,除了关系到国家安全等领域的数据,都必须进行汇交,对全社会共享。这其中就出现过利用某些研究型数据成功开发出新产品的例子。可以说,NIH通过数据汇交管理既保护了美国联邦政府的利益,也促进了生命科学的研究进展。
我们对数据的结构完整性、内容一致性都要检查,要求每个数据都要有相应的文档。比如温度数据,必须在相关联文档中写清楚是在什么时间,什么地点、什么环境下,用什么仪器取得的,甚至连仪器的型号都要写清楚。我们在提供数据的时候,会把这些材料一并提供,极大地方便了使用者。
如今,我们利用承担的国家科技基础条件平台——地球系统科学数据共享网,已经为60多个项目、课题无偿提供了数据共享服务。在线网站也有了一定的用户基础,试运行期间的访问量已有57000多人次。很多硕士、博士写论文、做研究时都提出申请、希望我们提供相关数据。当然,因为973计划资环领域项目启动比较晚,到目前结题的只有29个项目,高端用户还不太多。但我们相信,随着973计划的持续进行,我们可提供的数据量会越来越多,高端用户会逐渐增加。
严格程序规范,保护科学家的知识产权
记者:很多时候,共享和保护知识产权是一对矛盾的概念。怎么才能在实现共享的时候,保护科学家的知识产权呢?
孙九林:这是一个很重要的问题。谈起我承担这项工作两年多来的体会,首先就要说数据汇交工作并非想象的那么难做。原来我们最怕承担项目的首席科学家们不配合,这两年下来,所有项目都明确支持数据汇交,都愿意汇交数据。
说到知识产权保护,科学家们主要怕两点。第一,文章没发表前,关键数据必须保密;第二,如何保证引用者在引用研究型数据时,都注明出处。
我们剖析了NIH数据共享政策和执行规范以及世界数据中心(WDC)科研项目数据管理等,科技部基础司又集中组织了三次研讨会,充分听取973计划资环领域项目的首席科学家或首席代表的意见,结合我国项目数据交汇的现实状况,制定了非常详尽的细则,以确保科学家的知识产权得到保护。比如,我们与工作人员都签订了保密协议,并且要求工作人员不得从事所负责领域的科学研究。
虽然这些数据都是免费提供的,但要想得到我们的数据也并不像登陆门户网站那样,任何人随时随地都可以获取所有数据。首先要向我们提出申请,写明你从事研究的领域和课题、需要什么样的数据;经过审核后,才能提供相关数据。
经过两年的实践,我们已经具备了较完整的技术平台开发和建设能力;功能体系上,能够满足项目数据汇交用户、数据使用者、数据汇交管理机构三方的需求。而且,我们开发的所有平台软件和工具都具有可移植性和扩展性,其他领域应用也很方便。
科学数据共享工程
2001年底,我国启动科学数据共享工程。自第一个试点——气象科学数据共享试点以来,在资源环境、农业、人口与健康、基础与前沿等领域共24个部门开展了科学数据共享工作,已经初具规模。迄今为止,科学数据共享的理念已经在科技界得到广泛认可,形成了共享氛围和服务意识,逐渐改变我国科学数据封闭独享的局面,带动了跨行业的数据交换,在科技界乃至国内外产生了较大的影响。
科学数据共享坚持“管理规范、标准现行”,先后完成了23项具体标准的编制以及一批管理办法;整合共享了跨部门跨领域超过250亿元国家投入产生的数据资源,建立了若干数据库;积极开展数据共享服务,为科学研究、政府决策提供了坚实的支撑,成效显著。据不完全统计,截止到2005年底,访问各个科学数据共享网站和分网站的用户总人次已经超过1400万,注册用户数接近5万人;数据在线下载量达到15TB;先后为超过1225个次的973、863、科技攻关、自然基金等重大项目和工程提供基础数据支撑,有力地促进了我国科技创新和社会发展。