开放科技数据助力全球科研

来源:百度文库 编辑:神马文学网 时间:2024/04/27 15:16:36
■ Paul F. Uhlir Peter Schroder 陈宇译
科技数据的共享是科研的“助推器”,全球科学家应致力于冲破壁垒,开放公共科研数据,本文探讨了如何在“假设开放”的基础上建立数据共享体制,以便更好地发挥科研数据资产的作用。数字革命把公共科研(即公共资金支持的科研)中积累的大量数据转化为资源, 这些资源在被使用的过程中,其价值不断攀升。如果能在互联网上开放这些资源,它们对科技的促进作用及科技对经济和社会产生的“连锁效益”将成倍增长。多数发达国家投入大量公共资源支持研究活动和科研设备的购买,这些行为使数据量激增。然而,用于数据保存、开放并使其价值最大化的经费却少得可怜。管理数据的方法大都治标不治本。人们逐渐意识到这些方法无法满足国家或国际层面的研究机构处理重大问题的需要。一方面,我们被海量数据包围,合理管理和使用源源不断的数字财富,将给科研及其应用带来无限生机; 另一方面,科研政策和经费管理机构对数据共享问题的忽略,使系统效率低下成为一个走不出去的怪圈,公共数据(即公共经费资助的活动生产的数据)资源无法“物尽其用”。尽管信息通信技术的飞速发展使这些数据得到更有效的应用,开放和使用数据的能力仍然有待提高。无论是由政府组织、学术机构还是由公共基金支持的非营利机构生产的数据,都迫切呼唤出台更合理的国家策略和更统一的国际标准。数据推动科研科研的进步通过其范围的扩大、水平的提升和复杂性的增强体现出来。这种进步也带来了科研成本的激增。经济合作与发展组织(下称经合组织)2005年公布的“重要科技指数”指出,经合组织成员国对研发的总投入从1981年的1632亿美元增长到2003年的6798亿美元(以2000年美元的“不变价格”、即2000年美元的平均价格来衡量,从1981年的2766亿美元增加到2003年的6380亿美元)。考虑到这种趋势,政府在国家和国际层面上参与科研政策的出台也就不足为奇了。研究政策的建立促进了公共和私有科研(即公共经费和私有经费支持的科研)人员的合作,也对发展公共科研领域的国际合作做出贡献。互联网和相关计算技术的腾飞,特别是其在经合组织成员国中的发展,为这种趋势创造了便利条件和持续发展的动力。通过整合来自不同学科领域、部门和国家的信息资源,科研的范围进一步扩大、水平和复杂性进一步提升。正如美国国家科研委员会在其“2002研讨会”上对“科技数据和信息在公共领域中的作用”所作的描述一样: “在过去20年中,数字技术和网络的飞速发展从根本上改变和推进了数据在科学及其他各个领域中的生成、分发、管理和使用方式。新的传感器和试验装置使原始数据在数量和种类上成倍增长,为推动科研和提高在数据应用基础上产生的经济效益创造了前所未有的机遇……科学涵盖的各个学科领域,如分子生物学中的生物信息学和环境观测学,都要通过数据‘充电’。新型软件工具帮助人们定义原始数据并将其转化成取之不尽、用之不竭的信息和知识。其中最为重要和普遍的研究工具莫过于互联网;它可以穿越时空实现数据和信息的共享,在科研协作和研发方面引领前途一片大好的新模式。”政府机构、研究院所及工业批量生产出越来越多的数据,构成全球科研的基本元素。实际上,一切可以测量的事物都能通过数字化的数据库进行记载和存储。诸如一个几何排序、原子粒的速度、地球的轨道、液体的温度、社会调查统计、一篇文章中名词的使用频率以及其他行星的卫星图像等都可以作为研究数据。因此,数据生产成为认识自然和社会、进而助力科研和创新的起点。数据应用不是 “孤军”; 它类似于动态的连锁反应,牵一发而动全身。一个领域中不断涌现的数据往往可以在其他学科领域中得到应用,超越了科研人员最初采集它们的意图。通过在科研、社会、经济和公共领域的再利用,大量公共数据能够释放出更多能量。数据革命对科研的影响在其数量和质量上都有体现,譬如说,对尚未联系起来的数据片段进行重组,可能产生始料未及的新发现。美国国家科学基金会前主任Rita Colwell对霍乱的研究就是一个很好的例子。她在美国国家科学院2002年的Abel Wolman演讲中指出: 通过综合研究海洋生命、地球观测、历史流行病学、DNA分析和社会人类学等方面的信息,她成功地解释了疾病模型; 没有信息通信技术工具和不同领域的数据,这种发现难于上青天。毫无疑问的是,数字化的数据在全球科研系统和科研信息化中扮演着重要角色。数据领域的显著进步大多发生在发达国家; 然而,要使这种进步产生最大的效益,发展中国家才是关键。数据推动在结构和导向上发生了巨变,需要更合理的组织和规划来指导。为开放和使用数据资源提供一个透明度更高的环境,将为国家和国际层面的科研系统注入生机。数据壁垒带来的损失数据壁垒的形成,使科研数据在科研系统中逐渐成为“独立自主”的资源,其使用与它们的原始生产者和原始用途没有必然联系。离开了原始生产者和使用者,每个人都有可能通过信息通信技术基础设施,随时随地以多种方式使用科研数据。开放公共科研数据给提高科研产量和生产力带来机会; 但是要想完全实现这种潜力,需要特别关注数据管理政策及其实施。与此同时,竞争意识和其他法律因素制约了人们访问公共数据。考虑到开放数据的利弊,参与的机构和个人可能无法找到一致的利益点。很多科研人员把利用公共研究基金产出的数据当作个人或是机构内部的财产,这种观念往往在给他们经费支持的机构那里得到认同。尽管这些数字化的数据资源姓“公”,不必要的割裂和数据壁垒还是降低了科研系统的效率。当然,这里要讨论的是基础性公共科研产出的数据,而不是具有商业前景的研究数据。数据壁垒带来的损失如下:更高的科研成本 限制访问显然会降低整体效率,抬高科研成本。很多数据库不能,或者说不应该被独立“拷贝”出来。在“封闭意识”的基础上管理公共经费支持的数据库给每笔数据访问“业务”附加了额外的管理成本,给公共科研体系造成更大的负担。公共机构在授权数据使用过程中开出的高价和对同一体系下的其他公共机构设置的门槛,更让科研成本水涨船高。数据质量差强人意。对比开放的数据,处在封闭环境中的数据往往只能由一个小范围的科研圈子把关,从而降低了数据质量和“连锁”科研成果的质量。减少控制数据质量的“关卡”,将导致数据和科研经费的投入产出“缩水”。科研机会减少所造成的损失 此类现象可能更不容易被察觉。倘若公共数据无法得到共享,开展需要大量数据支持的科研活动的机会将大大减少。毫无疑问,它将造成巨大损失,但我们难以量化这种损失。创新壁垒 在很大程度上,不论姓“公”还是姓“私”,生产处在“下游”的有技术含量和自主知识产权或版权的商品,都需要源源不断地获取“上游”的公共数据和信息。对公共数据库的封闭和过分保护给社会带来重负,也给各国的创新体系带来压力,拖了科技进步的后腿。合作、教育和培训的效果不佳 如果无法广泛地使用跨部门的数据,学生们接受的教育和培训也难以达到预期效果。经合组织成员国和发展中国家的差距加大 数据访问的高门槛使发展中国家明显处于下风。尽管由于关注对象侧重点的不同,经合组织成员国建立的一些数据库与欠发达国家扯不上关系,但那些本能够在全球创造更大公共效益的用途广泛的数据库,如果对其访问收取高额费用(在很多情况下,只要是收费),就无法惠及发展中国家。数据如何开放科学数据的价值在其使用过程中才能体现出来,因此,为公共数据建立的开放式体系比起给数据访问及其应用设置重重障碍的封闭式体系来,可取之处颇多。不过,由政府机构和政府经费支持的机构生产的数据之间,以及不同学科、不同种类的数据之间,存在本质差异。此外,出于对重大问题和法律因素的考虑,有些公共数据应该得到保护而不是开放,至少在特定的时间和情况下处于保密状态。这里面的细微差别和特殊情况比较复杂,但了解它们对发展数据访问制度至关重要,现简单介绍如下:1. 政府机构生产的数据2004年联合国教科文组织发展和促进政府公共信息政策纲要中提到: 出于如下政策的考虑,政府机构直接生产的数据能够得到开放并被无限制地使用。法律因素: 一个政府机构无须考虑带有排他色彩的数据产权问题。政府的活动及其产出的信息以公共利益为出发点。公共科研产出的数据往往以全人类的公共利益为出发点。民族因素: 公众已经为信息的生产买过单了,人们可以通过互联网获取信息; 与此同时,包括发展中国家在内的最贫穷和最弱势的群体需要承担高昂的数据访问费用,这是一种失衡现象。政府科研数据作为全球公共利益的组成部分,应该顾及到这一重要因素。社会经济因素: 开放式的数据访问机制是通过互联网传播公共数据和信息的最佳途径,从而使公共资金得到最大的回报。在互联网上开放公共数据和信息给经济和其他方面带来积极影响(这种影响不好量化)。反之,在排外的基础上把公共数据商品化,实际上是垄断公共资源的行为; 它必然导致经济发展效率低下,也与公众在社会、民族方面的利益背道而驰。把数据开放作为一种默认原则的呼声很高; 与此同时,一些法规政策可能使人们在访问包括科研数据在内的政府信息时感到束手束脚。考虑到国家安全和法律实施的因素,以及保护个人隐私和信息保密的需要(还有不受信息自由法约束的其他情况); 一些法规对数据访问和使用做出了必要的限制。除非得到授权,政府机构还应该注意保护由私营机构提供的信息。政府可以采取措施,抵制个人和团体与私营机构直接竞争,利用他们的信息生产相关产品和提供相关服务。2. 政府经费支持的科研活动产生的数据此类数据在政策方面的基本情况与第一类数据类似,当然前提是科研活动100%是由政府提供经费支持的。政府经费所占的比重越小,开放政策就越弱化。但是,我们还需要考虑一些其他方面的因素。科研数据无法自动发挥其作用,要使科研数据在开放的过程中“物尽其用”,需要合理地建设带有“增值”色彩的数据库; 这种增值同样需要经费支持。数据通过加工可以在更多领域中发挥作用,这方面的投资理应受到知识产权的保护,也需要资金来扩大其辐射范围。然而,在多数情况下,人们呼唤法律和经费分配机制的出台,支持开放公共数据。错综复杂的形势要求相关组织开展更加深入的合作,共同参与建立以促进数据管理和数据开放为目的的政策和机制。部分经合组织成员国和握有科研经费分配权的机构制定了相关政策,鼓励由政府经费支持的科研活动商业化。对于那些具有商业价值的科研课题,研究人员更趋向于把数据当成私有财产,至少在取得专利之前是这样。此外,非政府科研活动的经费可能来自不同的公共基金、合伙人、私人团体或外国机构,使科研数据的支配权分布情况更加错综复杂,除非得到所有参与者的授权,数据开放的政策不宜应用在这种情况中。公与私的关系及它们之间与生俱来的张力通过各种形式体现出来,比如开放与排外、公共利益与私人投资、公共领域与所有权、竞争与垄断等等。不同动机和需求交织的状态,要求我们对具体问题具体分析,避免用不变的规则一统天下。这时候,通过合同来定位不同参与者的权利和义务是最好的办法。契约的方式在宏观的科研政策下最大程度地体现了灵活性。需要强调的一点是: 在很多案例中,这种契约从公共利益的角度出发有条件地开放了与公共经费挂钩的数据; 与此同时,它有效地保护了各方产权所有者的利益。这种区别对待通过很多形式体现出来。最基本的形式是对科研、教育和其他非赢利行为免费开放; 同时限制以赢利为目的的用户,收取补偿,甚至是能够获得利润的费用。针对不同类型的产品收取不同的费用,影响定价的因素有时间(如对商业用户随时开放,而对不以赢利为目的的用户定期开放)、覆盖范围(地理或课题方面的限制)、服务的水平和其他方面的差异。面对复杂的公私科研关系,甚至是具有排他性的私有化环境。类似的策略有助于促进科学和社会层面上的数据开放和数据使用。除了上面讨论的复杂情况,不同的学科领域和课题间也有差异。其中,具有“大科学”性质的科研项目和由个人或小团体主导的“小科学”之间,存在重大差异。前者更强调合作,后者带有更重的竞争色彩(至少是相对保守的)。多数重大科研计划往往在开放的基础上通过现有数据中心提供可访问的数据,而后者则通常不具备正式的访问规则管理其科研数据。另外,侧重观测与侧重实验的学科领域之间存在着重大差异,它们需要保存和大范围开放的数据种类明显不同。还需要注意研究对象是人还是物。基于保护个人隐私的道德和法律因素,应该对访问以人为研究对象的数据做出限制。需要守住的底线是,开放公共数据应该成为一个默认原则而不是特例,对于无法实行开放原则的案例,需要做出明确合理的解释。数据开放机制的最新进展在公共经费支持的科研中,把数据开放作为一种默认原则,显然不是具有颠覆性的新点子。这种原则有坚实的理论基础, 而在各国政府和政府资助的机构里、在各个领域的科研活动中,实践中的成功案例比比皆是。互联网上可以查找到很多体现公开与合作精神的分布式的科研、信息生产和信息分配活动。开放数据和信息生产活动的案例有软件开放运动(如Linux,此类活动大多由学术界发起)、分布式网格计算(如SETI@Home, LHC@home)等;开放数据、信息分配和长期保存的案例包括开放的数据中心和档案库(如GenBank、Protein Data Bank、SNP Consortium和Digital Sky Survey)、联合的数据开放网络(如世界数据中心、全球生物多样性信息资讯和美国国家宇航局的分布式档案中心)等。数字革命给信息经济带来了翻天覆地的变化,在公共科学体系中,一个值得注意的趋势是越来越多的“附加用户”阵地涌现出来,为“二次利用”数据、信息和知识提供便利。公共数字资源通过开放获得增值,互联网最大程度地降低了传播信息的成本,开放式的访问降低了交涉成本。数据访问的低门槛符合公共投资的初衷、增加了投资回报: 在投入等量资源的情况下,发挥更多科研劳动力的作用,可以得到更多回报。低门槛满足了传统市场无法满足的重大需求。开放式课程已率先在麻省理工学院推行。1999年,麻省理工学院采取商业模式出售在线课程资料。尽管销量不佳,麻省理工学院并未止步,而是把原来的商业模式转化为非营利的开放式访问模式: 也就是具有示范性的“麻省理工开放式课程”。截止到2005年4月,麻省理工向来自世界各地的教育工作者、学生和自学者免费开放了1100门课程,门户网站点击率达到5.56亿。当然,麻省理工的教职员工对这种尝试产生过很多顾虑,但最终麻省理工还是做了“第一个吃螃蟹”的大学。正如前校长Charles M. Vest所说的: “在当今这个由市场驱动的世界,开放式课程似乎是站不住脚的。然而,它体现了我心目中麻省理工最大的亮点,这就是创新。它诠释了我们的信念——通过与更多人分享信息和激发更多的参与者,人类可以创造一流的教育。”这些数据开放活动构成了新兴的服务于公共科学的“电子共用”,涉及一系列的信息类型、制度结构、学科领域和国家。它们一贯的政策是在线提供免费的信息资源: 要么通过签署授权书的“共用”机制来减少知识产权的制约(“Creative Commons”网站http://www.creativecommons.org上可以找到关于Creative Commons及其开展的“科学共用”活动的信息。网站同时提供了一些授权书模板,它们从保护知识产权的角度出发,对部分权利做了“保留”),要么属于法令规定的公共领域(这种情况比较少)。尽管尚未出台适用于公共数据的综合性纲要,开放数据的模式还是大量涌现。适用于数据的制度模式至少有两种: (1) 开放数据中心和档案库; (2) 联合的数据开放网络。前者强调集中,后者强调相互连接的分布式节点。每种模式都在政府机构和政府支持的实体(大学和非营利研究机构)运作的案例中得到应用。在没有外援的情况下,科研人员需要耗费九牛二虎之力寻找适当的解决途径,因此,他们很容易为了规避风险无所作为。考虑到促进数据开放可能带来的诸多好处,我们有理由在国家和国际层面建立一个更透明、前途更明朗的大环境。科学政策的领军人物已经开始在国家层面上开展工作了。比如,2003年中国科技部启动了科学数据共享工程,2004年加拿大就科研数据开放问题成立了国家咨询委员会。此外,美国国家科学委员会于2005年率先提出针对长期存在的数据采集问题制定一套国家政策; 挪威科研委员会2004年发表的白皮书把数据库作为科研基础设施的组成部分记录在册。这些自上而下的尝试都是值得称赞的, 种种迹象表明科技政策工作者正在觉醒,他们逐渐意识到在公共科学领域建立合理且兼容并包的数据访问机制,既是机遇也是挑战。毫无疑问,需要做的事情很多。自下而上的“拼凑式”数据访问机制在某些案例中满足了部分科研人员的需求; 如果国家和国际层面能够达成更统一的政策和经费重点作为风向标,各种松散的尝试将会取得更显著的成效。作者简介Paul F. Uhlir博士美国国家科学院国际科学与技术信息计划办公室的主任。研究领域是科学、技术与法律的相互作用,特别是数字信息政策和管理。他组织了一系列有关在国内和国际开放公共科学信息的政策项目,同时在发展中国家组织了一系列数据管理与政策研讨会。曾先后出版了20多部研究著作,并撰写和编辑了60多部文章和书籍。Peter Schroder1980年作为教育支持系统的政策顾问加入荷兰教育部;1986年到1990年,管理荷兰乌德勒支大学跨学科研究项目“城市网络”;1990年后在荷兰教育部,作为社会科学和信息政策顾问加入科研和科技政策理事会。(计算机世界报 2006年09月11日 第35期 B16、B17)