元数据探讨 @ Metadata, Digital Library and SW

来源:百度文库 编辑:神马文学网 时间:2024/04/27 10:24:19
http://www.metadata.com.cn/dataresearch.htm
元数据探讨(Metadata Research)
什么是元数据?DOC文档下载
"元数据"是从英文单词"metadata"的中文意译,也有翻译为"元资料"(常见于东南亚、台湾等地的文献中)。元数据的直译为关于数据的数据,一般属于计算机领域中的术语。我们可以用一个简单的例子来说明;有一本书《政治经济学》,我们对它的书名、作者、出版社等信息做一个简单的摘要,那么这个摘要信息就可以称作元数据。同样的,关于物质世界的和初始事物的简单(相对于源)再描述所得到信息都可以称作元数据,这就是元数据的一般定义。元数据最基本的用途就是管理数据,从而实现查询、阅读、交换和共享。
图书馆元数据简介
元数据的编写是有标准的,对于不同领域一般都会根据需求来定义一个标准或几个标准。标准的设定是为了实现领域中的数据信息交换和共享,为研究和生产服务。
元数据在不同研究领域中有不同提法,因为我们以研究计算机、图书馆和情报信息领域的应用为主,所以我们只给出关于该领域的名称;书目数据、二次文献等都是元数据。简单来说,相对于图书馆的原文、原书、原刊的描述性数据(一般为人工编目形成)都是元数据。
对于印刷体的图书和期刊等已经采用历史悠久的机读目录(MARC)来编目,国内现在一般采用CNMARC和USMARC两种标准分别针对中文和西文馆藏。在这里,图书目录数据(MARC数据)就是元数据,而MARC就是编目标准。MARC以其详细和严谨的风格可以准确的描述图书和期刊,提供管理和检索。国内通过10年的发展,在图书馆领域的MARC建设已经比较完善,可以实现联合编目和目录共享等区域合作。MARC数据的交换和共享通过Z39.50协议实现。
现在,人类社会已经进入计算机时代、网络时代、信息时代和数字时代。图书馆的建设已经不局限于对纸张载体的管理,更多的是电子资源,电子图书、电子文献、数字图象、数字音频和视频等资源。图书馆的数字化任务成为当今的另一个重点,建设一个网上的数字图书馆为读者服务。
数字资源的建设采用怎样的元数据标准?元数据实现的技术手段是什么?元数据的交换和共享如何实现?资源的内容(泛指电子全文和多媒体内容等)采用怎么的数字格式?这些都是我们必须的解决的问题。数字资源是由元数据和电子内容构成的,根据本文主题只作元数据介绍,电子内容暂且不提。因此,一个完整的元数据解决方案是建设的关键。
首先,我们能继续使用MARC来著录吗?MARC元数据是否适用于数字资源呢?
分析一:众所周知,MARC数据是详细,字段数定义了上千条,工作量较大;但从实用的角度来看,读者真正可以和习惯使用的字段只有若干条。
分析二:MARC的编目是严谨的,专业性要求高,所以一般人员无法参与编目工作。
分析三:图书馆印刷体的馆藏中小馆在10万册以下,大馆50万册左右;但在今天这个信息爆炸,数据成几何级膨胀的社会,数字资源是一个海量的集合,上百万个记录内容只是建设中很小的一部分。
很明显的,我们可以给出一个答案:MARC并不适应数字资源的建设。
其次,我们需要一个适合数字资源的元数据标准--都柏林核心集(Dublin Core),缩写DC。DC的主要特点有:涵盖范围大,主体结构下字段数量可以自由伸缩,标引的专业性要求低等。
几个世纪以来图书馆员一直用一些很有用但也很复杂的工具(MARC,AACR2等)在做着这些工作。随着Internet以及数字化技术的来临, 我们突然面临着一种处境, 即要为数以百万计的单个图象, 文本文件,原稿,声音文件, 电影或任何能在计算机上存储的其他东西提供结构化的存取。一个简单但可以扩展的描述数字对象的标准, 将容许任何人以能被几乎其他所有的人理解的方式来描述他们的文件, 随后对一个巨量的数字集合提供简单的存取。现在这个草拟的看来是有了极大进展的标准被称为 "都柏林核心(DC)", 它是以俄亥俄州的一个小镇命名的, 因为第一次的议程会议是在这里召开的(OCLC的发源地) 。(MARBI Discussion Paper no. 99, Library of Congress, January 21, 1997)。
DC从1995年创立到现在已近7年,北美、欧洲和东南亚的许多图书馆都采用这个标准进行数字建设,已经成为事实上的标准。在国内,随着数字图书馆建设我们也必将发展自己的DC,一些大的图书馆已经在这方面开始了计划和实施,譬如上海图书馆。
同时,学术界对MARC到DC的数据转换理论研究已经完成,而我们在技术上已经实现了这一步。在上面我们提到了"标引"这个词,这是它在计算机领域中的术语,我们可以把它称为"电子著录",是指制作编辑元数据的过程和活动。关于DC的具体内容我们在其他的文章再作介绍。
再次,谈到DC就不能不提到XML和RDF。XML和RDF是元数据实现的技术手段,一般我们常见到Dubin Core in RDF/XML的提法,可见他们对于图书馆的数字建设是密不可分的。RDF和XML主要是为数据交换和表达提供技术手段,关于RDF和XML的具体内容我们在其他的文章再作介绍。
最后,我们来看一下数字图书馆的元数据交换和共享。
因为历史的原因图书馆较长时间以来采用MARC格式交换书目数据。MARC格式仅仅用于图书馆系统间数据交换,MARC格式不能取代系统的内部格式。这些异构系统要想在网络环境下实现互联,还必须采用Z39.50协议。
而DC采用的XML恰恰从数据与文档的底层实现格式化,这就保证了从里到外、从处理到交换的一致性,因而有利于网络环境下采用通用的检索引擎等软件工具。这为实现广义的数字图书馆,例如通过关键词即可查到网上最终文献(无论文献存在哪个系统),展现了良好的前景。元数据的交换和共享变得容易,我们可以想象在Internet这个全球网络中建立一个虚拟图书馆。
图书馆的数字建设是一项长期的工作,在标准和技术上的选择是很重要的一步。如果在这方面出现偏差就会在未来增加许多重建和转换的工作,造成资源浪费。所以,见解国外的发展经验和了解国内的前沿研究是必须的。同时,我们相信在未来的一段时期内MARC和DC的并存是必然的趋势,如何利用好它们的各自优势为图书馆的传统业务和网上业务服务将是一个长期课题。