分类、主题、元数据与知识本体_COMTIGER | 航 纶

来源:百度文库 编辑:神马文学网 时间:2024/04/29 04:34:57
分类、主题、元数据与知识本体
2007-04-02 13:33
元数据方法已成为所有描述信息的方法的总称,而本体(或知识本体)在我看来是关于元数据的元数据,或者说是关于元数据的方法论。
在这里搬出本体的老祖宗——不是最早但是得到最多公认的本体定义:"本体是对概念体系的明确的、形式化、可共享的规范说明"("An Ontology is a formal and explicit specification of a shared conceptualisation of a domain of interest" Studer 1998)。这当然是一个从技术角度给出的可操作的定义。从图书馆学是"人文科学"的角度,我们可能会更认同Gruber在1993年的定义:本体是"概念体系的规范"。对于图林比较喜欢哲学思辨的人(例如游园),推荐使用更早的定义:"本体是对于存在的研究或科学"(the science or study of being,见牛津英语辞典),这个定义对于普通人好像不是信息(不含有负熵,呵呵)。
元数据是"关于数据的数据",元数据方法是给定描述某一事物的一组属性的方法。要描述事物,必须从某个角度,提取某些属性元素。例如对"元数据方法"可以用"对象、规则、结果"三个属性进行描述,当"对象=文献,规则=MARC,结果=目录"时,"元数据方法=编目"。每件事物可以基于不同的目的,从不同角度来描述,因此可以有多套属性元素集合。每套元素集合都是关于这件事物的一种认识和看法的概念体系(规范词表),都可以看成是关于这件事物的一套领域知识,即本体。
(元元数据”本应也是一种元数据,规定元数据的属性和方法。我这里说本体是元元数据,意思是本体能够为不同的元数据方案建立联系,例如葡萄酒本体会涉及葡萄 酒(品名、类型、产地、价格、成分、适应性等)、产地(地名、经纬度、气候、土壤情况)、酒厂(名称、历史、特点等)、西餐菜肴(牛、禽、猪、羊肉、海鲜 等)、餐桌用品(杯、器皿等)、饮食文化(上菜顺序、配伍等)等不同的元数据方案,本体把这些方案都串起来了,建立起了联系,形成一整套有关葡萄酒文化的 领域知识,并可用于指导宴会安排。
应该说元数据可以看成是一种本体。本体与元数据方案的关系是比较复杂,我的说法是不太严格。而且你所说的本体可 以看成是元数据方法的一部分,我在归纳元数据方法时,的确把利用本体构建元数据方案之间的联系也考虑进去了,而考虑本体是常常不会考虑元数据方案,常常可 以认为那是缺省的。)
单纯的元数据只是属性集合的堆积,也就是一组规范词表(或用于信息描述的保留字),并没什么大用。DC能干什么?不就是十五个元素吗?所有的电子文献都用了DC,也不过是一个数据库表单。要揭示出元数据属性之间的联系、以及不同元数据方案之间的联系,就需要依靠本体了。
分 类法与主题法都是本体方法,或者说都可以看成是本体方法,因为他们都是从学科角度,对描述对象进行归纳或解构的方法。一组文献经过分类法或主题法的标引之 后,在学科空间上可以呈现出一个庞大复杂的"语义地图",采用不同的分类、主题方法可以呈现不同的语义地图。就如同如果你要旅游,你可以用旅游地图,如果 你要看天气,你可以用气象云图一样。这些语义地图就是一个个完美的、关于一组文献集合的多角度透视本体。
广义的现代信息资源组织一般关心四个方面的问题——实际上其中大部分已经交给计算机去关心了:
1、对资源内容的处理:信息的结构化,也就是"先控";
2、对提问的处理:提问式规范(如布尔逻辑、SQL等)、交互修正、提问分发、规范后控等;
3、对检索结果的处理:剔重、排序、可视化等(常常根据第4点来做);
4、对用户使用习惯/知识背景(user profile)的处理:相关反馈、用户配置修正、用户本体等等。
情报检索认为,检索过程包括存储和查询两个互逆的过程,从上述4个 方面内容可以看到,现代情报检索已经呈现一种这两个过程很难分清楚的现象,广域网信息的存储过程常常不是物理过程,常常可以由机器代理(agent)通过 与信息资源相关的知识本体和与查询过程相关的用户本体进行交互(需要结合用户需求),因此在这里本体就成为一个关键的方法论。
有 语境才是信息,有关联才是知识。本体方法旨在建立信息资源之间的普遍联系,并且使这种联系"机读化",大大拓展人类处理知识的能力。体系分类法中的体系, 主题词法中的概念关系(主要是用代属分参)都反映了知识单元之间学科属性的普遍联系,都是本体需要实现的重要内容,也是图书馆学长期知识沉淀的成果。当然 知识本体中还有更广泛、更复杂的关系,例如信息体的生命周期关系(FRBR就可以看成这样一种关系)、时空关系(GPS等地理信息系统、可以用来描述家谱文献),甚至历史上很荒谬的各种认识体系,都可以以本体的形式呈现,并用于组织其对应的领域知识。
本 体以规范的方法建立起来,资源之间的复杂联系就成为一种能够"计算"的数字模型,将全面实现信息资源组织的一种"基于知识的信息组织机制",信息系统将以 前所未有的形态呈现。对应于大千世界,本体是无穷多的,因而这种机制还应该包括翻译、映射、参照、注册等等功能,以进行本体之间的信息交换,才能使计算机 彼此无障碍地 "听懂"彼此的语言。
下一步建立内容之间的规范联系,以XML/RDF/OWL语言编码(也就是建立大量的领域知识本体),能够使机器运算、操纵这些关系(也就是提供大量的本体工具和系统实现方法),正在成为本体研究与开发的热点。