语义Web中的本体建立技术1

来源:百度文库 编辑:神马文学网 时间:2024/04/28 07:18:19

语义Web中的本体建立技术

本体是语义Web 的关键技术,本体构建是本体研究中的热点及难点问题,主要研究怎样自动地建立领域本体,减少目前手工构建本体的工作量和难度。

■  清华大学计算机系知识工程组 仲茜  李涓子

语义Web并不是再创建一个全新的Web,而是对当今Web进行扩充,给其中的信息定义丰富的语义含义。在语义Web中,信息不但能够被人理解和使用,而且计算机也能够共享和处理这些数据,可以实现智能的、自动化、集成化及跨不同应用程序的知识复用。但是如何定义这些信息,使之成为Web上机器可以理解的数据是实现语义Web的一个关键。

本体(Ontology)赋予Web上的信息以语义含义,因此本体作为语义载体在语义Web中起着核心的作用,是语义Web中基于语义的互操作得以实现的关键因素。基于领域本体,可以对领域内的资源在语义层次上进行表述,使得领域内的资源从内容级别上升到语义级别,使得资源的管理和利用更加的有效和智能化。由此,本体的构建也就成为语义Web实现的重要步骤。

本体定义与描述语言

本体的定义

本体来源于哲学领域,是指关于存在及其本质和规律的学说。在本体中,符号与具体事物之间的关联基于人们对所涉及概念的共同理解。

在语义Web中,本体被用来特指在一定范围内共享的概念模型明确的形式化规范说明。围绕这个本体定义,存在多种本体定义方式。概括地讲,本体主要包括类(class)、属性(property)、实例(instances) 以及公理(axioms)四个基本的组成部分。类也被称为概念(concepts),用于描述本体相关领域中的各个实体元素。属性也称为关系( relations),表示概念之间的联系。实例是类具体化的表示形式。例如: 假设“人”是一个类,那么一个具体的人就是类“人”的一个实例。公理是利用逻辑的形式通过属性对类进行约束,实现深层次的知识的挖掘。本体根据其应用类型和本体粒度分为领域本体、任务本体、特定领域的任务本体以及应用本体等。

本体描述语言

为了实现本体的共享和互操作,W3C定义了Web上本体描述标识语言。下面我们介绍两种在语义Web中主要的描述语言RDF和OWL。

1) RDF与RDF-S

针对语义Web的需要,W3C制定和发布了RDF技术标准,定义了Web上资源的元数据描述及定义方法。RDF 是一个建立在XML技术之上的资源描述框架。RDF的基本数据类型非常简单,并不比表达和完成一系列简短的断言复杂。比如说: “张莉是一名教师”,这句话在RDF表现为一个声明(statement)。声明在结构上可以分为三部分,主体(张莉)、谓体(是一名)、客体(教师)。在RDF中,任何一个实体都被认为是一个资源对象(resource),有惟一的URI标识,任何实体都可以用一个三元组描述,RDF的属性资源在资源之间进行关联,利用这些三元组的组合建立起对一个客观世界的描述。

RDF-S(RDF Schema)是对RDF资源描述文件中出现词汇的定义。它由三部分组成,分别是: 基本概念、用于定义新词汇的schema定义概念和使用概念。基本概念包括资源、属性和声明。RDF Schema定义概念是指从已有的概念中定义新概念的词汇,具体定义词汇包括: 子属性、类、类型和子类。为了能够反映在对资源及其属性定义中的约束信息,用领域范围对三元组的主语和宾语的取值范围进行约束。在使用概念的定义中RDF使资源具有三种可选取的方式集合、资源的有序排列和选择性的约束。


2) OWL

OWL(Web Ontology Language)为W3C推荐的Web本体描述语言,OWL能够清晰地表达词汇表中词条(term)的含义以及这些词条之间的关系。OWL基于描述逻辑,相对XML、RDF和RDF Schema拥有更多的逻辑机制来表达语义,添加了更多的用于描述类和属性类型的词汇。因此,OWL是对RDF和RDFS语义描述能力的一种补充。

OWL分为三个子语言,分别是OWL Lite、OWL DL和OWL Full。其中OWL Lite只是支持分类层次和简单约束特性,表达能力最弱; OWL DL保证在不丢失概念完整性和推理系统决定能力的基础上,最大限度追求表达能力,它主要设计和用于推理的描述逻辑结合,是推理能力和表达能力比较完美的结合点; OWL Full在表达能力上最强,但正是自由的词法使得推理没有规则可寻,因此它的推理能力最弱。

本体建立与工具

本体的建立方法可以分为自动本体建立和手工本体建立。前一种方法依赖计算机自动从相关资源中抽取概念及概念之间的关系,建立本体。后者需要人工利用本体建立工具,由本体工程师完成本体的建立。前者作为一个热点研究课题,正在得到大量的研究。在此我们介绍人工建立本体的方法。

本体建立 

在新本体定义之前首先要进行广泛的调研,确定是否已有公开可共享的本体。如果有,则直接重用,这符合本体共享的设计初衷。如果没有可共享的本体,则需要建立新的本体,建立后新的本体也应该公开,让其他用户共享。

一般来说,本体建立主要包括以下几个步骤:

1) 确定本体的领域与范围,明确领域中重要概念

首先明确本体所属的专业领域及其中重要的概念。这方面的工作可由本体建立人员同领域专家共同完成。应该注意本体的概念是否包含了足够的信息来满足特定领域的表达方法和特定的详细内容。

2) 建立本体概念框架

对步骤1)选取的概念进行精化,对其中的每个概念的重要性要进行评估, 选出关键性概念, 摒弃那些不必要或者超出领域范围的概念, 尽可能准确而精简的表达出领域知识。从而形成一个领域知识的概念框架体系, 得到领域本体的框架结构。

3) 设计本体模式

本体模式包括: 领域中概念及概念之间的关系。

a. 定义类及类的层次体系。目前主要有以下三种设计方法。 自顶向下法: 先定义领域中综合的、概括性的概念, 然后逐步细化、说明; 由低向上法: 先定义具体的、特殊的概念, 从最底层、最细小的类的定义开始, 然后对这些概念进行泛化形成综合性的概念; 混合法: 混合使用自顶向下法与由低向上法,先建立那些显而易见的概念, 然后分别向上与向下进行泛化与细化。

b. 定义类的属性。领域中类与类不是孤立存在的,它们之间存在着各种各样的语义关系。因此,仅仅通过类不足以确切地描述一个领域,还需要定义属性来表示类之间的语义联系。从步骤1)中创建的概念中选择类, 从剩下的概念中选择可能成为这些类的属性概念。

4) 按照本体模式建立实例

按照本体模式中所定义的本体类和属性,建立类的实例,这一过程称为语义标注。可以直接以手工的方式定义类实例,也可以通过信息抽取的方法自动、批量地从数据库和其地数据源中获取实例数据。在实际应用中,第二种方法更为常用。

5) 本体的检验评价

本体形式化以后, 我们需要检验和评估所做定义是否满足了我们刚开始提出的需求, 是否满足本体的建立准则, 本体中的术语是否被清晰定义, 本体中的概念及其关系是否完整等问题。  

本体建立工具

本体的建立一直是领域专家和专业人员的工作。随着本体应用的不断发展,本体的建立也进一步向大众推广。更多的普通用户开始建立自己的本体。因此,很多本体定义的工具被开发出来辅助用户建立本体。

下面我们介绍最常用的三种本体工程工具: Protégé、Jena和Sesame。其中,Protégé 是一款基于Java 的图形界面本体工具,而Jena和Sesame则是两款Java开发包。在操作本体时我们常综合使用它们,比如用Protégé定义本体模式,用Jena和Sesame批量定义实例并对本体数据进行查询维护等工作。

1) Protégé

Protégé是一款由美国斯坦福大学开发的基于Java语言的免费开源平台。它为用户提供了一系列的工具支持构建领域本体模型和基于本体的知识库应用。它提供可视化的方法支持本体模式与实例的创建、显示和维护。用户可以通过定制插件来对Protégé进行扩展。插件定制十分简单,只需要实现几个简单的Protégé插件Java包中的接口即可。Protégé在支持自身的本体描述语言的同时,也可以很好地支持其他流行的本体描述语言如: RDF、RDFS和OWL。

2) Jena

Jena是惠普实验室提供的针对语义Web应用的开源Java开发包。它支持应用程序调用Jena提供的接口操作本体数据; 支持主流的本体描述语言,如RDF、RDFS和OWL; 支持多种本体编码方式如XML方式、N3方式和三元组方式; 支持多种本体的存储模型,如: 内存模型和数据库模型等; 支持基于RDFS的推理。另外,Jena还支持利用SPARQL语言在本体数据中进行语义查询。

3) Sesame

Sesame是一个Aduna开源项目。它提供了对RDF和RDF-S本体数据的存储、查询和推理的支持。与Jena相比,Sesame在RDF数据库的设计上更为优秀,因而效率也比较高,但是对OWL的支持比较弱。

 

提出文字:本体建立已经成为语义Web中实现基于语义的知识共享和互操作的基础,越来越多的本体正逐渐地被接受和使用。随着语义Web技术的不断推进,基于本体的知识表示方法将得到不断完善,将为在语义Web上实现基于语义的表示和推理,进一步建立可信的Web奠定良好的基础。