学习“语义网格”

来源:百度文库 编辑:神马文学网 时间:2024/04/27 18:05:10
虽然在Ian Foster和Carl Kesselman的书中几乎对Jeffery等人的网格分层观点[1]持否定态度,然而认为网格可以分为数据、信息和知识三层并将这种想法付诸R&D实施的大有人在。

Ian和Carl认为这个观点有其局限性,“通常计算、数据和知识是彼此不可分割的,特别是知识不仅驻留在网格应用中,而且也渗透到网格应用和基础框架的全部有效范围内。”(作者认为一种更准确的体系结构应该是基于组件的,其中的各种宏组件协同工作)。

我的想法也是基于这样一种分层模型进行,我认为如果把看成对象的信息、数据、知识(Semantic on the grid)与系统架构和实现所需要的“信息、数据和知识”(semantic for/in the grid)分开来讨论,这种分层架构完全是能够成立的。但是这个观点还没有进行证明,我目前还没有很好的形式化的方法能够对这一点加以证明,也还没有看到那些采用分层观点的系统事先进行过证明。

语义网格(Semantic Grid)是目前最大的、以知识(信息的语义)为操纵/管理对象和目的的研究计划,最接近我们图书馆学研究的核心领域。前面我们探讨过,网格与Web服务已经全面合流,前者称为后者的一种实现形式(或一种应用),可以看成以后者为环境的一组中间件构成的分布式计算平台,提供网络、硬件、软件资源共享的网格能力。而语义网格则是语义万维网与网格发展的一个杂交,提供的是资源内容(信息)共享的能力,即信息系统的语义互操作的能力,这超越了计算机仅仅作为工具的资源共享,而直取计算机作为其存在目的的共享——信息的语义。参见著名的图示:


解决信息语义的异构,正是数字图书馆梦寐以求的目标。网格架构的环境与数字图书馆的信息环境是完全一致的,都是分布式的广域网环境,只是数字图书馆在承认环境无序的前提下寻找一种跨语义的解决方案,而语义网格所开的药方是在Web环境中再构建一个中间的环境,使得符合这个环境的信息体都具有语义互操作功能。两者的目的是一致的,途经不一样,数字图书馆很有借鉴语义网格、向后者寻求方法论支持的必要。从解决问题的方案本质来看,形式化地描述信息,使其负载的语义能够为机器所解析和认识,从而利用人工智能数十年的研究成果操纵广域网信息,是语义网格和数字图书馆的共同目标。语义网格甚至可以看成是数字图书馆语义互操作方案的一种特例。

关于语义网格立项时的“可行性报告”可参见:http://www.semanticgrid.org/v1.9/semgrid.pdf,详细介绍了语义网格的相关技术、分层模型、问题领域和技术构想,以下是“中国万维网联盟”的bbs上一位叫Whale的网友贴的一个帖子,内容的组织和翻译得都不错,就直接节选拷贝粘贴在这里了:

网格论坛组织GGF,也开了专门的板块来支持语义网格项目研究。目前已经有关于semantic grid的国际会议和期刊目前语义网格的概念同知识网格应该相同,GCC2004上英国e_Science的首席科学家TonyHey作主题演讲时证实了这个结论。

语义网格的研究重点是用语义和知识工程的方法来解决目前网格平台建设和应用中存在的各种问题.其研究内容可以概括为以下几个方面.

1. 智能实验室(Smart Laboratories)

智能化的实验室是e-Science成功不可豁缺的,同时配置智能实验室可以充分挖掘Grid的能力.

2. 面向服务的结构(Service-Oriented Architectures)

研究语义网格设施的预备和实现,研究基于语义的服务描述语言.

3. 基于代理的方法(Agent Based Approaches)

研究Agent Based架构使用,研究交互语言以便开发\制定\维护e-Science marketplaces

4. 信任和证实(Trust and Provenance)

研究网格系统中计算信任建立的过程\方法\技术,决定内容种源和品质,这些涉及到数字权管理问题.

5. 元数据和注释(Metadata and Annotation)

元数据设施已经以RDF的形式存在,进一步工作研究支持ontology设计和运用的方法和工具,研究Annotation工具和方法.

6. 知识工具(Knowledge Technologies)

知识捕获工具和方法\动态内容连接(dynamic content linking)\基于注解搜索 (annotation based search)\annotated reuse repositories\自然语言处理方法 (natural language processing methods )(for content tagging, mark-up, generation and summarisation) \数据挖掘(data mining)\机器学习(machine learning) \Internet 推理服务 ( internet reasoning services).

7. 集成媒体(Integrated Media)

把一系列的媒体合成到e-science基础设施中,包括视频\音频\各种图像方法\;研究 metadata和annotation同这些多样媒体格式的关联

8. 内容表达(Content Presentation)

研究内容的可视化技术和方法

9. 电子科研工作流和协作(e-Science Workflow and Collaboration)

理解现在和未来e-Science合作的工作流,拥护应该能够形成,维护和解散基于一定成员限制规则和操作规则的合作环境。

10. 普适电子科研(Pervasive e-Science)

不仅关注计算能力,更包括所有对所有资源的访问

面向语义的网格承诺带来语义可互操作性,智能自动化,行动指南以及灵活重用的优势,它日益被认为是网格计算演变中的一个重要阶段。我们将语义网格广泛的应用场景概括为以下几个方面的网格应用。

服务发现.

英国e-Science的领头项目myGrid寻求提供开放源代码的高层网格中间件, 用于形式化表达,管理以及共享生物信息实验中的密集数 据. MyGrid所用资源是开放网格体系结构的服务,这些服务能够静态或动态的与上下文结合.这里的上下文包括用户信息,执行代码,执行速度,可靠性和 对用户有用的适当的认证机制.能否找到正确的服务依赖于服务的知识.服务的语义描述对服务的自动发现,查找,选择,精确匹配,组合,交互操作,调用以及执行的监控都是必要的.在开放网格体系结构中, 服务规范提供了描述接口的语法, 但服务除了按照一定的参数和返回值要求执行操作,还应该按照一定的用户需 求来响应.

生物信息学家常常掌握着一些特殊的数据,他们需要找到服务来操作这些数据以便产生期望的结果,或者他们希望在这些数据之上应用一些任务. 他们必须表达他 们的需求,以便同可用的服务来匹配, 并考虑服务的功能,接收和产生的数据以及用于完成其目标的资源, 从而匹配用户的需求. 而且, 他们必须从能够完成任务的后选者中选出在请求约束下获取结果情况最佳的一个. 这种选择依赖于功能,代价,服务质量,地理位置和发布者相关的元数据.

基于提供的功能进行的这种服务分类正在被不同的组织采用,作为一种有效的查找.索引合适服务的方法.不同组织目前在服务注册的分类模式上是一致的. 比如生物信息学应用和仓库EMBOSS套件对本身所包含工具有一个粗略的分类,并且被当前众多的生物信息学集成平台使用.

MyGrid的一个假设是:第三方服务注册为可用的生物信息服务编目分类.服务描述的附加(个性化的)元数据使用RDF陈述来进行声明. 服务提供者发布 他们的服务,服务使用者通过多种机制,如名字,词语,特征,类型或本题描述来查找,匹配服务.myGrid生物信息服务本体基于DAML-S服务模型.服务描述分为两类:服务种类设计的领域名, 可调用服务实例的操作元数据(如数据质量,服务质量和代价等). DAML+OIL提供了服务描述的词汇。匹配首先对域进行匹配,然后是操作的属性。 副本服务(生物学里大量存在)之间有着同样的描述,但操作意义上的服务配置不同。在执行工作流之前,对服务类和他们的实例进行发现,匹配和选择。在执行期间,实例也可以动态的选择。

知识注释,通知和指南

Geodise试图用网格技术,设计优化技术,知识管理技术,Web服务和本体技术来构建一个具有目前最高水平的知识密集性设计工具,该工具要与OGSA 基础设施保持一致。Geodise正使用知识工程方法学来对设计知识进行建模,封装,以便航空引擎不见等新设计能够一更低的成本更快的开发出来。

Geodise首次使用的知识模式之一就是通过注释使工程设计流具有丰富的语义。Geodise希望能够回答的一个关键问题是:以前的实际开发出什么以及怎么重用它们。一个典型的工程设计通常包括问题定义信息(几何方面);工具用于划分网格或者将集合设计拆分成能够进行分析的单元;然后,将优化方法产生的一组行为应用上去,以不同的参数进行实验,并得一组可能的设计方案。所有这些信息——如何四用软件包的每一步活动——都记录在日志中。为了最有效的重用日志文件中包含的知识,Geodise项目中通过使用域本体术语从语义上丰富这些日志文件。经过语义扩充的结果日志形成一个知识库,该知识库可以被查询,索引和重用。这样一个知识库使的我们能够基于以前的经验,为当前的设计问题找到合适的解决办法。

工作流合成

工作流通过系统性计划将服务连接在一起,进行协调的组合。知识可以用于约束和知道工作流组合,并验证配置是否正确。

myGrid系统用于对用户数据选择适当的操作,并用于规定哪个操作接着哪个操作是合理的。在myGrid中,任务本体对工作流过程进行模拟,并用于注释 服务的输入和输出语义(当前用Web服务工作流语言来表示)。数据的语义类型必须匹配,比如,因为酶是一种蛋白质,而BLASTp以蛋白质作为输入,因此 酶的集合可以作为BLASTp的输入。语义兼容不同于语法兼容。两种服务可以在语义上相同,但有着不同的特征,对应的数据格式不同。反过来,两种服务可有相同的句法标签和操作名,但语义上完全不同。Geodise也实现了一个基于知识,辅助本体的工作流构建助手KOWCA.关于设计搜索和优化的通用知识要 转化成基于规则的知识库。底层知识库系统检查工作流的一致性,并对在工作流创建中下一步应该作些什么提出建议。

数据集成

工作流是服务集成的一种形式。另一种形式是数据和元数据的集成。通过描述公共模型中的元数据,实验的所有部分都能够相互关联,因此能够在其上进行推理。

对于语义集成,本体扮演两种角色:(1)由于数据模型是一种简单的本体,在相同的类型的数据库管理系统中的所有数据库要么使用相同的本体,要么 提供到标准本体的映射。(2)许多智能信息集成系统用本体代表一种映射原数据库的标准模型。用户根据目标本体提交请求,然后他们自动透明的转换成依据源本体的要求,也就是数据仓库模式。

协作服务

协同会议涉及会议内容的实况交流,以及支持会议的基础设施操作信息。在最简单的情况下,信息可以是幻灯片或者远程投影仪控制。新形式的信息也可以互相交换,如发言者队列,分布式选举,会议最新消息或者对以有文档的注释。另外,也可以进行小组讨论。这些都丰富了知识内容。共享,存储这些信息能够极大的丰富科学活动的协作过程。

支持协作处理的一种方法是访问网格Access Grid. Access Grid主要集中于大规模分布式会议和培训的应用中。Access Grid 资源包括多媒体呈现和交互,特别是基于空间的可视化会议(组到组),以及网格中间件和虚拟环境的接口。Access Grid结点是专用设施,这些设施包括必要的高质量音频和视频技术,以及提供一种有效的用户体验。CoAKTing项目就是集中于集成智能会议空间,注释在线会议的媒体流。

语义Web技术和实时信息流两者的结合与网格计算高度相关。元数据流可以由人,设备或者服务产生,例如注释,设备配置以及实时处理的数据。会议空间不仅可以是会议室,它也可以是实验室甚至是小实验室。如在Comb-e-Chem项目中所研究的一样,会议空间配备有大量设备阵列和多媒体技术设施。当携 带一台设备到小空间时,需要发现并组合可用的服务,因为这与形成使用网格服务的虚拟组织紧密相关。

因为p2p网络目前作为一种广义的网格系统,现在技术也日益成熟,但是其中很多问题尚没有解决。目前关于semantic p2p的研究也是一项比较好的领域。

虽然现在有semantic web service研究搞得很火,但更多的关注于服务角度问题,网格架构从OGSA到WSRF也迎合这种趋势,但是网格同Web Service还是区别很大的,虽然都是面向服务的架构(SOA),但是网格更多关注资源、计算层面的问题,p2p也是如此。