构筑科学数据网格软件平台

来源:百度文库 编辑:神马文学网 时间:2024/04/27 13:27:16
■ 南凯 李华飚
科学数据网格软件平台建立了科学数据库社团内的统一安全体系,实现对大量分布式异构数据资源的有效共享。科学数据网格(Scientific Data Grid,SDG)在科学数据库数据资源的基础上,连接了中国科学院分布在全国的四十多个研究所,通过先进的数据网格技术,实现对科学数据库中大量分布式异构数据资源的有效共享。中国科学院科学数据库(Scientific Database,SDB)始建于1983年,其数据资源来自科学院分布在全国各地的四十多个研究所,内容覆盖地球科学、生物学、物理、化学化工、天文空间、能源环境、材料学等多个学科。截至2005年10月,科学数据库已包含503个专业子库,其中423个在线专业子库,总数据量达到16.6TB,其中9.48TB为在线科学数据,是国内信息量最大、学科专业最广、服务层次最高、综合性最强的科技信息服务系统。SDG软件体系结构科学数据网格软件平台的主要目标就是建立科学数据库社团内的统一安全体系,实现科学数据库分布式、异构资源的统一访问接口。系统平台软件的主要技术路线是数据网格技术。SDG软件由SDG中间件和SDG应用软件与工具组成(如图1)。SDG软件平台包含信息服务、数据访问服务、存储服务和安全体系四个模块,并在此基础上,提供了一些管理和应用工具。2005年8月SDG2.1软件包发布,下载网址为 http://www.sdg.ac.cn/product/pro-3.htm 。2005年11月SDG2.1光盘正式发布。SDG中间件1. 数据访问服务科学数据网格数据访问服务(Data Access Service,DAS)由准确、高效的数据访问服务端、灵活便捷的数据库映射工具MappingBuilder以及可被自动生成的Web检索前端构成。对外提供统一的数据访问接口,屏蔽分布式环境中数据资源的多样性和异构性,消除数据孤岛和信息孤岛,实现科学数据库数据资源的集成与共享,并已在科学数据库建库单位中进行了广泛的推广部署。DAS软件结构如图2所示。DAS 1.0版本实现的主要功能包括: 统一的访问接口、高度透明的访问、丰富的元数据、规范的数据抽象、安全可控的数据访问以及方便快捷的Web发布; 它具有灵活的配置与可延展性,性能卓越、可靠性高。2. 信息服务信息服务(Information Metadata Service, IMS)在科学数据库元数据建设的基础上,为科学数据网格以及先进应用系统提供信息服务。2004年以来,中科院网络信息中心发布了IMS V1.0和IMS V2.0两个版本。IMS V1.0在MDS2的基础上增加了数据存储功能。IMS V2.0则在OpenLDAP的基础上开发完成。IMS是后台存储元数据的系统,现阶段主要采用LDAP。IMS提供资源信息的注册、资源信息的存储与维护、资源信息发现以及数据资源和服务的详细信息。IMS从功能上可以划分为两大模块: 信息分发(Information Dissemination)和信息查询(Information Search)。信息分发提供资源信息的生成、注册和维护机制; 信息查询提供资源信息查找机制。IMS软件结构如图3所示。
图3 IMS软件结构图3. 安全体系科学数据网格CA(Certificate Authority)是科学数据中心开展数据服务活动的重要基础设施,提供了科学数据网格平台的数字证书服务。用户通过使用科学数据网格CA签发的数字证书能够安全地访问科学数据网格资源,同时建库单位也能利用数字证书安全地对外提供数据服务。科学数据网格CA系统对外提供如下功能:● 制定和审批证书策略和认证实施规范总体政策;● 数字证书申请(IE浏览器、Netscape浏览器、服务器证书申请);● 实现证书的签发、撤销、冻结、解冻、查询等证书管理功能;● 基本的用户信息管理;● 维护证书列表信息等。4.存储服务科学数据库系统平台的存储系统包括20TB的磁盘阵列和50TB的磁带库,配备有超级数据服务器及其他软硬件资源。为了使各建库单位更快更有效地使用数据中心的存储资源,数据中心推出了存储服务工具集SSTools。通过使用存储服务工具集,建库单位可以在安全认证的前提下,进行客户端和服务器之间的可靠数据传输。另外,SSTools还支持磁盘配额管理,用户可以直接通过该工具实现对数据中心海量存储空间的磁盘配额申请和磁盘配额查询。存储服务客户端工具SSTools1.0是使用科学数据库中心各类资源的重要工具,其主界面提供如下功能:● 认证功能;● FTP数据传输和认证的数据传输功能;● 磁盘配额申请和查询功能。5. 科学数据网格门户科学数据网格门户是基于开源项目Jetspeed、采用Portlet技术开发的门户系统。构建了一个问题求解环境,允许科学家通过Web浏览器和其他的桌面工具编程、访问和执行分布的网格应用。科学数据网格门户实现了用户的单点访问,提供给用户一种灵活的个性化定制的管理方式。用户登录后可以根据自己的兴趣和需要,增加、删除页面、改变页面在导航中的位置以及对现有的页面中的内容进行调整等。SDG工具集1 数据量统计工具数据量统计和分析服务工具(Statistics and Analysis Tool, SAT)为科学数据库建库单位和数据中心提供数据量统计和分析服务功能。SAT分别安装部署在建库单位和数据中心。建库单位的SAT服务实现数据描述服务接口,可获取数据资源的数据量信息。数据中心的SAT服务,通过调用建库单位的SAT服务得到建库单位的数据资源的数据量,然后对这些数据进行更多的统计和分析处理。SAT软件结构如图4所示。
图4 SAT软件结构图2 本地访问控制工具本地访问控制策略系统(Local Control Packet,LCP)为科学数据网格资源提供开发和部署的工具包。此开发包完成基于JDBC访问数据库的安全控制,能够支持多种数据库的访问,提供一个SQL语言中Select子集的本地访问控制。通过JSP页面提供对角色、库、数据表、字段和过滤条件的维护。此外,LCP方便用户维护访问控制策略,能实现多种数据库和文件资源的本地授权。3 图像处理工具图像处理工具包(简称IPT),为用户提供了强大的图像处理功能。同时IPT服务以Java编程作为接口,目前提供9个API函数,支持包括bmp、gif、jpeg、png等80多种图像格式。IPT开发了单机版和网格服务版,主要提供如下功能:● 图像尺寸调整、色彩量化、图像格式转换;● 图像处理(标注、缩放、裁剪、量化、柔化、锐化、高斯滤波、中值滤波);● 批量处理一组图像文件。4 通用元数据管理工具通用数据管理工具是基于B/S架构、采用JAVA语言开发的应用软件系统。它可以依据按照元数据标准书写的XML Schema,动态地生成可以定制的个性化管理页面和后台存储结构,实现对元数据的增加、删除、修改、查询等数据管理的基本操作。提供上报和下载以及模板管理等新功能,同时保留了与后继版本互通信息的可能。SDG软件的发布与推广科学数据网格软件采用面向服务的架构(SOA),通过元数据的规范化与基于元数据的资源发现,使用户能够以两阶段查询方式实现对分布式异构数据资源的统一访问。截至2005年8月,中科院网络信息中心先后发布了科学数据网格软件包SDG1.0、SDG2.0、SDG2.1三个版本,并在中国科学院科学数据库45个建库单位中推广部署,软件使用情况良好。2005年11月24日发布了科学数据网格软件(SDG2.1)光盘。SDG软件已经完成了从单一的应用到完整的数据网格平台的转变,在此基础上提供了一系列基于统一系统平台的、完全基于开放标准的应用服务和工具,实现了科学数据的真正共享和科学家之间的协同工作。今后的研发重点是不断完善软件,与用户密切联系,提高软件的实用性; 同时整合多方面的成果,提高软件的集成性和完整性。作者简介南凯博士,副研究员,硕士生导师,现任中国科学院计算机网络信息中心网络技术与应用研究室副主任。主要从事计算机网络、分布式系统、数据库应用等方面的研究。目前担任中科院知识创新工程信息化建设专项子项目“科学数据库系统平台建设”(2001~2005)负责人。自上世纪末以来,世界科研大国相继在e-Science(科研信息化)方面投入大量科研经费,支持了一批具有重要意义的项目,对世界各国的科学研究活动产生了重大影响。目前,美国、英国、中国和欧洲各国陆续建立了具有一定规模的e-Science基础设置环境。一方面,e-Science是基于高速网络、超级计算机、海量存储技术、网格技术和大规模科研信息合作的数字科研环境; 另一方面,信息通信技术的发展使人、工具和信息连接在一起,消除了地域、时间、团队和学科领域的限制。这极大改变和拓展了传统研究方法,促进了广泛的合作与协同研究。第20届CODATA国际学术大会设有e-Science重点研讨会,邀请来自中国、澳大利亚、荷兰、德国的科学家,通过丰富多彩的主题报告介绍世界各国在e-Science方面的最新进展、基于e-Science的重大科研活动和应用、以及相关新技术和前言问题。(计算机世界报 2006年09月11日 第35期 B18、B19)