2003年科技年报-计算机与计算数学

来源:百度文库 编辑:神马文学网 时间:2024/04/27 18:49:23
6-28  HDF5软件技术分析
夏  芳  张  侠  宋  磊
随着高性能计算能力的增强,科学数值模拟程序产生的数据规模越来越大。发展相对比较缓慢的I/O和科学计算速度的提高相比,越来越难以满足高性能I/O的需求。为了有效利用现有硬件资源、挖掘其潜在能力、获得可扩展I/O能力,美国伊利诺伊大学国家超级计算应用中心(NCSA)与美国三大核武器国家实验室(LLNL、LANL、SNL)合作设计并开发出新一代高性能数据输入输出软件——HDF5。
首先,HDF5作为存储科学数据的软件库及文件格式,提出了一个非常简单而通用的数据模型。用户只需要通过两个基本对象datasets(多维数组结构)和 groups(组结构),就可以创建和存储任意类型的科学数据结构,比如图像、矢量数组、结构网格、非结构网格,甚至可以根据需要将这些对象混合存储在HDF5文件中。HDF5数据对象之间可以建立复杂的数据关系和依赖关系,支持大数据集对象,取消了文件系统对单个文件规模的局限。而且HDF5包含许多通用数据类型并允许用户自定义数据类型,完全是一种具有自我描述能力的数据格式。其次,HDF5作为面向科学计算的I/O软件,提供高效灵活的存储机制,支持磁盘、内存、网络、虚拟设备层存储,在MPI-IO标准基础上提供更加简单灵活的并行I/O功能,无论以聚合I/O还是独立I/O方式输出的文件在不同平台上不需要转换就可以使用。HDF5还利用数据无损压缩、扩展、分块、外部存储等策略来提高数据的访问、管理及存储效率,实现原始数据在HDF5文件之间和在应用程序之间的共享。另外在它的数据子集选取功能基础上,容易扩展实现各种数据管理的功能。
虽然HDF5是最新的专业科学数据管理函数库,但它已被60多个国家的各种科学研究团体所采用,很多主要的研究项目都是基于它来开展,比如美国3大核武器实验室的武器数值模拟程序、美国国家航空和航天局的地球观测系统(EOS),美国国防部跨领域协同计算环境(ICE)以及Argonne实验室的Globus等研究计划都应用HDF5来存储和管理大规模科学数据。
因此我们也选择HDF5作为解决科学计算数据管理问题的起点,利用HDF5强大功能,设计并开发可移植的数据格式和函数库,开展基于通用数据模型的实现和应用,解决目前数值模拟计算数据的存储、管理、交换、归档需求中出现的各种挑战,为开展的数据管理工作奠定数据共享与交换的基础,构建以数据为中心的协同计算应用框架。目前,我们应用HDF5软件技术对LARED-P、LARED-S、蛋白质序列比对等大规模并行程序的I/O模块进行改造,提出层次数据模型、实现了并行数据场以统一数据格式的压缩输出,为并行可视化和并行计算提供高效的数据管理及存储方法。
返回