集群撑不起全部天空

来源:百度文库 编辑:神马文学网 时间:2024/04/28 02:09:47
发布日期:2006年8月18日  作者: 《网络世界》 宋家雨(转载)《存储时代》
集群并不专指Beowulf集群,此外还有SMP以及采用专有通信网络的计算机集群,还有共享存储体系结构的并行计算系统和并行向量机。这些不同体系架构的并行计算系统,共同支撑起了高性能计算的天空。
中科院软件所并行计算实验室一直负责组织中国软件行业协会数学软件分会每年的中国高性能计算TOP100排行榜,记者日前采访了该实验室的张云泉副主任,据他们的统计,TOP100之中,有70台机器采用集群体系架构,而TOP10中,只有9台采用集群。
这里所说的集群,是指IA架构服务器机群,确切的说法是Beowulf集群,就是通过Myrinet、InfiniBand或者千兆以太网将大量IA架构服务器节点按照某种拓扑进行连接,从而构建起“平民”价位的高性能计算系统。Beowulf集群最大优点就是性价比。但在此需要指出,集群并不专指Beowulf集群,此外还有SMP(Symmetric Multi- Processing,对称多处理,是一种一致内存存取的计算机系统)集群,以及采用专有通信网络的计算机集群(如IBM的SP2,HP的Integrity)等。他们统称为集群,都属于分布式存储的并行计算机系统。
对于高性能计算而言,还有共享存储体系结构的并行计算系统(如NUMA和cc-NUMA等)和并行向量机(如银河、地球模拟器等)体系结构。这些不同体系架构的并行计算系统,共同支撑起了高性能计算的天空。
集群尚需努力
实现高性能计算有很多种方式,但国内更多的是对于Beowulf集群方式的津津乐道。记得在一次采访中,宝德科技董事、总经理李瑞杰就曾经说过,高性能计算TOP500世界排名没什么了不起,只要你有钱,网上有现成的方案,随时可以搭一个万亿次的系统。言下之意,集群并没有更多的技术难度。现实状况是,集群在国内的发展很快,联想、浪潮、曙光等国内厂商都推出了各自的高性能计算系统,宝德也通过与Bull公司合作,推出了自己的高性能计算系统。
从市场的状况看,高性能计算开始从科学计算领域向行业应用领域渗透,其发展速度很快,各地政府都把高性能计算中心作为衡量省市科技水平的重要基础设施,此外,高校各个学科之间,也把高性能计算能力作为基础科研能力,在船舶、汽车、飞行器、复合材料等多种研究领域都有大量的高性能计算需求。这也是吸引国内厂商涉足高性能计算市场的原因之一。
那么,用户对集群系统的要求如何呢?记者为此也采访了部分国内用户,据上海超级计算中心副主任袁俊介绍,集群系统最重要的是其稳定性、可靠性、可用性和兼容性,性能往往不是放在第一位的要求,尤其是对于大规模集群系统。袁俊表示,构建超大规模集群计算机系统应该严格遵循工程化的体系和标准,而不是走向两个极端:简单地“攒”一台机器或者作为一种科学研究,研究出一台机器。严格工程化对于该机日后投入业务运营的生产效能至关重要。
严格工程化的一个典型要求是对于大规模集群系统非常复杂的系统软件所进行的科学设计、严格验证其正确性、兼容性测试,以及其在试运行过程中,对所发现的问题进行修正。此外,重要系统软件进行升级,都需要按照标准测试流程进行严格测试,不可随意变动系统软件。对于一台大规模集群系统而言,其系统软件应该包括操作系统、编译器、并行库、互联设备驱动、作业管理调度、文件系统管理以及科学计算函数库等。很多超级计算系统可靠性和稳定性之所以良好,就在于遵循了这样的原则。
当然,这些要求因不同用户的不同用途而有所不同,非严格业务运行的机器,比如用于研究的试验集群,或小部门、或个人级集群,可能上述要求没有太大意义。但是对于诸如中科院网络中心超级计算中心和上海超级计算中心这样的单位而言,因其目标是对外提供服务,这些要求就变得非常重要了。
目前集群系统计算节点的可靠性和稳定性并非由集成商决定,而是由系统所选用的品牌型号来决定,例如主板,目前国内厂商大多没有两路或四路服务器主板的设计制造能力,基本上是OEM台湾厂商的品牌。品牌定了,其性能也就定了,从散热、电磁兼容到电源设计基本上比较成熟和稳定,节点的故障并不高。以上海超算中心为例,其曙光4000A系统运行了大约2年时间,基本没有因为计算节点故障造成系统宕机,更多的问题还是在系统软件与硬件的配合层面。
并行化软件的出路
张云泉博士表示,集群系统与其他体系结构的高性能计算系统相比,价格便宜,配置灵活,且有其适用的应用领域。总体来讲,集群系统比较适用于那些对于通信要求较低的计算任务。例如石油勘探领域的叠前偏移,节点之间几乎不需要通信,其性能表现近乎线性加速,此类应用,非常适合采用集群。
对于共享存储结构的高性能计算系统而言,例如NUMA、cc-NUMA,它采用了单一地址编码的大内存共享结构,并以OpenMP工业标准作为程序设计环境。对于编程人员而言,其软件容易编写;而集群采用MPI程序设计环境,其程序设计难度比OpenMP大。
OpenMP更加适合图形并行处理,以SGI的超级计算机为代表,适合应用在可视化应用领域。同样,并行向量超级计算机,例如银河、地球模拟器等,也有其专长的应用领域。
据张云泉博士介绍,从TOP500发展来看,目前国外出现了多种体系结构融合的发展趋势,不同体系结构之间并不存在严格的界限。据Bull公司高级顾问陈兴介绍,在他们的用户之中,既有从SMP转向集群的用户;也有用户放弃集群改用SMP的结构。不同的结构没有优劣之分,完全取决于用户的情况和投资。例如有些高校,经费非常有限,那么就只有采用集群的方式,而对于那些关键业务应用的用户而言,就需要采用具有更好稳定性的SMP架构的系统。
无论采用什么样结构的高性能计算系统,并行化软件都是一个关键性问题。对此,袁俊表示,目前国内能够编写并行化软件的人员非常的缺乏,国内高校少有开设相应的课程,即使有也主要面向计算机专业的学生,而不是未来可能成为超级计算用户的学生,如力学、物理、化学、生物等专业的学生。此外,懂得并行化软件编写的人不见得懂得高性能计算系统,不能够根据系统的特点,合理编写开发并行软件。其问题很多,上机计算故障也很多。
据了解,目前市场上的商用软件基本上都可以拿到并行版,但是价格相当昂贵,国内的用户很难承受。袁俊认为,现有的大学教育一定要加强科学和工程专业学生、特别是硕士研究生阶段的计算科学(computational science)方面的教育和培训,并把并行计算方法和编程作为必修课程。
据袁俊介绍,目前国内用户所采用的并行化软件来自各种渠道,如学术或专业团体所发布的并行软件,国内用户只需要支付少量的版权费就可以拿到源代码或者是执行版软件,有些甚至不需支付费用,这类软件还是非常丰富的。此外,就是购买商业化软件,这些软件往往也是根据CPU数量收取费用的,价格比较贵,目前国内还没有成熟的并行商业软件。袁俊表示,不同架构平台的软件可以进行移植,移植内容和工作量不等。从上海超算的应用情况看,目前的应用可以划分为几大类,一部分是中科院所属院所和高校的用户,大多是一些基础研究的科目;其次工业企业、设计院的用户,所从事项目与我国主要工业领域密切相关;也有一些政府部门的用户。
高性能计算的研究所、计算中心和用户普遍反映,目前国家需要增加对高性能计算的投入。目前中国科学院的数十位知名院士正在呼吁国家要重视高性能计算,在科学计算、高性能计算机系统和科学计算应用软件上要进行专门规划和投资。
起跑前的准备
高性能计算我们才刚刚开始。集群的出现虽然降低了高性能计算的门槛,但是无论是系统架构的研究上,还是在并行软件的开发上,国内都还存在着很大的差距。这种差距不仅体现在技术上,同样体现在认识上。以深圳蚬壳公司的超级刀片计算机为例,该公司的创始人陈世卿博士,曾经是Cray公司的首席设计师和资深副总裁,美国国家工程院的院士,美国《时代》杂志的封面人物,是业内共认的“超级巨星”。2002年陈世卿博士将其专利技术和知识产权转移到中国内地,在深圳推出了新的超级刀片计算机系统,但是国内用户对此缺乏关注和了解。类似的国家并行机工程中心推出了InfiniBand交换机,但是在目前国内的集群系统中,少有采用。
基于这样的现实状况,一方面需要蚬壳等新兴力量加大市场的投入,另外一方面,那些具有实力的老牌计算机也应该居安思危,不断加强研发,争取有所突破才行。在采访中,很多专家都希望能让大众了解到集群系统不是高性能计算机的全部,呼吁厂商千万不要误导大众。否则这对于国内高性能计算的市场发展非常不利,因为集群撑不起全部天空!
国内超级计算应用部分成果展示
船舶水动力特性的数值模拟:该项目主要研究受黏性和自由表面影响的水面舰船体、支架及螺旋桨相互干扰的CFD方法,其精度能满足多方案船体/螺旋桨匹配品质的定性比较。 某轿车空调系统流量分配计算:某车型在改进设计中需在乘员舱后部加装空调出风口,在超级计算快速、经济地评定了不同设计方案下,其车厢温度的舒适状况极佳。 飞行器优化设计:基于模糊遗传算法的飞行器气动性能综合优化设计方法研究。 飞行器空气动力学设计分析:本项目集合了上海超级计算中心和上海交通大学工程力学系在神威-I超级计算机上共同完成了具有自主知识产权高性能CFD程序的移植和改造。 汽车碰撞与冲压成型仿真系统并行化及工程应用:在汽车碰撞与冲压成型仿真理论与算法方面,采用了多项独创的仿真算法。 金属及修饰金属表面多相催化研究:利用超级计算机对银及其修饰金属催化剂表面的催化反应过程实现模拟。 红外光电子材料的第一性原理设计:主要研究红外光电子器件材料中的缺陷、杂质和沉积的量子特征体系对电子结构、声子结构和电导等物理性质的影响。 汽车安全事故虚拟再现:利用有限元分析方法对汽车碰撞安全性进行研究,实现安全事故虚拟再现。 汽车碰撞过程模拟:将基于大规模并行计算机和并行商业汽车碰撞软件的计算资源提供给用户,用于碰撞模拟。 复杂介质中地震波传播数值模拟研究:研究地震波在地下各种复杂介质中的传播规律,应用于地球内部结构研究、工业油气勘探和开发。 外环线隧道抗震测评:全三维、接触、非线性的特大型土木工程的三维抗震模拟。 中尺度数值天气预报:建立了四重嵌套网格结构的中尺度数值天气预报系统,最高水平分辨率达到3公里。 特大型工程地震安全性评价:针对特大型工程地震安全性评价的要求,设计并行算法,开发并行软件。 飞行器大迎角气动计算研究:经过大量的大规模计算分析,得到了更加接近实验的结果。