搭建PC机群不等于高性能计算机研究

来源:百度文库 编辑:神马文学网 时间:2024/04/27 15:45:31
搭建PC机群不等于高性能计算机研究
《科技日报》 2002-08-26 20:22:15
当前,中国学术界、企业界搭建PC机群成为流行,对用户不失为是好事,但对高性能计算机的研究带来一些错误理解,不利于作为国家战略制高点的高性能计算机的长期发展。
1.Beowulf机群不是真正的超级计算机
十年前,会做386 PC是件了不起的事,现在IBM、HP、Compaq、Dell、联想等传统PC厂商早都在惊呼“后PC时代”的来临,要进行转型,导致这种变化的“商品化”和“标准化”趋势这把双刃剑,也深刻地影响着高性能计算机。
商品化趋势是指组成计算机系统的部件(如CPU、内存、网络、存储、电源、管理软件)越来越商品化,这些大量生产的,大量使用的部件的性能越来越接近高性能计算机系统的专用部件,且价格低廉,这就打破了以IBM为代表的封闭系统的模式。
标准化趋势是指计算机系统的部件有了许多工业标准,在开放系统架构下大家可以互相联合,组成高性能的系统。这两个趋势使得研制高性能系统的门槛降低,这也是中国出的系统能接近西方水平的基础来源。
Beowulf系统是这两种趋势的一种极端表现。Beowulf的定义是:将一堆商品化的硬件和下载的开放源码的软件组装成“个人超级计算机”。说是PersonalSupercompter是因为它多由少数用户使用,由用户象PC那样管理。有时也会加入一些开发的边缘性的软件,大多数系统是由系统使用者、或企业以PC机群的形式搭建。所以我们不必奇怪人们会在短时间内做出TFLOPS级系统,也不必诧异某个物理或化学专业的研究生也能在一个月内做出很好地满足他的需求的超级计算机。这些事件在五年前还是天方夜谈。在国际上的大学、学术机构里,已经形成潮流,有一些书、网站教你如何搭建BeowulfPC机群,一些企业也开始涉足期间,ADS(一家石油软件公司)、Dell就是例子。
PC机群形式的Beowulf系统可以说是高性能计算机的一种,在它面前,人们也很容易将高性能计算机等同于运算峰值,但“TFLOPS决不等于HPC”。
2.一个典型Beowulf机群
下面是教科书上的搭建Beowulf PC机群的典型例子,一些企业的产品也同样采用。
结点:IA架构的1U或2U机架式PC服务器
网络:Myricom Myrinet/Dolphin SCI/Ethernet
操作系统:Redhat Linux
编译器:GNU GCC/G77
数学库:Free Scalapack
通信软件:Free Myricom GM
并行开发环境:Free MPICH-GM,PVM-GM
作业管理:GNU Open PBS
系统管理:GNU SCMS
监控管理:GNU OSCAR
文件系统:NFS
可选的商品化软件:编译器PGI、并行开发环境Wulfkit Scali MPI,MPI性能分析工具Vampir、性能分析工具Vtune等
3.谁需要Beowulf机群
Beowulf PC机群对推广并行计算,拓宽并行计算应用领域,提升基础研究的科研平台,教育用户等方面有好处,Beowulft同时也压缩了纯计算密集应用的系统的增值空间,所以可以类似地说现在是“后Cluster时代”。
Beowulf的最大特点是廉价和flops密集,所以最需要Beowulf
PC机群是大学、科研机构中追求flops运算能力(也可称Linpack)的用户,他们的需求大多是纯计算密集型,他们的应用对Cache、内存、I/O、可管理性、稳定性没有要求,应用都是自己开发的,希望把每一分钱投到CPU上、投到每秒多少亿次上(Gflops)。许多科研人员自己就是搭建和管理Beowulf的高手。
这里解释一下Linpack,它是计算机运行线性方程组求解应用时的性能,它的来源是早期计算机的性能非常低,达到每秒一亿次运算都十分困难,运算能力是追求的目标,所以人们以此作为标志,计算机的Top500排名也沿用了Linpack。现在,Linpack的意义已不大,一是获得万亿次Linpack对大多数用户和企业都相当容易、便宜(成本RMB1000-1200万),二是它只能反映系统CPU的浮点指令密集型应用的运算能力,这样的应用在科学计算领域内也很少;另外,日本的向量机的Linpack效率可到80%(与峰值相比),SUN/SGI的共享存储系统可达70%,IBM机群可达60%,PC机群可达50%,但应用的效率多在5-10%之间,向量机能高一些。所以,片面追求Linpack会让高性能计算机研究和企业走向误区。
BeowulfPC机群对用户和高性能计算机领域是好事,对企业也是一种可取的市场行为,满足部分用户的需求。但我们应有正确的认识,不要得出高性能计算机很容易做、许多企业都会做的结论。以现在的技术,搭建10Tflops(5Tflops Linpack)的BeowulfPC机群都不是什么难事,美国政府最近在ASCI等计划中加大对高性能计算机的投入,说明高性能计算机仍然是高技术的制高点之一。
4.Beowulf机群的缺点
Beowulf PC机群在一体化软件、性能、稳定性、管理性等诸多方面先天不足,不可能替代真正的超级计算机,更不适合做数据密集型、企业级计算应用。这里以IBM SP为例,说明Beowulf 机群与超级计算机的差距。
Free软件:Beowulf系统大量采用的自由软件的升机、维护没有保障,用户有新要求时,也很难满足;所以企业界很少使用Beowulf 机群。大量看到的还是IBM Cluster1300这样的PC机群(注意,PC机群不等同于Beowulf系统)。
重叠:这些软件之间功能重叠、混乱,许多用户需要的功能却没有,如果我们比较IBM SP的软件系统与Beowulf 机群的软件,就会发现差距是多么巨大。
RAS特性:Beowulf 机群几乎不具有或很差RAS特性,即可靠性、可用性、可服务性,比较一下IBMSP的平均无故障时间、系统管理员工作时间就可得知,而RAS对服务器、高性能计算机是十分重要的。可以说Beowulf机群的性能价格比好,因为花同样的钱,Beowulf可以买到多得多的flops,而总拥有性能价格比很差,即用户在它的使用周期内能拿到的应用饱和性能很差。
知识产权:Beowulf 机群几乎不拥有知识产权,一些工程、外观类小软件、小专利无足轻重,如果企业以此作为产品竞争,唯一的出路就是拼价格,事实证明用户也不会认可这类系统的高技术、高增值,用户一种形象的说法可以是“按堆买PC”。
应用饱和性能:Beowulf 机群一般使用Intel架构的PC服务器作为结点,IA架构的最大特点是主频高,如P4可以到2.4GHz,而IBMPower4才1.3GHz,对于主要依赖主频的应用效果很好。但应用需要数据,而数据要从内存传输到Cache,从Cache在传输到寄存器,而数据的运算还依赖多个运算部件的协同(称为superscalar),依赖指令的处理过程(称为super-pineline),依赖指令字长,这些都是IA架构CPU的弱点。此外,内存的容量和性能、编译器的性能、库函数的性能等两者也有巨大差距。所以,按Linpack计算,Intel P4 Xeon2.0GHz的性能比IBM SP Power3 375MHz快2.5倍,但以FFT应用为例,两者的应用饱和性能相当。
应用面:Beowulf 机群的应用多是用户自己编写的科学计算应用,在应用的范围,尤其是商业应用(由应用软件厂商开发)上,要差很多。
5.应用对高性能计算机新的需求
机群是九十年代发展起来的高性能计算机体系结构,在未来有长远的生命力,基于Intel架构的PC机群也越来越得到用户的青睐,一方面是廉价,另一方面在Internet应用、Web应用、视频应用等新领域也有它的优势,作为系统的领先者IBM也大力推出LinuxPC机群系统Cluster1300,将S390、SP的技术下移,甚至华尔街的用户也接受了这种系统,但它们与Beowulf机群完全不同,除了用IA架构结点和Linux外,全是SP的超级计算机的技术。高性能计算机的应用变得更加多样,对高性能计算机提出了新的需求。传统的科学研究计算密集型应用依然存在,象石油勘探这样的计算类数据密集型应用,要求更快的数据通道和设备共享能力;石油、气象等应用提出定制和优化的专用系统的要求;Internet应用为代表的网络处理密集型应用,要求有强大的IP包处理能力;数据库、事务处理为代表的数据处理密集型应用,要求数据管理能力和可扩展数据库;ERP、CRM、电子商务等企业IT系统应用,要求系统和应用有应用布署、资源定位、自治管理能力;生物信息处理、信号处理等应用还要求高性能专用系统,如密集型刀片机群系统,等等。
以信息安全,国防安全,资源安全为代表的国家安全上的应用,还要求有新的技术,如“数据密集”共性技术,包括存储数据密集技术,I/O吞吐量密集技术,Internet数据接入密集技术,系统间数据互传密集技术,数据处理密集技术等等。
网格计算是高性能计算机和下一代Internet应用的发展方向,几乎所有的高性能计算机研究团队和企业都涉猎其中。网格强调资源共享与协同工作,强调新的应用服务模式,所以能有效支持网格的高性能计算机与传统的系统在体系结构、网络通信、系统软件等方面有很大区别。需要研究的新的问题很多,如面向网格的高性能计算机的体系结构,基于网格服务的机群操作系统,网格通信协议,网格文件访问协议,网格应用浏览器,网格应用服务器,网格应用服务协议,网格计算机模型,网格应用访问控制模型,网格监控模型等等。网格的需求对高性能计算机研究提出新的挑战。
6.中国面临的挑战
从五十年代的109机、八十年代银河一号、到九十年代的神威一号,中国经过多少代人,多少年的奋斗,在高性能计算机科研和市场上取得了接近西方和国际大企业的成就。以美国为首的西方再也不能限制出口中国的计算机的运算能力,国际大企业再也不能垄断市场,在中国赚取超额利润了,现在国际大企业数万亿次的主流超级计算机也以相当低廉的价格在中国出售。但西方对中国在技术和市场上的挤压依然十分厉害,IBM可以用94%的折扣在中国销售服务器,最新的IBMp690机群,可以卖到250万美元1万亿次,它们的eLiza、ONE、动态分区等新技术在继续发展。所以,在中国,Petaflops量级的ASIC系统、高端高性能计算机、PC机群的高性能计算机、BeowulfPC机群各有它们的应用面和发展方向,中国的科技主管部门、研究机构、企业、用户对高性能计算机的事件、形势和发展道路上应有正确的认识和决策,选择正确的目标和技术路线,不断推动中国高性能计算机事业的健康发展。