天河一号:助力中国造大火箭(组图)

来源:百度文库 编辑:神马文学网 时间:2024/04/30 14:06:28
技术背景:
国家超级计算天津中心的天河一号A超级电脑,制造成本超过8800万美元,使用了7,168个Nvidia Tesla M2050 GPU和14,336个Intel Xeon CPU,内存98TB,存储空间1PB,目前关于其峰值速度有几个不同数字——中国软件行业协会公布的TOP100排行榜称,Linpack值2507000 Gflops,峰值4701000 Gflops;中国媒体在报道时称1.206 petaflops,Linpack实测性能563.1 teraflops(1,000 teraflops=1petaflops)而据最新的2010年世界TOP500的数据为2930 MHz (11.72 GFlops)。
《MIT技术评论》的一篇文章,中国采用GPU加速的超级计算机只是峰值运算速度世界最快,在实际运算中它无法维持长时间的高速计算,而美国的超级电脑却能连续几天高负荷运算。
美国国家超级计算机应用中心主任Thom Dunning表示,在GPU上达到峰值速度十分困难。天河一号A采用了7,168颗NVIDIA Tesla M2050 GPU和14,336颗CPU,GPU的瓶颈在于搭配的显存速度不够快,因此GPU在大部分时间总是无所事事。GPU速度和显存速度之间存在明显的不匹配情况。即使中国的超级计算机软件工程师能发明新的科学计算软件,在较少访问内存的情况下实现接近峰值的速度,Linpack基准测试也无法清楚指示出它的实际应用性能。由于系统对GPU的依赖,意味着现有的绝大多数超级计算机应用程序都必须重写——这是一项巨大的挑战。
关于“麒麟操作系统”:
1.版本构成
麒麟操作系统完全版共包括实时版、安全版、服务器版三个版本,简化版是基于服务器版简化而成的。最近麒麟操作系统经过权威机构进行了源码级鉴定表明,麒麟安全操作系统主要分为三层:最底层是自己加的“既不像内核,也不像虚拟机”的东西(从麒麟开发手册上看主要为保证安全性、实时性等方面的任务,可自由替换加载),上面是BSD的内核,最上面是Linux兼容库。开放给公众使用的系统不包括最底层的东西。完全版的麒麟操作系统是内核态多线程的。
2.涉嫌造假
随着麒麟操作系统版本的发布,指其造假之声不绝于耳,在网友Dancefire的一篇技术分析文章中指出,通过对网上公开下载的麒麟操作系统简化版进行,麒麟操作系统简化版与的操作系统5.3版本相似度竟然在90%以上。该网友指出,按照此结果,麒麟操作系统简化版仅仅是对开源的进行了一定的修改,根本不是官方所说的“中国独立研发成功”和“拥有完全自主版权的内核”。
参见:
操作系统涉嫌造假 麒麟官方承认非独立研发
网友Dancefire的


「天河一号」工程办公室主任李楠向记者介绍最新的系统。经过技术升级之后,中国首台千万亿次超级计算机「天河一号」性能实现飞跃,运算速度达到当前国际领先水平。

资料图片:天河一号千万亿次超级计算机系统
本周,超级计算机排名榜「国际TOP500组织」(以下简称TOP500)公布了最新全球超级计算机500强排行榜。坐落于天津市滨海新区的中国「天河一号」二期系统(天河-1A)超级计算机以每秒2566万亿次的实测运算速度荣登榜首。这是来自欧美日之外国家的超级计算机首次登上榜首位置。
该消息引起了国际社会的广泛关注,西方主要媒体和计算机领域专家纷纷发表评论。美国总统奥巴马在近日一次记者会上以「天河一号」夺冠为例表达了美国加强科技领域投入的必要性。
这则消息为何会引起如此大的反响?「天河一号」的运算速度为何能在短短一年内从全球第五跃升为全球第一?「天河一号」对于国家经济生活的意义到底是什么?就这些问题,记者采访了来自国防科技大学的「天河一号」研究团队。
一年内从全球第五升至全球第一
走进正在运行的「天河一号」二期系统机房,140个1.45米宽、1.2米深、2米高的灰色机柜整齐列阵,气势恢宏。与记者去年10月底在长沙见到的一期系统相比,每个机柜都穿上了一层「玻璃外衣」。机房内的噪声小了很多,没有了空调发出的呼呼的风声。
外表上的变化来自于内部的革新。「『天河一号』从一期系统升级为二期系统,决不是简单扩张规模,而是实现了一系列重大技术提升和综合优化。」「天河一号」工程办主任李楠研究员告诉记者。
与普通计算机相同,速度是衡量一台超级计算机的核心参数,直接体现了超级计算机的性能。在刚刚公布的TOP500榜单上,「天河一号」的峰值速度比排名第二的美国橡树岭国家实验的「美洲虎」快了近1000万亿次。与一期系统相比,「天河一号」二期系统的峰值运算速度为4700万亿次,提高了2.89倍,持续速度提高了3.55倍。
这些都要归功于天河一号二期系统中采用的国际领先的异构融合体系结构。「我们将CPU(中央处理器)和GPU(图形处理器)捆绑使用,大大降低了「天河一号」的制作成本。」李楠表示,「由于GPU的成本只相当于CPU的1/6,如果全部使用CPU,『天河一号』的研制建造费用将由现在的6亿元增长到近20亿元。」
该体系结构也得到了世界超级计算机同行的认可。该领域权威专家、美国斯坦福大学计算机系主任比尔·戴利教授这样评价:「中国的天河计算机采取的CPU与GPU融合的结构,代表了未来高性能计算机的发展趋势。随着计算机规模的不断拓展,这种结构虽然不是唯一的解决方法,但当前看来是最好的。」

资料图片:2009年10月29日,国防科技大学成功研制出的峰值性能为每秒1206万亿次的「天河一号」超级计算机在湖南长沙亮相。我国成为继美国之后世界上第二个能够研制千万亿次超级计算机的国家。超级计算机又称高性能计算机、巨型计算机,是世界公认的高新技术制高点和21世纪最重要的科学领域之一。
能耗问题一直是困扰超级计算机专家们的难题。曾有西方学者预言:如果不能解决能耗问题,那么今后的超级计算机需要和核电站建在一起。
采用了异构融合体系结构的「天河一号」巧妙地解决了这个问题。「天河一号」每小时耗电4040度,满负荷运行的总能耗将为4.04兆瓦。如果「天河一号」全部采用CPU而不使用GPU,其满负荷运行的总能耗将增至12兆瓦,李楠说,「省下的8个兆瓦相当于5000个家庭一年的耗电量。」
为了节省电力、减小噪音,「天河一号」二期系统改造了原有的散热方式,在每个机柜外加装了玻璃柜,使原来在整个机房内交换的空气变为在机柜内部交换,将机柜与机房分离,大大降低了能耗。
「天河一号」的绿色环保也得到了国际认可。据国际权威部门测定,「天河一号」是仅次于美国的IBM蓝色基因系统的、世界上能效值最高的超级计算机。
在升级后的「天河一号」二期系统中,自主技术含量也大大增加。」
作为超级计算机的心脏,天河一号的中央处理器首次部分采用了国防科大自主研制的「飞腾-1000」芯片。虽然其只占全部CPU的一小部分,但其片上并行系统技术已达到国际领先水平。
此外,由于超级计算机的客户多为一些大型企业,运算数据及结果是企业的核心机密,因此安全性也是评价一台超级计算机的重要指标。
「天河一号」采用了国防科大自主研制的、当前国内安全等级最高的「麒麟操作系统」。客户可以在该操作系统中定制自己的私密工作空间,「天河一号」工程主任设计师卢宇彤研究员表示,「就像租用了瑞士银行的保险柜一样,钥匙和密匙只有一套,掌握在客户自己手中,其他客户包括系统管理员都没有权限查看。」
超级计算机关乎人类命运
随着人类社会的飞速发展,一系列关乎各国甚至全人类命运的棘手问题也随之而来。
如果人类能将现有的天气预报变为气候预报,印尼海啸和卡特里娜飓风都将可能被预知,极端灾害天气对人类造成的损失有可能降到最低。如果能够有效预测地震,可能就不会出现汶川大地震数万人死亡的惨剧。如果能找到全球变暖的根源,很多国家将避免被淹没的命运。如果能将一种新药的研发时间由几十年缩短为几年,将减轻无数患者的痛苦,是全人类的福祉。
超级计算机的发展为解决这些「看似不可能解决」的问题带来了希望的曙光。它可以通过用计算来替代传统的大量验证性实验,极大地节约预研时间并降低先期投入成本。可以说,其对国家发展具有战略性意义。因此,各国都非常关注超级计算机的发展,并在此领域展开了激烈争夺。
此次,「天河一号」成为世界上运算速度最快计算机的意义也超过了事件本身。
长期以来,西方世界对于TOP500榜单上的排名都十分敏感。2002年,美国曾在全球超级计算机排名榜失去第一的位置,日本拔得头筹。此后,美国加快了投资与研制脚步,并在2004年后始终保持第一。

「天河一号」研制人员在检测系统运行情况
而在刚刚发布的TOP500榜单上,美国占有275席、英国占有24席、法国占有26席、德国占有26席、日本占有26席、俄罗斯占有11席。而中国占有41席,一年前这个数字还是24席。
「这是一个有趣的变化」,英国爱丁堡大学并行计算中心主任阿瑟·特鲁教授近期在接受媒体采访时说,「许多年来美国都为拥有世界上运算速度最快的超级计算机而骄傲,但现在中国成为这一荣誉的拥有者。」而美国著名计算机设计师沃拉什则指出,在高技术领域,任何第一都有可能只是整个发展进程中的一瞬。
可见,各国之间的激烈竞争直接导致了超级计算机的飞速发展,这种发展态势在未来将会延续。
将为全世界提供超级计算服务
不断追求新的速度纪录并不是超级计算机发展的目的,其终极目标在于服务科研领域及社会生活实践,并最终转化为生产力。如果不能为客户提供高效服务,那么国家对于超级计算机的经济及人力投入,将变成一种巨大的浪费。基于这种认识,2009年5月,国家科技部批准成立国家超级计算天津中心。
该中心副主任刘小谦告诉记者,自去年12月落户滨海新区以来,「天河一号」进行了11个月的客户试用,完成了计算机与客户的初期磨合。
至今,「天河一号」已在石油勘探、高端装备研制、生物医药、动漫设计、新能源、新材料、工程设计与仿真分析、气象预报、遥感数据处理、金融风险分析等领域应用,先后为20多个客户单位提供了服务。
但是,超级计算机的应用在我国还处于起步阶段,在体制机制上还有诸多关系需要理顺。
李楠表示,「『天河一号』是『中国制造』迈向『中国设计』过程中一项重要基础设施。」天河一号」在未来将主要在5个平台上展开工作:面向高端制造业的产品设计、生物医药信息处理、文化创意设计、石油勘探数据处理以及大规模仿真工程。
李楠告诉记者,「天河一号」当前有两项紧要任务:第一是让天津的主要战略性新兴产业享受到超级计算服务,成为大火箭、大飞机、石油勘探等龙头产业的助推器。第二是努力把「天河一号」创造的关键技术在滨海新区形成衍生产品,从而对相关产业发挥更大的辐射和带动作用。
李楠还透露,自「天河一号」诞生以来,已经有多家国际客户表达了合作意向。但由于各种原因相关业务至今还未展开。「『天河一号』既是中国的,也是世界的。」李楠表示,在未来,「天河一号」将面向全球,为全世界提供高性能、高安全性的超级计算服务。
超级计算机是计算机中功能最强、运算速度最快、存储容量最大的一类计算机,其发展遵循千倍定律,即每隔10年性能就会提高1000倍。其生成和发展的根本动力是社会经济生活各领域的巨大需求。