中国研制的超级计算机——世界网络

来源:百度文库 编辑:神马文学网 时间:2024/04/28 04:00:50
中国研制的超级计算机
2009年10月29日,中国首台千万亿次超级计算机“天河一号”诞生。这台计算机每秒1206万亿次的峰值速度和每秒563.1万亿次的LINPACK实测性能,使中国成为继美国之后世界上第二个能够研制千万亿次超级计算机的国家。本文将简略介绍中国超级计算机的概况,包括天河一号及2010年即将面世的曙光6000的简介。
1、什么是超级计算机
简单来说,超级计算机就是计算机中功能最强、运算速度最快、存储容量最大的一类计算机,通常是指由数千甚至更多的处理器(机)组成的、能运算普通PC机和服务器不能完成的大型复杂课题的计算机。多用于国家高科技领域和尖端技术研究,是国家科技发展水平和综合国力的重要标志。在高运算速度前提下,人们可以通过数值模拟来预测和解释以前无法实验的自然现象,多应用在工业、科研和学术等领域。
2009年世界排名第一的超级计算机走鹃(Roadrunner)
在过去的11年,计算机系统的性能从Gigaflops(1986年推出的Cray 2)、到Teraflops(1997年推出的Intel ASCI Red)、再到Petaflops(2008年推出的IBM Roadrunner),性能增长了1000倍!虽然性能提升速度迅猛,但是高性能运算领域将越来越快被刷新纪录。
2、国内超级计算机发展历程
1983年我国第一台被命名为“银河”的亿次巨型电子计算机在国防科技大学诞生后,中国成了继美、日等国之后,能够独立设计和制造巨型计算机的国家。
超级计算机是一个国家科研实力的体现,它对国家安全,经济和社会发展具有举足轻重的意义。作为国防方面和高科技发展的要素,超级计算机早已成为世界各国的竞争利器。时至今日,我国拥有超级计算机22台(中国内地19台,香港1台,台湾2台),居世界第5位,就拥有量和运算速度在世界上已处于领先地位。 中国超级计算机发展年谱
型号 面世时间 每秒运算速度(峰值)
银河—Ⅰ 1983年 1亿次
曙光一号 1992年 6.4亿次
银河—Ⅱ 1994年 10亿次
银河—Ⅲ 1997年 130亿次
神威—Ⅰ 1999年 3840亿次
深腾1800 2002年 1万亿次
曙光4000A 2004年 11万亿次
神威3000A 2007年 18万亿次
深腾7000 2008年 106.5万亿次
曙光5000A 2008年 230万亿次
天河一号 2009年 1206万亿次
曙光6000 2010年 千万亿次(预计)
但就超级计算机的应用领域来说我们和发达国家美国、德国等国家还有较大差距。如何利用超级计算机来为我们的工业、科研和学术等领域服务已经成为我们今后研究发展的一个重要方向。
3、天河一号
天河一号
2009年10月29日,“天河一号”超级计算机在湖南长沙亮相,我国成为继美国之后世界上第二个能够研制千万亿次超级计算机的国家。它是中国首台千万亿次超级计算机系统,采用多数组可配置协同并行体系结构,硬件系统由计算数组、加速数组、服务数组以及互连通信子系统、I/O存储子系统和监控诊断子系统等六部分组成,软件系统由操作系统、编译系统、资源管理系统和并行程序开发环境等部分组成。该系统拥有6144颗Intel CPU和5120颗AMD GPU,内存总容量为98TB,点点通信带宽为40Gbps,共享磁盘总容量达到1PB。其系统峰值性能为每秒1206万亿次双精度浮点运算,Linpack测试值达到每秒563.1万亿次。它的运算速度是中国此前最快的超级计算机的四倍多。“天河一号”将广泛应用于航天、勘探、气象、金融等众多领域,为国内外提供超级计算服务。
天河一号系统配置
对于高性能计算机而言,绝不是各单元计算效能的简单迭加。为了实现整体效能的提高,“天河一号”主要采用以下七项关键技术:
高速率可扩展互连通信技术:互连通信网络基于高速率Infiniband ODR技术,采用可扩展的互连网络结构和单线速率10Gbps、链路带宽40Gbps高带宽互连,突破了高速率与高密度互连网络的关键技术,提高了系统效率,简化系统维护。统一实现了计算处理、I/O存储、系统管理等不同类型任务的同步与通信,系统管理与维护简洁,取得了40Gbps通信带宽、1.2us延迟的高效通信性能。
基于隔离的安全控制技术:针对超级计算中心的高信息安全技术,系统创新地采用了基于隔离的安全控制技术,有效提高了用户运行信息和数据的安全性。
多层次的大规模系统容错技术:采用多层容错技术,通过操作系统级的检查点功能,资源管理级的任务和作业的自动容错技术,以及并行应用级的容错并行算法和断点续算功能,有效提高了系统的可靠性。缓解了大规模系统固有可靠性低对用户应用运行的影响,使用户作业的运行成功率得到很大提高,提升了系统可用性与吞吐率。
多数组可配置协同并行体系结构:整合计算数组、加速数组和服务数组,结合资源管理的异构协同技术和编译的混合编程支撑技术,实现资源的动态配置和异构计算能力的协同工作,满足各类应用对计算资源的不同需求。天河一号具有数据级并行处理能力和指令级并行处理能力等在内的多种运算能力,可针对不同应用的计算需求,通过计算能力的动态组合,实现高效能计算。
系统能耗综合控制技术:操作系统、资源管理系统和编译系统相结合,通过系统动态重构技术,结点ACPI能耗状态动态管理技术和动态调频技术,根据用户资源需求和系统工作状态,动态调整系统资源配置,调节结点功耗状态和CPU、GPU、内存的工作频率,实现最佳的系统能效,并有效提高系统的可靠性。通过一体化的能耗控制技术,使系统的空闲结点能耗降低比例大于80%,并行计算系统综合能耗降低比例大于20%;能耗管理系统对应用运行时间影响低于5%。
高效异构协同计算技术:针对多数组可配置协同并行体系结构中的异构混合计算资源,采用混合语言编程技术,突破了传统混合计算模式系统效率低的问题,为提高系统的整体性能起到了关键作用。高效发挥CPU和GPU的协同计算能力,把GPU的计算效率从优化前的20%提高到70%。
虚拟化的网络计算支撑技术:针对网络化计算需求,通过高性能虚拟域技术,支持根据用户需求动态构造虚拟化的用户运行环境,并结合远程虚拟终端技术,屏蔽系统细节,高效支撑网络化使用和云计算(cloud computing)。虚拟化网络计算支撑技术有效屏蔽了系统细节,简化了用户使用,提高了应用开发效率,提供了有别与传统高性能计算机的使用方式,可以进一步扩展并满足未来云计算的需求。
4、曙光6000
曙光5000A
曙光公司作为民族企业一直朝完全自主知识产权方向努力,因此曙光6000的研发成功代表着国产高性能计算机研发跨出重要一步。据了解,曙光6000浮点计算的峰值将达到千万亿次,约采用8000多颗八核龙芯3号处理器。曙光6000预计在2010年研制完成,计划提供给国家华南超级计算中心使用。届时国产高性能计算机将实现两大突破:一)主要突破是应用国产CPU“龙芯”,由于“曙光6000”将采用异构平台,所以采用龙芯处理器在技术上已无障碍,相信龙芯的应用将具有划时代的意义;二)是高性能计算机现有的机群体系结构将在千万亿次时代实现突破。曙光6000将采用异构计算的结构,支持不同的处理器。但是最大的不同在于天河一号用的是“Intel CPU+AMD GPU”,而曙光6000将采用完全自主设计和拥有全部知识产权的国产龙芯处理器,“普通CPU+国产龙芯处理器”的组合。国产处理器成为曙光6000最备受关注的原因之一。
龙芯3号版图
关于制程工艺为65纳米的龙芯3号处理器性能,龙芯总设计师胡伟武做了一个比较,曙光5000A采用了8000颗AMD四核皓龙处理器,其浮点计算的峰值为200多万次,曙光6000采用龙芯3号处理器后的浮点计算峰值是千万亿次,性能提高了四倍,但处理器的数量不变,依然为8000颗,因此龙芯三号处理器的性能高于目前曙光5000A所采用国外芯片的性能。
龙芯3号互联拓扑结构
据了解,龙芯采用的MIPS架构的指令集与x86指令集不同,而当前用户应用的应用软件却大多是基于x86指令集的,为了解决用不兼容的指令集来兼容用户的应用软件的问题,曙光6000将采用x86处理器来运行操作系统,以实现软件兼容,用户的编译和应用提交给x86处理器,再由x86处理器在后台将任务分发给龙芯处理器,用户的使用习惯无须发生任何改变。按照曙光专家的介绍,曙光6000采用异构(不同架构的处理器)的原因,除了考虑到应用软件多运行在X86架构外,还与能耗问题有关。曙光6000的能耗问题将非常突出,它计划大规模采用的八核龙芯,除了拥有中国自主知识产权外,其功耗只有30瓦左右,相比其它处理器,功耗大大降低,可以为用户节省大量电费。曙光6000的技术突破将提升国产高性能计算机整体研发水平。
结语:
处于信息技术前沿的超级计算机一直是一个国家的重要战略资源,对国家安全、经济和社会发展具有举足轻重的意义。没有强大计算能力的超级计算机,宇宙飞船就不能上天,国家安全就做不到万无一失,基因研究就无法继续,复杂的气象、勘探工作就难以精确。千万亿次的超级计算机诞生,是我国科技实力不断发展的成果,奠定我国成为科技强国的坚实基础!