决战上海滩 shanghai处理器解析

来源:百度文库 编辑:神马文学网 时间:2024/04/28 14:31:13
作者:小熊在线  西安  2008年12月05日  【业界动态】
[文章 简介]
基于全新的shanghai核心的Opteron处理器,究竟能否与Intel最新的Xeon处理器相抗衡呢,在这篇评测中,你将会了解到许多关于Shanghai处理器的新特性~~ (13210 字)
第1页:AMD:从巴塞罗那到上海第2页:AMD处理器的五个时代第3页:这颗皓龙小名叫shanghai第4页:Smart Fetch智能预取节电技术第5页:价格和供货情况第6页:四核心Opteron皓龙的前世今生第7页:是否足以和Nehalem相抗衡?第8页:AMD:走在虚拟化技术前沿第9页:强大的六核心Fiorano平台第10页:未来的Opteron皓龙处理器平台第11页:测试平台介绍第12页:内存子系统测试(上)第13页:内存子系统测试(下)第14页:SPECjbb 2005测试第15页:处理器渲染性能测试:Cinebench第16页:XML处理测试第17页:科学运算:蛋白质分析和流体动力学模拟第18页:Folding@Home分布式计算第19页:3D建模与渲染第20页:视频编码测试:x264 HD video第21页:处理器多媒体性能测试:Sandra multimedia第22页:写在最后
第1页:AMD:从巴塞罗那到上海
近几年AMD在四核心处理器的道路上有着非常坎坷的经历。最初的“Barcelona”巴塞罗那处理器由于受到时钟频率和性能的制约无法满足业界对它的预期,在加上一些致命的Bug漏洞,迫使AMD几乎停止了这款处理器的出货。当我们苦苦等待的修订版重新上市的时候,AMD又要面对Intel巨大的竞争态势。Intel基于45nm制造工艺技术的“Harpertown”核心Xeon至强处理器成为了AMD可怕的敌人,新款至强处理器大大改善了性能功耗之比,在服务器市场中,疯狂的蚕食着本属于Opteron的市场份额。小熊在线www.beareyes.com.cn
不过AMD也并非吴下阿蒙,它也在努力寻找着扭转命运的契机。设计一款全新的四核心Opteron处理器的计划被提出,它就是传说中研发代号为“shanghai”的新一代核心架构。同时,它也会采用全新的45nm制造工艺技术。这有助于大幅提高处理器的时钟速度和性能功耗之比。shanghai也有许多新的改进,相较巴塞罗那,它算是第二代全新设计的处理器。在高效的巴塞罗那核心的基础之上,设计师可以更充分的优化性能,充分挖掘这一代处理器的潜能。全新的Opteron处理器将会有更高的时钟频率,每个时钟周期内可以处理更多指令,并且它的功耗也会更低。小熊在线www.beareyes.com.cn
基于全新的shanghai核心的Opteron处理器,究竟能否与Intel最新的Xeon处理器相抗衡呢,在这篇评测中,你将会了解到许多关于Shanghai处理器的新特性。小熊在线www.beareyes.com.cn

shanghai服务器堆栈
《决战上海滩 shanghai处理器解析》分页索引
第1页:AMD:从巴塞罗那到上海
第2页:AMD处理器的五个时代
第3页:这颗皓龙小名叫shanghai
第4页:Smart Fetch智能预取节电技术
第5页:价格和供货情况
第6页:四核心Opteron皓龙的前世今生
第7页:是否足以和Nehalem相抗衡?
第8页:AMD:走在虚拟化技术前沿
第9页:强大的六核心Fiorano平台
第10页:未来的Opteron皓龙处理器平台
第11页:测试平台介绍
第12页:内存子系统测试(上)
第13页:内存子系统测试(下)
第14页:SPECjbb 2005测试
第15页:处理器渲染性能测试:Cinebench
第16页:XML处理测试
第17页:科学运算:蛋白质分析和流体动力学模拟
第18页:Folding@Home分布式计算
第19页:3D建模与渲染
第20页:视频编码测试:x264 HD video
第21页:处理器多媒体性能测试:Sandra multimedia
第22页:写在最后
全文
第2页:AMD处理器的五个时代
AMD的处理器发展是经历了漫长的演化阶段,目前最新的shanghai处理器已经算是K10.5代的产品。要想真正了解shanghai在AMD处理器大家族的地位,我们先来简要回顾一下AMD处理器的五个发展阶段。小熊在线www.beareyes.com.cn
第一代
80486至K6时代。初期的产品策略主要是以较低廉的产品价格为诉求,虽然最高性能不如同期的Intel产品,但却拥有较佳的价格性能比。小熊在线www.beareyes.com.cn
第二代
K7时代。K7的性能尤其是在浮点运算能力方面,受到不少DIY用户的欢迎。由于相对于Intel,AMD对于CPU的倍频锁定限制较松,因此广受许多超频用户的欢迎。但也由于缺乏过热保护,超频过度的K7系列CPU有较高的烧毁风险,导致部分消费者对其稳定度的信心偏低。小熊在线www.beareyes.com.cn
第三代
K8时代。由于率先于Intel之前优先投入64位CPU的市场,使得AMD在64位CPU的领域有比较早发展的优势,此时代的AMD产品仍采取了一贯的低主频高性能策略,解决因为电气性能有限导致CPU不稳定和发热量、耗电功率过大的问题,并导入使用IBM开发的SOI技术,使得K8相较同期Intel公司的P4处理器相同性能上有较低的功耗。小熊在线www.beareyes.com.cn
第四代
K10时代,由于原生四核心的设计复杂,加上电路设计Bug。导致AMD初期B2核心步进的Opteron(Barcelon)和Phenom(Agena)效能不彰,频率提升困难。为此AMD特别发布解决B2核心步进BUG的Patch,名称为“TLB Patch”。AMD接下来还将发布解决TLB Bug问题的B3核心步进,可使AMD K10处理器的整体效能再提升15%。小熊在线www.beareyes.com.cn
第五代
K10.5时代,AMD在2007年5月已完成45nm的SRAM晶圆生产,10月宣布45nm的处理器开始试产。AMD的45nm处理器在德国德累斯顿300mm晶圆厂Fab 36生产,生产工艺由AMD与IBM合作开发。譬如沉浸平版印刷术、AMD第四代SOI、Ultra-Low-K等,与Intel的有所不同。AMD认为,即使没有High-K、金属栅极技术也能顺利步入45nm时代,并不是必要的,不过到了32nm就是必需的了。此番展示的处理器包括服务器版本“Shanghai”和桌面版本“Deneb”,均为高端四核心型号。AMD将在今年10月正式发布45nm处理器,首先推出的是“Shanghai”,接下来将推出6核心 Opteron ,代号“Istanbul”,仍使用Socket F脚位,明年上半年推出AMD第三代Opteron平台,改用Socket G34脚位,推出代号“San Paulo”的6核心 Opteron,将支持DDR3内存与HyperTransport3.0协定,还会推出12核心 Opteron,代号为“Magny-Cours”。小熊在线www.beareyes.com.cn

第3页:这颗皓龙小名叫shanghai
虽然AMD的巴塞罗那处理器出现了许多这样和那样的问题,但是作为AMD专门为高端服务器市场所设计的处理器来说,巴塞罗那仍然是史上第一颗原生四核心x86处理器,四个处理器核心被集成在一个硅片上。每个处理核心都有自己独立的512KB容量的L2高速缓存,四个处理核心还可以共享一个容量更大的2MB的L3高速缓存。巴塞罗那内部的四个处理核心也可以通过共享L3高速缓存的方式来进行快速通信。为了降低处理器的整体功耗,在功耗管理方面,巴塞罗那每个处理核心的速度都可以根据其任务量独立调节。另外在处理器芯片中,还有2个供电电源层。一个专门为处理核心供电,另一个专门为处理器中其他组件和电路供电。这些其他电路部分包括:L3高速缓存,整合的内存控制器,HyperTransport总线连接等等。处理器中各个部分的电压都可以独立进行调节,这样可以大幅加快从休眠模式激活的时间。它基于Socket F架构,本身就有着非常强悍的架构优势,基于高速的拓扑架构设计,点对点的直连架构设计和集成在处理器内部的高效的内存控制器。在巴塞罗那核心中所有这些先进的设计,都使得他成为了最理想化的服务器和工作站处理器。小熊在线www.beareyes.com.cn

双路shanghai系统
很少有人会认为这种体系架构设计是鸡肋,特别是现在,就连Intel最新发布的Nehalem处理器平台,也几乎“照搬”了全部的特色。桌面版本的Core i7处理器与巴塞罗那在架构设计上,有着太多的相似。待到明年上半年,Intel将会把Nehalem平台推向服务器市场。小熊在线www.beareyes.com.cn
shanghai继承了Barcelona的许多优势,并且在shanghai这一代核心中可以将这些优势发扬光大。为此,AMD已经为shanghai装配了更大的6MB容量的L3高速缓存,这样shanghai每个时钟周期就可以执行更多任务,同时增加它的功耗性能之比。小熊在线www.beareyes.com.cn
就如同它命名的城市一样,上海,给人感觉是一个繁华而拥挤的大都市。shanghai内部集成了7.58亿个晶体管,而以前的巴塞罗那仅仅集成了4.63亿个。由于采用了先进的45nm制造工艺技术,shanghai的核心面积反而要比巴塞罗那要小。shanghai的核心面积为258平方毫米,而巴塞罗那有283平方毫米。小熊在线www.beareyes.com.cn
AMD的45nm制造工艺技术结合了应变硅和绝缘硅片技术,它可以达到更高速的开关速度和低功耗水平。与前两代半导体制造工艺技术相似。不过这次AMD使用更加先进的浸没式光刻技术达到更小的几何结构。小熊在线www.beareyes.com.cn

如图所示,AMD这次在镜头与晶圆之间,采用了液体介质作为支撑。因此它要比在传统的空气中蚀刻电路技术具有更好的聚焦特性和更高的分辨率。AMD生成这种浸没式的光刻技术将是未来半导体制造业的趋势,也是转产到32nm制造工艺技术的转折点。即使Intel已经向全世界宣称自己将是第一个转产到32nm制造工艺的半导体厂商。AMD也会凭借浸没式光刻紧随其后。小熊在线www.beareyes.com.cn
大多数shanghai处理器中增加的晶体管(与巴塞罗那相比)都是用来扩大L3高速缓存的容量,这些优势会在承担繁重计算任务的服务器级别的计算机中相当明显的体现出来。大量数据的逻辑运算和转化需要较大规模的高速缓存。虽然这会消耗许多晶体管资源,但是所带来的性能提升也是非常值得的。例如,随着处理器拥有更大的缓存,可以支持更复杂的预取机制。这种预取机制可以从处理器对数据的操作历史中发现某些特定的规律。从而在未经任何指示的情况下,提前从高速缓存中读取数据加以处理。这样会大大提高处理器的工作进度,始终让处理器处于忙碌状态。随着处理器高速缓存容量的激增,预取的算法也可以变得更加智能和高效。shanghai可以探测L1和L2缓存在处理器核心中的连贯性信息,其探测的容量是老巴塞罗那的两倍。这样可以有效的在处理核心闲置时,降低它的时钟频率,达到更加节能省电的效果。小熊在线www.beareyes.com.cn
为了不让较大容量的高速缓存发生数据混乱和错误,AMD建立起了一套应急机制,该功能可以请求禁用L3高速缓存。如果机器检查系统报告出现了许多错误,那么它允许处理器关闭部分L3缓存的区域。当然这项技术需要操作系统级别的支持,因此AMD公司承诺,努力在明年选择比较普遍而典型的操作系统,支持这项技术。小
第4页:Smart Fetch智能预取节电技术
相比之下,有些出现在shanghai中的新技术名词就要难理解的多。例如,Smart Fetch智能预取技术。虽然这项技术听上去,更像是能加快系统某些处理效能的技术,但事实上,它的主要功能是采用较为变通的方式来节省电能。众所周知,AMD的高速缓存层级架构,都是采用独立设计的,也就是说,较低级别的高速缓存,不会将全部的内容都复制到更高级的高速缓存,或者是其他高速缓存中。在shanghai处理器中,独立高速缓存的各种层级架构的总和足有8MB之多。但是为了达到节能降耗的目的,这些高速缓存并不总是全部都被开启。例如在巴塞罗那核心中,一个完全闲置的处理核心会持续的工作,但是它的频率会被降低,这样可以保证其内部的高速缓存是激活状态的,并且其他处理核心可以访问这中间的数据。在shanghai处理器中,L1、L2和L3高速缓存可以用来独立存储数据,这样处理核心就可以完全被关闭。基本上它的时钟频率可以降低为零。AMD生成这项技术可以降低处理器的功耗达21%。不过至少要有1个处理核心在系统中运作,保持着激活状态。但是,如果你的系统中,有四路shanghai处理器,那么在服务器空闲的时候,只有一个处理器的一个核心在工作,将会非常节电。虽然shanghai处理器中智能预取机制的节电效果,并没有Nehalem平台中的电源管理单元那么强悍,但是它仍然要比上一代巴塞罗那有较为明显的技术改进。小熊在线www.beareyes.com.cn
在shanghai中改进的不仅仅是层级缓存架构,整个存储体系也开始支持嵌套页表,这项技术可以加速在虚拟化软件中,内存地址的转换效率。shanghai的基本配置与巴塞罗那相当,但是AMD声称shanghai的切换速度要提高了25%之多。这就意味着基于shanghai的虚拟化平台中,从客户端模式到管理程序模式的转化将更为迅速。在客户端可以明显感到速度的提升。AMD在进行虚拟化测试时,运行过两个测试,一个是将客户端转换为管理程序,另一个是将管理程序转换为客户端。在这个转换的过程中,巴塞罗那使用了1360个周期,而shanghai仅仅使用了900个周期。目前的虚拟化软件已经开始支持AMD的shanghai处理器新特性“AMD-V”,这使得虚拟化服务器的性能得到了明显的改善。小熊在线www.beareyes.com.cn
事实上,VMware公司已经公布了一些shanghai处理器的性能数据,在VMware ESX 3.5中,基于硬件级别的嵌套页表要比软件模拟的嵌套页表性能高很多。小熊在线www.beareyes.com.cn

双路Opteron系统,支持16GB容量的DDR2-800内存
除此之外,shanghai还有不少让人兴奋的改进之处,shanghai内部集成的内存控制器开始正式支持DDR2 667至800MHz的频率。另外对于HyperTransport 3总线规范的支持也是迫在眉睫。第一批shanghai处理器并不支持HyperTransport 3总线。主要原因是AMD并没有想过在shanghai中引进,AMD在等待HyperTransport 3总线草案变成正式版。预计在明年春天Opteron有望开始正式支持HT3总线。届时处理器与处理器之间的通信带宽将激增一倍。HT3总线的速度会高达2.2GHz,最大双向合计带宽会达到可怕的17.6Gb/s。在2009年发布的Fiorano平台将会完全支持HT3系统总线。小
第5页:价格和供货情况
shanghai核心的处理器如此令人期待,而它的价格和供货情况也不可小视。这是shanghai成败的关键。目前AMD已经公布了Opteron的各种型号和价格,请详见下面的表格,最终上市的产品价格只会比这些预发布的价格要低。小熊在线www.beareyes.com.cn
Model Clock speed North bridge speed ACP Price
Opteron 2384 2.7GHz 2.2GHz 75W $989
Opteron 2382 2.6GHz 2.2GHz 75W $873
Opteron 2380 2.5GHz 2.0GHz 75W $698
Opteron 2378 2.4GHz 2.0GHz 75W $523
Opteron 2376 2.3GHz 2.0GHz 75W $377
Opteron 8384 2.7GHz 2.2GHz 75W $2,149
Opteron 8382 2.6GHz 2.2GHz 75W $1,865
Opteron 8380 2.5GHz 2.0GHz 75W $1,514
Opteron 8378 2.4GHz 2.0GHz 75W $1,165
所有这些处理器的工作频率范围从2.3到2.7GHz,根据AMD的“ACP”功耗设计为75W。这个ACP与Intel的TDP相类似,都是衡量处理器功耗设计的指标。shanghai的时钟频率有较大的提升,这都是45nm制造工艺的功劳。而另一方面值得注意的是,北桥的时钟频率也被当作处理器的参数被加入进来。这是因为北桥时钟频率掌控着L3高速缓存的速度,因此北桥芯片的时钟速度,也会影响Opteron处理器的总体性能发挥。小熊在线www.beareyes.com.cn
上述表格中所有处理器是目前已经确认的型号,而HE版低功耗阶层的处理器和SE版shanghai核心的衍生处理器目前尚不清楚具体的规格。不过AMD透露HE和SE版本的处理器的设计功耗为55W和105W。在明年第一季度上市。另外还有性能更强劲的处理器蓄势待发,SE版本的处理器会达到3GHz的频率,只是具体的上市时间AMD并未透露。小熊在线www.beareyes.com.cn

CPU-z检测信息

四路处理器系统,共计16个处理核心
第6页:四核心Opteron皓龙的前世今生
Opteron是美国AMD公司首款K8系列微处理器,于2003年4月22日推出,其中文官方名称为“皓龙”,它也是首款与AMD64架构相容的。Opteron处理器主要用于服务器上,与英特尔的Xeon(至强)处理器竞争。小熊在线www.beareyes.com.cn
2007年9月10日,AMD推出首批采用K10微架构,核心代号Barcelona的Opteron 2300及8300系列B2步进处理器,全数均采用原生四核心设计及65nm SOI制程。小熊在线www.beareyes.com.cn
2008年3月1日,AMD正式出货B3步进制程Barcelona处理器,解决了B2步进制程的TLB Bug。HP、IBM、DELL将推出采用B3步进制程的Barcelona处理器的高效能服务器。小熊在线www.beareyes.com.cn
2008年3月,德国汉诺威电脑展Cebit 2008,AMD正式展出K10.5核心架构,代号为“Shanghai”(上海)的处理器,OEM厂商对此一新架构处理器效能感到满意。该处理器针对IPC(每一时脉周期指令)进行改进,并且将L3快取加大至6MB。小熊在线www.beareyes.com.cn
2008年5月25日,IBM为美国国家核能安全管理部打造一台代号为走鹃(Geococcyx californianus)的超级电脑,当中即采用6192颗AMD Opteron处理器与12960颗PowerX Cell 8i处理器搭配,计算峰值高达1.026PetaFLOPS,目前高居世界500强超级电脑的第一位。小熊在线www.beareyes.com.cn
2008年7月25日,AMD计划推出12核心的Opteron处理器,并升级为Socket G34插槽搭配Maranello服务器平台。最新的Socket G34插槽将有1974脚位,比目前Socket F的1207脚位Opteron处理器,性能最多可以提升64%,12核心的Opteron处理器预计2010年面世,届时将支援DDR3内存与4路HyperTransport3.0协定,到时AMD将推出45nm制程的12核心Magny Cours和同样采用45纳米制程的6核心Sao Paulo。AMD另外计划在明年下半年为现有的服务器平台推出6核心的Opteron处理器。小熊在线www.beareyes.com.cn
2008年7月28日,中央电视台引进1千多台内含AMD Opteron四核心的双路服务器,提供550Kbps编码的北京2008运动会赛事实况转播。1千多台内含Opteron四核心的双路服务器将分别用于前端服务器、串流媒体服务器、数据库服务器、二级媒体内容转发服务器、节目编码服务器。小熊在线www.beareyes.com.cn
2008年7月29日,AMD Opteron四核心处理器在双路、四路服务器创造了SPEC Web2005两项新的世界纪录。惠普ProLiant DL385 G5服务器配置了两颗四核心的Opteron 2356 2.3GHz,SPEC Web2005得分30007,而惠普ProLiant DL585 G5服务器配置了四颗四核心的Opteron 8356 2.3GHz,SPEC Web2005得分高达43854,比之前的记录提高了大约2.5%。另外四路Opteron 8356也首次使用10Gbps 以太网路进行测试,展示了Opteron直连架构的优异性能。小熊在线www.beareyes.com.cn
2008年8月11日,搭载AMD Opteron四核心处理器2360SE 型号的惠普ProLiant DL785 G5服务器在TPC-H@300 GB 决策支持测试中取得突破世界纪录的成绩,另外也在SAP? Sales 和 Distribution Standard Application Benchmark双重测试中,在配置和工作负载相似的8颗Opteron 处理器共32颗核心的x86服务器中,荣获第一名。小熊在线www.beareyes.com.cn
大陆北京天文馆即将上映的 8000 x 8000 高清晰电影将使用30台8路的 SUN 服务器进行集体渲染,这些Sun 服务器一共内含160颗AMD Opteron处理器。小熊在线www.beareyes.com.cn
AMD 45nm Opteron将在2008年年底上市,并同时推出服务器芯片组,命名为AMD SR5600,不再单纯依赖nVIDIA与Broadcom等第三方厂商提供芯片组。45nm Opteron将推出9种不同型号,时脉自2.3GHz~2.7GHz不等,采用Socket F脚位、6MB L2快取、TDP一律75w,但HyperTransport仍将采用2.0版本。小熊在线www.beareyes.com.cn

shanghai处理器芯片晶圆
第7页:是否足以和Nehalem相抗衡?
虽然从各种已经透露出来的资料来看,shanghai确实是一款非常出色的处理器,但是仍然有不少人怀疑shanghai的性能是否足以和Intel的Nehalem相抗衡。AMD已经许诺,为消费者提供与上一代相同的体系架构,提供更高的性价比,更强的性能功耗比。小熊在线www.beareyes.com.cn
AMD全新一代shanghai处理器会集成705M个晶体管,芯片面积为243平方毫米,预计采用45nm制造工艺之后,这个数值还有可能进一步缩减。集成四个处理核心,每个核心具备512KB的L2高速缓存。整个处理器具备L3 6MB。集成128bit的DDR2内存控制器,4条HT总线。每个处理器核心大概占据15.3平方毫米的芯片面积。每个MB的L2高速缓存约占居7.5平方毫米的面积。小熊在线www.beareyes.com.cn
对比shanghai,采用Nehalem平台的Core i7处理器集成有731M个晶体管,采用45nm制造工艺技术。集成有4个处理核心,每个处理核心带有256KB的L2高速缓存,共计L3 8MB。集成有3×64bit DDR3内存控制器。具备2条全新的QPI总线。单独一个处理核心的面积为24.4平方毫米。L2高速缓存每MB占用7.1平方毫米的面积。而L3每个MB占用5.7平方毫米的面积。i7的L2与L3占用芯片面积的不同,是因为L3采用的T8晶体管构造,L2采用T6晶体管构造。小熊在线www.beareyes.com.cn
从两个核心的对比,我们不难看出,i7的256KB L2显然不敌shanghai的512KB L2。不过i7在单个处理核心方面使用的晶体管和芯片面积都要比shanghai多出许多。预计i7的处理核心将更为强大。通过更大容量的8MB L3,各个处理核心核心之间也可以更充分的共享数据。而shanghai是首次采用45nm制造工艺技术,其频率冲上3GHz也是比较困难的事情。可以说,shanghai虽然与i7有一拼之力,但想要各个方面全面超越i7并不是一件轻松的事情。小熊在线www.beareyes.com.cn

有趣的是,随着shanghai处理器的发布,AMD也透露了一些未来Opteron皓龙处理器的发展规划。小熊在线www.beareyes.com.cn

这是AMD Opteron皓龙处理器的路线图,我们可以看到历史追溯到2006年,未来展望到2011年。小熊在线www.beareyes.com.cn
Opteron处理器目前最为棘手的问题就是在明年春天的时候启用HyperTransport 3系统总线。在下一代Fiorano平台中,会有较大革新与变化。新的平台会在2009年中期的时候与大家见面。Fiorano平台的第一款芯片组将会是基于ATI的逻辑核心。这款芯片组由SR5690 北桥和SP5100南桥所组成。Fiorano仍然会保留对Socket F处理器插槽的兼容性,但是也会增加一些显着的特性,例如HT3总线的支持,PCI Express 2.0总线的支持,支持设备的热插拔。正如我们早前猜测的那样Fiorano平台将会支持AMD的IOMMU虚拟化技术,它可以支持快速而安全的硬件辅助虚拟化I/O设备。在今后的服务器领域中,虚拟化技术是未来发展的一大趋势,无论是具备较大优势的AMD,还是后来迎头赶上的Intel,都非常看好这一领域的应用。因此,未来的高端服务器领域之争,也可以看作是虚拟化领域的技术械斗。小熊
第8页:AMD:走在虚拟化技术前沿
虚拟化技术是指在x86的系统中,一个或以上的客操作系统在一个主操作系统下运行的一种技术。这种技术只要求对客操作系统有很少的修改或甚至根本没有修改。x86处理器架构起先并不满足虚拟化环境的需求,这使得在x86处理器下对普通虚拟机的操作变得十分复杂。在2005年与2006年,英特尔与AMD分别在它们的x86架构上解决了这个问题以及其他的虚拟化困难。小熊在线www.beareyes.com.cn
AMD虚拟化(AMD Virtualization),缩写为“AMD-V”,是AMD为64位的x86架构提供的虚拟化扩展的名称。但有时仍然会用“Pacifica”,AMD开发这项扩展时的内部项目代码来指代它。小熊在线www.beareyes.com.cn
AMD-V在AMD的步进为“F”与“G”的速龙64以及速龙64 X2处理器、使用Socket S1的炫龙64处理器,炫龙64 X2处理器,弈龙处理器,以及全部更新的处理器上可用。(后经证实 炫龙64 X2 TL-50处理器可支持虚拟化技术)
在Linux中,支持虚拟化的AMD处理器会在一个特别文件/proc/cpuinfo中有一个名为svm的标志。小熊在线www.beareyes.com.cn
AMD为一项名为AMD-V的IO内存管理单元(IOMMU)发布过一份技术规范。这份技术规范提供了一种配置传送给独立虚拟机的中断,与配置IO内存单元的方式,以防止虚拟机使用DMA来终止与真实硬件的隔离。IOMMU在高级的操作系统(如缺席虚拟化,absent virtualization)与AMD的Torrenza架构中起到了重要的作用。小熊在线www.beareyes.com.cn

AMD-V虚拟化技术
第9页:强大的六核心Fiorano平台

这是四路Opteron处理器架构图
Fiorano平台具有良好的扩展升级性,从2P到4P再到8P,系统都可以平滑升级。上面这张图表示四路Opteron处理器的架构图,整个系统仍然有希望再扩充为8P的系统。另一个值得注意的地方,它并不支持DDR3内存。尽管在桌面领域Phenom II处理器可以在2009年早期就可以支持DDR3内存技术,但是服务器级别的Opteron处理器就没有这么幸运了。由于受限于Socket插槽的兼容性问题,至少要等到2010年,AMD才会在Opteron处理器平台中使用全新的Socket插槽。因此在2010年之前,我们很难看到支持DDR3的Opteron平台问世。小熊在线www.beareyes.com.cn
在2009年年底的时候,Opteron皓龙处理器会衍生出6核心的版本,它的研发代号为Istanbul。它采用45nm制造工艺技术,看上去与目前的shanghai处理器非常类似。但是,它会额外的增加2个处理核心。依旧板载6MB容量的L3高速缓存。内部集成DDR2内存控制器,支持HT3系统总线。当然在这期间Intel也会有自己的产品路线图,基于Nehalem架构的四核心、八核心Xeon至强处理器也会相继到来。究竟鹿死谁手还要看高端服务器市场的反应。小熊在线www.beareyes.com.cn

Istanbul看上去与shanghai核心非常相似,只是多了2个处理核心
AMD计划在2010年,采用一种全新的G34处理器插槽,它会是首个长方形的Socket插槽。届时处理器将会有更为密集而庞大的引脚数量。预计将应用在下一代Opteron处理器上。令人兴奋的是,Opteron将集成真正的DDR3内存控制器,同时DDR3内存的通道数量将达到4路。此外,北桥芯片中HT3系统总线的链接数量也要由现在的3条,进化为4条。这些强悍的配置都会应用于4路处理器系统中。小熊在线www.beareyes.com.cn
尽管AMD一直尽力保证处理器插槽的向下兼容性,但是这次升级物理改动的地方相当大。全新一代处理器平台的研发代号为Maranello法拉利,为了保证多路处理器系统中有足够的数据传输带宽。法拉利平台中将使用2颗Fiorano中的主板逻辑核心。小熊
第10页:未来的Opteron皓龙处理器平台
全新的处理器平台,将会有两个不同的阶层,Sao Paulo圣保罗,他拥有6个处理核心和6MB的L3高速缓存。而研发代号Magny Cours马尼库尔的处理器将具备高达12个处理核心和12MB容量的L3高速缓存。目前我们尚不知晓AMD是如何将众多的处理核心和缓存都集成在一个小小的芯片中的。不过可以肯定Magny Cours仍然会采用同shanghai处理器一样的45nm制造工艺技术生产。同时它的高速缓存层级架构也与传统的Opteron处理器保持一致。不过L3中的缓存架构则稍有不同。AMD在L3中加入了额外的智能控制芯片。它会以探针过滤器,或窥探过滤器的形式工作。在多路多核心处理器系统中,它可以有效的管理高速L3缓存中数据信息的相关性。这种设计与Nehalme中的片上功耗管理单元相类似。它可以控制处理核心的速度,降低他们的电压,同时还能监测处理器的热量。小熊在线www.beareyes.com.cn
除了上述一些AMD未来的处理特性细节之外,AMD今后的处理器产品还是比较扑朔迷离的。我们知道,在前不久AMD宣布卖掉自己的晶圆制造工厂,转而去依靠技术更为先进的晶圆代工公司生产处理器产品。小熊在线www.beareyes.com.cn
而在2010年上半年,AMD有计划推出两个高级的32nm制造工艺技术。首先在2010年中期,推出高性能的32nm制造工艺技术,一个是高性能的SOI硅绝缘工艺技术,high-k金属门电路的低功耗加工工艺技术。小熊在线www.beareyes.com.cn
据我们所知,AMD正在致力于下一代CPU架构的研发工作,它的代号为Bulldozer推土机。根据先前的报道,推土机可能使用45nm制造工艺技术。不过根据小编我的分析,如果推土机架构能在2011年到来面向桌面处理器市场,那么它很有可能会采用更为高级的32nn制造工艺技术。小熊在线www.beareyes.com.cn

shanghai 4S server
第11页:测试平台介绍
Processors Dual Xeon E5450 3.0GHz Dual Xeon X5492 3.4GHz Dual Xeon L5430 2.66GHz Dual Opteron 2347 HE 1.9GHz
Dual Opteron 2356 2.3GHz Dual Opteron 2384 2.7GHz
System bus 1333MHz (333MHz quad-pumped) 1600MHz (400MHz quad-pumped) 1333MHz (333MHz quad-pumped) 1GHz HyperTransport 1GHz HyperTransport
Motherboard SUPERMICRO X7DB8+SuperMicro X7DWA asus RS160-E5 SuperMicro H8DMU+ SuperMicro H8DMU+
BIOS revision 6/23/2008 8/04/2008 8/08/2008 3/25/08 10/15/08
North bridge Intel 5000P MCH Intel 5400 MCH Intel 5100 MCHnVIDIA nForce Pro3600 Nvidia nForce Pro3600
South bridge Intel 6321 ESB ICH Intel 6321 ESB ICH Intel ICH9R Nvidia nForce Pro3600 Nvidia nForce Pro3600
Chipset drivers INF Update 9.0.0.1008 INF Update 9.0.0.1008 INF Update 9.0.0.1008 - -
Memory size 16GB (8 DIMMs) 16GB (8 DIMMs) 6GB (6 DIMMs) 16GB (8 DIMMs) 16GB (8 DIMMs)
Memory type 2048MB DDR2-800 FB-DIMMs  2048MB DDR2-800 FB-DIMMs 1024MB registered ECC
DDR2-667 DIMMs 2048MB registeredECC
DDR2-800 DIMMs 2048MB registered ECC
DDR2-800 DIMMs
Memory speed (Effective) 667MHz 800MHz 667MHz 667MHz 800MHz
CAS latency (CL) 5 5 5 5 6
RAS toCAS delay (tRCD) 5 5 5 5 5
RAS precharge (tRP) 5 5 5 5 5
Storage controller Intel 6321 ESB ICH with
Matrix Storage Manager 8.6 Intel 6321 ESB ICH with
Matrix Storage Manager 8.6 Intel ICH9R with
Matrix Storage Manager 8.6 Nvidia nForce Pro3600 LSI Logic Embedded MegaRAID
with 8.9.518.2007 drivers
Power supply Ablecom PWS-702A-1R 700W Ablecom PWS-702A-1R 700W FSP GroupFSP460-701UG 460W Ablecom PWS-702A-1R 700W Ablecom PWS-702A-1R 700W
Graphics IntegratedATI ES1000 with 8.240.50.3000 drivers Integrated ATI ES1000 with 8.240.50.3000 drivers Integrated xgi Volari Z9s with 1.09.10_Asus drivers Integrated ATI ES1000 with 8.240.50.3000 drivers Integrated ATI ES1000 with 8.240.50.3000 drivers
Hard drive WD CaviarWD1600YD 160GB
OS Windows Server 2008 Enterprise x64 Edition with Service Pack 1
在我们的测试中,一共选用了6颗服务器级的处理器,其中有3颗Intel的Xeon至强处理器,3颗Opteron皓龙处理器,其中Opteron 2384采用45nm的shanghai处理器。另外我们选用了11款最为专业的服务器级别的评测软件作为本次评测的工具。它们包括:
SPECjbb 2005 1.07 with Oracle JRockIt JRE R27.6 Windows 64-bit
SiSoft Sandra 2009.1.15.42
CPU-Z 1.48
Valve VRAD map build benchmark
Cinebench R10 64-bit Edition
POV-Ray for Windows 3.7 beta 29 64-bit
CASE Lab Euler3d CFD benchmark multithreaded edition
MyriMatch proteomics benchmark
notfred's Folding benchmark CD 9/28/08 revision
x264 HD benchmark 2.0 with x264 version 0.59.819
TR XML benchmark
第12页:内存子系统测试(上)

这张图表非常直观的显示了不同系统平台之间高速缓存与内存带宽之间的差异。其中我们可以看到Opteron 2384处理器具有16MB的L3高速缓存,因此它比其他四核心Opteron具备更出色的性能。不过Xeon的缓存层级架构更加典型,因此在这项测试中Xeon全面胜出。小熊在线www.beareyes.com.cn

由于集成了改良型的内存控制器,因此Opteron 2384比其他处理器具备更强的内存带宽性能。同时AMD的处理器也在这项测试中全面胜出。小熊在线www.beareyes.com.cn

Opteron 2384改进了高速缓存层级架构,改进了TLB的层次,再加上更快的内存访问速度,使得它的内存访问延迟大大减小,这要比传统的65nn巴塞罗那有不小的性能提升。
第13页:内存子系统测试(下)
下面我们来看看各款处理器的内存访问延迟情况。通过这个可视化图表,我们可以很清楚看到,Opteron的L3高速缓存再次发挥出了极大的优势,它的潜伏期要比老巴塞罗那快20~30ns之多。






第14页:SPECjbb 2005测试
SPECjbb 2005可以模拟一台服务器在真实的商业活动中的运行环境。它可以模拟客户端、数据库、后台服务的运行。它是一个java编写的程序,通过java虚拟机来运行。它有许多系统测试项目,这里我们主要来考察处理器的峰值运算量和数据吞吐量。


Opteron 2384处理器的测试成绩给人印象十分深刻,他比上一代2356有着巨大的性能飞跃,性能超越对手Xeon E5450。2.7GHz的shanghai性能已经直逼3.4GHz的Xeon X5492。小熊在线www.beareyes.com.cn


在功耗测试方面,Xeon X5492的性能惊人,但是其功耗也同样惊人。75W的Opteron 2384功耗处在一个比较合理的水平内。令人赞叹的是低功耗版本的Xeon L5430确实已与常人,功耗要远远低于其他对手。小熊在线www.beareyes.com.cn

在性能功耗比的测试中,45nm制造工艺的Opteron 2384绝对出彩。虽然L5430排在第一,但是它也是用较大的性能代价才换取的第一。虽然Opteron 2384排在第二位,但是其性能功耗之比,要远远超过其他处理器。小熊
第15页:处理器渲染性能测试:Cinebench

Cinebench是较为常见的处理器性能测试工具,它通过对一幅3D图片进行渲染处理,来考察处理器的运行效能。小熊在线www.beareyes.com.cn

在这项测试中Xeon处理器凭借着较高的主频和优秀的多媒体性能占尽了优势。小熊在线www.beareyes.com.cn

在运行这款测试软件是,处理器开足马力全力冲刺,功耗最高的还是Xeon X5492,而shanghai核心的Opteron 2384功耗仅仅高于Intel低功耗版本的Xeon L5430,可见45nm制造工艺确实有极大的优势。小熊在线www.beareyes.com.cn




第16页:XML处理测试
在XML性能的测试中,我们尽力模拟真实的XML编译环境,使用了开源的XML Benchmark测试工具。使用了微软的C#和.NET语言脚本。

这里有一个比较奇怪的问题,Opteron 2384并没有他的前辈2356得分高。而Intel也凭借着较高的频率与架构优势在这项测试中全面胜出。小熊
第17页:科学运算:蛋白质分析和流体动力学模拟
MyriMatch proteomics是一款蛋白质分析软件,用来分析蛋白质的的基因序列,它可以进行多线程运算,这样可以加速蛋白质的分析速度。在这里,我们选用不同线程数量,来测试不同的处理器,在不同线程数量下的性能表现。

Opteron 2384性能表现优异,除了低于频率远高于它的Xeon X5492处理器之外,其他处理器均已不在话下。不过我们也可以看到,老巴塞罗那由于受到频率的制约,很难超越频率较高的Xeon处理器。小熊在线www.beareyes.com.cn
STARS Euler3d是流体动力学计算软件,以前它仅仅是支持单线程的程序,不过它目前已经有了多线程版本的试用版可用。我们从一个网站上下载了大规模数据集,和多线程测试软件。小熊在线www.beareyes.com.cn

该程序还处在多线程内部测试版本,并未对任何多核心处理器平台做优化,因此频率较高的Xeon处理器具有很大优势。不过我们也可以看到Opteron 2384同样超越了老巴塞罗那处理器。
第18页:Folding@Home分布式计算
Folding@Home是比较知名的分布式运算程序。它采用分布式的计算方式,来调集分布在全世界各处的计算机,来运行蛋白质分析程序。目前Folding@Home支持许多处理器技术,如AMD的3DNow!,Intel的SSE,同时还支持ATI和NVIDIA显示卡的通用计算。






很显然Xeon至强处理器在这项测试中又是大获全胜,凭借较高的主频和不错的性能,至强表现出了非凡的实力。而在AMD的处理器中,Opteron 2384依旧凭借较高的时钟频率和优秀的改良架构跑在了第一位。小熊在线
第19页:3D建模与渲染
POV-Ray rendering
POV-Ray rendering是一款出色的渲染工具,目前它的最高版本为3.7,支持多线程和64bit处理器。



虽然shanghai核心的Opteron 2384有较强的性能提升,但是它并不足以完全赶超Xeon E5450。POV-Ray rendering对缓存大小和内存带宽并不敏感,因此AMD的处理器性能不能凸显出来。不过shanghai在分支预测算法方面有较大的调整,这也是它超越巴塞罗那的重要原因。小熊在线www.beareyes.com.cn
Valve VRAD map compilation

它使用了Half-Life 2的引擎,是一款游戏编辑程序。同样我们可以看到Xeon在渲染方面的不俗实力表现。而Opteron 2384虽然超越了巴塞罗那,但是难以在这方面与Intel的处理相抗衡。
第20页:视频编码测试:x264 HD video
这是目前比较流行的视频编码器,开源的x264 HD编码。它的版本号为,0.59.819,有两个测试部分。


这款软件针对工作站级别的处理器做了更多优化,因此Xeon处理器具有明显的优势。而像是shanghai这样的处理器,虽然超越了老巴塞罗那核心,但是AMD的处理器仍然不敌Intel。小
第21页:处理器多媒体性能测试:Sandra multimedia
SiSoft Sandra的multimedia是处理器测试三项铁人赛中的一个测试项目,很多系统评测都会跑这个测试项目。它主要考察处理器的多媒体处理效能。




这里我们可以看到Opteron 2384某些测试项目中超越了Intel的Xeon L5430,但是总体而言,难以超越Intel的其他高端Xeon处理器。而Intel的Xeon处理器在多媒体处理器方面有着一贯的优势。
第22页:写在最后
全新的shanghai核心处理器具备更高的时钟速度,更大更快的L3高速缓存,同时提高了四核心处理器的内存子系统的性能。由于采用了全新的45nm制造工艺技术,使得shanghai处理器的整体功耗要比巴塞罗那低不少。通过上述测试,可以看出Opteron 2384相较Xeon E5450处理器在SPECjbb测试中具备更好的性能表现。在整个测试中,2.7GHz的皓龙紧紧咬住3.0GHz的至强处理器。但是面对3.4GHz的高频率Xeon处理器,仅有2.7GHz的shanghai核心也难以对捍。
可见高端处理器市场,除了体系架构与处理器的指令架构,高速缓存层级架构之外,频率依然是较为重要的性能指标。虽然shanghai此次采用了45nm制造工艺技术,但是这是AMD初次尝试新的制程。而Intel的45nm已经发展到第二代了。若相同频率下比拼,AMD的shanghai定然不会落后于人。
至于说到处理器的架构设计,集成内存控制器一直是AMD处理器的一大优势,在繁重的多任务环境下,优势尤为明显。不过Intel的Nehalem架构已经彻底扭转了这种局势。小编我认为shanghai最关键的,是就要把握机会,在双路服务器版的Nehalem处理器上市之前,迅速抢占市场。并且进一步提高shanghai处理器的频率,这样才能与Intel有一拼的机会。小熊在线www.beareyes.com.cn