| 1U服务器 | 2U服务器 | 四路服务器 | 塔式服务器 | 刀片服务器 | 工作站 |
| 主板 | 显卡 | HBA卡 | CPU | 内存 | 硬盘 | 阵列卡 | 电源 | 网卡 | 散热器/模块 | 硬盘架 | 服务器导轨 | 背板及扩展板 |
| SAS阵列柜 | SATA阵列柜 | SCSI阵列柜 | FC阵列柜 | 磁带机 | 磁带库 | 存储配件 |
| IBM | HP | SUN |
| 路由器 | 交换机 | 防火墙 | 网络配件 | 基带猫 | VPN安全接入 |
| 机架式服务器 | 塔式服务器 | 刀片服务器 |
| UPS电源 | KVM切换器 | 面板 | 线材 |
特别提示:成色几乎如新,真品行货,还有浪潮全国上门保修服务,购买无后顾之忧
浪潮NF290D 四核2U机架式服务器
配置简介:,XEON E5405*1/4GB/SAS 146G 15K/6盘位,特价:4800元
主板芯片组:采用Intel 5000V+ESB2E芯片组
CPU:Intel XEON E5405(12M缓存) 2.0G/1333MHZ
内存:4GB(2G*2)DDR2 FBD-IMM 667MHZ全缓冲(最大24GB)
硬盘:原装浪潮希捷SAS 146G 15K专用(最多可支持6个SAS或SATA硬盘)
阵列卡:集成SAS RAID0、1、1E
网卡:2个Intel 82563EB 10/100/1000自适应 RJ45接口网卡,支持WOL(Wale On Line)、I/OAT
显卡:集成XGI Volari Z7显示控制器、显存16MB
标准接口:2 PS2键盘鼠标接口,1个前置USB口,2后置USB接口,4 内置USB接口,1 VGA接口,1 后置串口,1 内置串口
散热系统:6个冗余风扇
电源:1个480/500W
管理工具:具有CPU温度、电压监控功能,具有风扇转速监控及智能调节功能,具有网络唤醒功能、支持浪潮睿捷管理套件、可选集成智能控制芯片,支持远程管理技术
系统支持:Windows2000、Windows2003、RedHat EL4.1、Suse Linux ES 9.0 SP2


















45nm Penryn家族成员众多
【IT168评测中心】Intel的Tick-Tock平台战略正有条不紊的推行着,Intel将会将处理器平台全面由65nm平台转向45nm平台,新的处理器家族被称为Penryn,关于Intel的45nm Penryn相信大家都已经从铺天盖地的宣传中已经很熟悉了。Penryn处理器具备了强大的计算能力和极低的功耗,它包含3个产品线共7名成员,包括有双核心桌面处理器Wolfdale、四核心桌面处理器Yorkfield、双核心移动处理器Penryn、双核心Xeon DP处理器Wolfdale DP、四核心Xeon DP处理器Harpertown、双核心Xeon MP处理器Dunnington DC及四核心Xeon MP处理器Dunnington QC。

Intel全线服务器产品线路图
按照既定的计划,Intel将会在11月份发布16款45nm Penryn家族处理器,其中包括了一款桌面级的Core 2 Extreme QX9650处理器,其他的15款都属于服务器处理器平台,其中12款全新四核处理器的主频均在2 GHz-3.20 GHz之间,前端总线速度(FSB)高达1600 MHz,而且高速缓存规格为12 MB。另外3款全新双核处理器的主频则高达3.40 GHz、FSB高达1600 MHz、高速缓存为6 MB。

关于45nm Penryn桌面级Core 2 Extreme QX9650处理器,我们已经做了详细的测试,其多媒体性能大幅提升、功耗大幅下降,让人怦然心动。服务器的45nm Penryn处理器性能如何呢?国内著名的服务器厂商浪潮在第一时间送来采用了45nm Xeon DP E5440处理器(代号Harpertown)的服务器平台,我们IT168评测中心第一时间对这款NF290D进行了全面的评测。通过本文,读者可以了解到45nm Penryn Xeon服务器处理器具有的实力,并对45nm Xeon平台都会有更深入的认识。
服务器处理器平台中,Xeon DP系列是最常见的处理器之一,Xeon DP处理器经历了Paxville DP(双核,Netburst)、Dempsey(双核,Netburst,Benlsey平台)、Woodcrest(双核,Core,Benlsey平台)和Clovertown(四核,Core,Benlsey平台)这样的一个历程,现在45nm平台中,Xeon DP也升级到了Wolfdale DP(双核,增强Core架构,Stoakley平台)和Harpertown(四核,增强Core架构,Stoakley平台)。
| 代号 | 型号 | SMP | 主频 | FSB | L2 | TDP | 接口 | 制程 |
| Clovertown | Xeon E5310 | DP | 1.60 | 1066Mhz | 8MB | 80W | LGA771 | 65nm |
| Xeon E5320 | DP | 1.86 | 1066Mhz | 8MB | 80W | LGA771 | 65nm | |
| Xeon E5335 | DP | 2.00 | 1333Mhz | 8MB | 80W | LGA771 | 65nm | |
| Xeon E5345 | DP | 2.33 | 1333Mhz | 8MB | 80W | LGA771 | 65nm | |
| Xeon X5355 | DP | 2.66 | 1333Mhz | 8MB | 120W | LGA771 | 65nm | |
| Xeon X5365 | DP | 3.00 | 1333Mhz | 8MB | 120W | LGA771 | 65nm |
当前主流4核Xeon: Clovertown
| 代号 | 型号 | SMP | 主频 | L2 | TDP | 制程 |
| Harpertown | Xeon E5405 | DP | 2.00 | 12MB | 80W | 45nm |
| Xeon E5410 | DP | 2.33 | 12MB | 80W | 45nm | |
| Xeon E5420 | DP | 2.50 | 12MB | 80W | 45nm | |
| Xeon E5430 | DP | 2.66 | 12MB | 80W | 45nm | |
| Xeon E5440 | DP | 2.83 | 12MB | 80W | 45nm | |
| Xeon E5450 | DP | 3.00 | 12MB | 80W | 45nm | |
| Xeon E5460 | DP | 3.16 | 12MB | 120W | 45nm |
45nm Xeon DP包括了两个型号:Harpertown和Wolfdale DP。代号为Harpertown的Xeon DP处理器是四核处理器,代号为Wolfdale-DP的处理器为双核处理器,它们都是Penryn架构处理器衍生产品,均采用了45nm High-k制程技术。从65nm到45nm的转变,不仅仅是当前芯片设计在体积上的缩小。此类处理器中还增加了许多新的特性,如全新的英特尔? SIMD流指令扩展4(SSE4),可通过47条全新指令加快包括视频编码在内的工作负载的处理速度,从而支持高清晰度画质和照片处理,以及重要的HPC和企业应用。据称,与前代四核Intel Xeon DP 5300系列处理器相比,45nm High-k Intel Xeon处理器的性能功耗比提升了38%,进一步巩固了其性能功耗比领先优势。

和上一代Clovertown相比,Harpertown处理器将2 x 4MB的L2缓存提升到了2 x 6MB L2缓存,每两个核心共享6MB缓存。Harpertown处理器将不再使用旧的1066MHz FSB,而开始支持更高的1333MHz/1600MHz FSB。由于采用了45nm High-k制程技术,四核Harpertown的功耗依然保持同现有的双核大致相当的水平,TDP依然为50瓦、80瓦和120瓦,并且频率规格也有所提高,最高端的Xeon E5460处理器可以达到3.16GHz,而上一代Xeon X5365只有3.00GHz,这意味着新的Harpertown平台的计算密度可以得到很大的提升。

在Intel的Tick-Tock战略上,Penryn是45nm工艺的第一个处理器产品线,因此其核心架构在Core微架构上进行改良,除了45nm工艺带来的电气改进之外新的Penryn微架构主要有5方面:
Intel Wide Dynamic Execution(Intel宽动态执行)方面的改进着实从基础上提升了处理器的运算性能,包括快速16进制除法器、更快速的操作系统基础支持、增强的Intel虚拟化技术三个部分。
Intel Advanced Smart Cache(Intel先进智能缓存)则进一步提升了缓存性能,以符合未来多核心的趋势,其包括了更大容量的缓存以及更多路的缓存关联。
Intel Smart Memory Access(Intel智能内存存取)提升了装载数据的速度,包括强化的存储转发结构和更高的总线带宽设计。
Intel Advanced Digital Media Boost(Intel先进数字媒体增强)则是对数字媒体的一系列优化、增强,包括了SSE4指令集的加入,以及全新的Super Shuffle Engine超级传送引擎。
Intel Intelligent Power Capability(Intel智能电源特性)则是充分发挥新制程的特点,降低总体能源的消耗,包括了深层关机技术和增强的Intel动态加速技术。
虽然45nm Penryn的并非基于全新的架构,然而在测试当中,45nm桌面处理器QX9650的性能有了比较明显的提升,因此我们预计,从Clovertown到Harptertown也会具有相似的结果,下面我们先来看看微架构上影响性能的这些主要改进。
基本上,45nm Penryn处理器的架构和Core 2架构很相似,微架构方面的主要改进如下:
Intel Wide Dynamic Execution(Intel宽动态执行)方面的改进着实从处理器基础架构上提升了处理器的运算性能,它包括快速16进制除法器、更快速的操作系统基础支持、增强的Intel虚拟化技术三个部分。与桌面平台相关的主要是16进制除法器,而服务器则可以从所有的改进内容中获益。
Faster Radix-16 Divider(快速Radix-16除法器)

虽然除法也可以用乘法来代替,不过单独的除法指令、除法运算器部件显然可以提升效能,Penryn架构搭载了新的16进制除法部件,可以提供目前最顶级的除法性能。传统的2进制或者4进制除法只能在每个时钟处理1位或者2位数据(2个位就能表示4个数,也就是4进制的意思),而Penryn 16进制除法器可以每个时钟处理4位数据(4个位就能表示16个数),可以大大提升包括整数、浮点在内的除法性能,并大大优化了平方根的运算,而且Penryn的除法器的Early-out构造可以以极低的延迟输出结果,最小值需要6个时钟周期。除法器的性能提升几乎涉及到了所有的应用程序。
Faster OS Primitive Support(更快速的操作系统基础支持)

Penryn通过提升中断遮罩控制以及时间戳计数器的性能,从而达到提升操作系统同步性能的目的。通常的多任务操作系统中,需要通过大量的中断请求来分配处理器资源给各个部件,而在繁忙的操作系统中,不同程序中大量的定时器/计数器需要不停地查询时间戳计数器,通过2倍于原来速度的CLI/STI/RDTSC指令执行速度,Penryn架构大大提升了这些应用的性能,例如数据中心、事务处理等应用都可以从中获得明显的提升,这有点像现代芯片组中新增加的精确时钟技术,这个技术可以比较明显地提升繁忙的服务器的性能表现。
Enhanced Intel Virtualization Technology(增强的Intel虚拟化技术)

作为当前的热点,也是Intel当前专注的部分,虚拟化技术也没有被忽略,这个持续发展中的技术也获得了改进:VM Exit/VM Entry性能获得了25%~75%的提升,在虚拟化应用中,虚拟机切换是很频繁的,VM Exit/VM Enry的执行也就很是频繁,这方面的改进可以明显地改进虚拟机(特别是多虚拟机)下的性能。
Intel Advanced Smart Cache(Intel先进智能缓存)则进一步提升了缓存性能,以符合未来多核心的趋势,其包括了更大容量的缓存以及更多路的缓存关联,服务器对L2缓存的利用效率是非常高的。

Intel Advanced Smart Cache其实就是L2缓存方面的改进,Penryn处理器家族的L2缓存容量得到了提升,双核心版本将拥有最多6MB、四核心将拥有最多12MB的L2缓存,比上一个版本增大了50%。并且在容量提升的基础上,Penryn还把L2 Cache的Associativity关联性由上一代的16路提升到了24路,令L2缓存存取的平均潜伏期得到了进一步的下降。
Intel Smart Memory Access(Intel智能内存存取)提升了装载数据的速度,包括强化的存储转发结构和更高的总线带宽设计。

除了更快的1600MT/s总线可以提供更高的存取速度之外,Penryn架构还提供了Improved Store Forwarding强化存储转发特性,通过新的64位载入指令,提升了内存之间、核心之间等的存储转发性能。
Intel Advanced Digital Media Boost(Intel先进数字媒体增强)则是对数字媒体的一系列优化、增强,包括了SSE4指令集的加入,以及全新的Super Shuffle Engine超级传送引擎,这一点留待下一节介绍。
Intel Intelligent Power Capability(Intel智能电源特性)则是充分发挥新制程的特点,降低总体能源的消耗,包括了深层关机技术和增强的Intel动态加速技术(该项改进主要针对移动平台)。
SSE4——Penryn搭载的SSE4.1指令集主要分为三个部分,分别是SSE4视频编码加速部分、SSE4图形加速部分和SSE4流加载部分,其中SSE4视频编码加速部分包括了14条指令,用于加速4x4绝对差和、子像素过滤一击数据查找方面的性能。
在进行视频编码时,需要进行大量的Motion Estimation(动态预测),动态预测是视频编码过程中极其重要的一个环节,它的算法效率对整个编码效率有很大的影响,而这个动态预测需要进行大量的SAD(Sums of Absolute Difference,差分绝对值和)的运算,该运算是大部分视频编码算法中运动估计一步常采用的方法。SAD算法将会在相邻两个连续视频帧中找出一个大块的运动情况,以纪录其运动数据代替纪录像素数据而节约存储容量、压缩视频。为此,SAD需要计算两个大块中每一组对应的像素值之间绝对差值的累加和。这本身就是一个非常复杂的大数据量运算动作,即使依靠SIMD指令的一条指令就处理大量数据的优势,要组合成SAD操作代码也需要大量的指令。
现在,SSE4指令集内特别加入了SAD加速运算指令,只需要一条指令就可以快速高效地完成这些工作。例如,在SSE4之前,一个SAD工作代码如下:

非常的冗长繁琐,而在有了SSE4之后,这些指令就可以简化为一条指令:
MPSADBW xmm0,xmm1,0
简化量是非常巨大的。而在复杂的动态预测程序中,要执行复杂的SAD代码,这时SSE4还可以额外提供更高的方便性:

SSSE3可以看作是SSE4的一个提前“泄露”的子集,同样的工作,右边的SSE4代码无疑要比SSSE3更为简捷。
SSE4当中还加入了快速查找的指令,虽然并不仅仅是视频编码才能具有作用,然而对于整位像素和子像素运动估计方面具有特别好的效果,如下图的指令可以在8个元素中找到最小的一个元素,并找到其位置:
|
|
在Intel的SSE4展示当中,使用搭载SSE4指令集的2.66G Wolfdale Core 2系统对比2.33G Core 2 Duo E6550进行Pegasys TMPGEnc 4.0 XPress HDTV编码,最后得到了55%的性能提升,其中加速的SAD处理和快速查找在各自的领域的性能提升达到了2~3倍,SSE4指令集的作用可见一斑:
![]() |
其中,CPU的频率提升只有14%,总应用程序提升却达到了55%,这就是SSE4视频编码加速指令的作用了。
Penryn架构中SSE4相关的改良还有一个:就是Super Shuffle Engine,Intel称之为超级乱序引擎,不过我们认为称之为超级传送引擎更为贴切一些:
Super Shuffle Engine超级传送引擎

Super Shuffle Engine其实是加速SSE相关数据的传输转移过程,包括打包、解压、对齐、宽进位等操作,都可以通过Super Shuffle Engine来加速,从而可以在每个时钟周期内完成128位的操作。这个加速是完全硬件的,不需要软件的变动。
SSE4目前看来对视频服务器的性能提升强于对桌面系统的提升,然而由于SSE4指令集也有很多基本的运算加速指令,我们以后将会详细考察这个指令集在服务器实际性能上是否会有提升。
作为一种“平台化策略”,Intel在发布处理器的时候也会为其准备相应的芯片组。45nm High-K Xeon DP处理器与采用了Intel 5000芯片组家族的Bensley服务器平台完全兼容,此外,Intel还将推出三款平台解决方案来支持45nm Xeon DP处理器,它们分别是:
基于Intel 5400芯片组的平台(代号为Stoakley),专门针对高性能计算(HPC)等需要高带宽的应用进行了优化,作为Harpertown的主流配合芯片组,我们将主要对其进行介绍;
基于Intel 5100芯片组和Intel ICH9R芯片组的平台(代号为Cranberry Lake)。这些成本优化型解决方案能够支持单路或双路处理器,同时还使用原生DDR2内存来降低能耗;
基于Intel 3200芯片组的平台(代号为Garlow),专为单路入门级服务器而设计。

当前的Bensley平台由64nm Clovertown处理器和5000芯片组组成
现有的Bensley平台可以完善地支持新45nm Xeon DP处理器,包括了5000V、5000P、5000X北桥,Bensley平台将处理器的最高FSB频率限制在了1333MHz,因此只适合比较底端的Harpertown处理器。
5000P北桥采用了DIB前端总线,速率是1066/1333 MT/S,两条FSB的最大总带宽刚好和内存带宽一致,5000P提供了4通道667MHz FB-DIMM支持,每通道带宽5.3GB/s,总共就是21.2GB/s的巨大内存带宽,每个通道支持4个Dual Ranked FB-DIMM DDR2 DIMMs,最大总容量达到了64GB。5000P还能支持Memory RAID 1(miroring),可以提供更强的容错性,此时最大有效内存容量就变为装载内存的一半,最大是32GB。5000V则是5000P的简化版本,可重配置的PCI-E x8界面少了一个,FB-DIMM内存通道也降低到了两个,连带总内存容量也降低到了32GB(在Memory RAID 1下,就是16GB),面向相对低端的服务器市场,而最高端的5000X应该是5000系列中最强的芯片组型号,不仅仅是因为具有一条可以拆分为4个PCI-E x4的PCI-E x16插槽用于连接高带宽的显卡,还因为它配备了特有的Snoop Filter探听过滤器功能,可以大大提升多总线、多执行核心环境的性能表现。

探听过滤器是位于芯片组中的高速缓存标记结构,它可追踪处理器中的高速缓存的高速缓存线状态——只是包括其标签和状态,不包括数据,过滤不必要的探听,帮助多个处理器核心更好的协作,以提升多路处理器系统的工作效率。最早是IBM将Snoop filter功能引入到其X3芯片组中,随后英特尔Blackford芯片组中也引入了该功能。5000X芯片内总共具有16MB的Snoop Filter缓存。Stoakley平台——基于Seaburg芯片组将能提供达24MB的Snoop Filter缓存。
除了强大的FSB带宽和内存带宽之外,5000P还配备了强大的I/O能力,包括两个可重配置的PCI-E x8界面和一个ESI南北桥界面。ESI是Enterprise Southbridge Interface的意思,从各方面看都和桌面芯片组的DMI总线差不多,都是2GB/s的双向链接带宽,内部都一样基于PCI-E技术(加入了一些新的指令),不同的地方在于,ESI总线可以并入最多两个PCI-E x4总线用来扩展带宽,5000P的PCI-E x8分开配置的两条PCI-E x4界面刚好符合要求,这样ESI总线最多可以提供6GB/s的南北桥带宽,目前来看已经足够支持外部设备了。当然外部设备不通过南桥直接用PCI-E和5000P连接也可以。
Stoakley平台由45nm Harpertown处理器和5400芯片组组成
新的Stoakley平台——基于Intel 5400芯片组——可支持现有的65nm制程的Xeon 5100和Xeon 5300处理器,最主要地支持45nm、High-k制程双核/四核处理器。
新平台的MCH芯片代号为Seaburg,型号为5400,它依然采用了DIB前端总线,工作模式为1066/1333/1600MT/s,可提供17-25.6GB/s的数据传输带宽——这也意味着未来的45nm双核或者四核Xeon处理器的FSB将会达到1600MHz。为了保证双路四核系统的效能,Seaburg整合了容量高达24MB的Snoop Filter(探听过滤器)。
在以前的5000X芯片组上,我们就已经看到了Snoop Filter的存在,现在Seaburg将5000X的16MB容量扩展的更大。探听过滤器是位于芯片组中的高速缓存标记结构,它可追踪处理器中的高速缓存的高速缓存线状态——只是包括其标签和状态,不包括数据,过滤不必要的探听,帮助多个处理器核心更好的协作,以提升多路处理器系统的工作效率。
Seaburg整合了4通道FB-DIMM 533/667MHz内存控制器,最高可提供21GB/s的内存带宽。当然,我们不排除细分市场的需要,会有双通道版本的Seaburg。Seaburg所整合的内存控制器最高寻址范围为38bit(128GB),是上一代MCH的一倍。
Seabury MCH依然通过ESI总线同631x ESB/632x ESB I/O Controller Hub通讯。Intel ESB芯片的开发进度似乎很缓慢,我们分析这应该是同PCIe总线应用越来越多有关,大部分的高吞吐量设备都可通过PCIe总线同MCH通讯,ESB更多的是保持对于传统设备和低速设备的支持。
Seaburg提供了44条PCIe x1(PCIe 1.x)通道,相比Blackford多出了12条,而且这些PCIe通道均可灵活配置,因此可充分满足连接多个高速设备的需求。Seaburg还提供了两条PCIe x16(PCIe 2.0)通道,可用于支持显卡等设备。
Stoakley平台还能提供2个千兆以太网端口和1个万兆以太网端口,此外可利用Intel IOP 348处理器实现对于SAS/SATA 3Gb/s设备的支持。
根据IDC六月份终端用户调查报告显示,2007新购买的x86服务器中有40%被用于了虚拟化应用,还预计今年部署了虚拟化应用的服务器会占所有服务器数量的10%,到2010年的时候可能会接近20%,虚拟化市场已经开始成熟。Intel自然也不会放过这个市场。Intel认为具有卓越的性能、高度的可靠性平台将会有助于推动虚拟化应用的进一步普及,现在,新的45nm处理器搭载了多种虚拟化方面的增强技术。
![]() |
从VT-x/VT-i到VT-d,再到I/O AT/VMDq
Intel将其虚拟化战略分为三步走。用于X86架构的VT-x和用于安腾架构的VT-i都是基于CPU的虚拟化技术,它们都是在CPU中增加了专门的硬件辅助电路,帮助提升虚拟化的效率。VT-d虚拟化技术则着眼于整个平台,芯片组和相关的I/O设备也加入了进来。第三步则是在I/O层面上的虚拟化,I/OAT2技术已经初步的实现了部分功能。
![]() |
在Intel没有推出虚拟化技术之前,所有虚拟机VM的各种请求(比如逻辑处理器、逻辑I/O设备)都需要经过VMM软件的转换和维护,这个过程是纯软件的过程,因此占用系统资源高,效率低下。更要命的是,所有的内存存取都经过VMM控制会有安全隐患,产生错误的几率也会增加,影响了虚拟化的隔离性和可靠性。
![]() |
在VT-x技术中增加了两个全新的执行模式VMX Root模式(用于VMM)和No-Root模式(用于Guest OS),这样可以让虚拟机上的操作系统直接运行在Ring 0上。此外还增加了VM Entry和VM Exit两种转换模式。VM Entry进程包括从VMM向Guest传输指令或者数据,进入到Non-Root模式,从VMCS载入Guest状态和VM Exit条件。VM Exit进程包括从Guest向VMM传输指令或者数据,进入到Root模式,在VMCS保存Guest状态并且重新载入Guest状态。这些功能的实现主要借助基于硬件的VMCS(VM Control Structure)来实现。

在上一代的VT-x技术基础上,45nm Penryn的虚拟化性能也获得了持续的改进:VM Exit/VM Entry性能获得了25%~75%的提升,在虚拟化应用中,虚拟机切换是很频繁的,VM Exit/VM Enry的执行也就很是频繁,这方面的改进可以明显地改进虚拟机(特别是多虚拟机)下的性能。

VT-d则是在平台层面上实现了I/O虚拟化(主要体现在整合于芯片组内的专用电路),它定义了一个用于DMA重映射的架构,可直接将I/O设备分配给未经修改的VMs或者半虚拟化VMs。不仅Stoakley平台会支持VT-d,未来更多的Intel服务器平台都会支持这些功能。关于VT-d的更详细的解析,可以参看:从VT-x到VT-d Intel虚拟化技术发展蓝图。
I/OAT2平台级I/O优化方案
随着新45nm处理器的升级,Intel也计划全面升级Xeon DP和Xeon MP服务器平台,无论是定位于嵌入式应用的Cranberry Lake平台、还是定位于主流双路处理器的Stoakley平台、或者是定位于多路处理器的Caneland平台,都将会支持新一代的I/OAT2技术(代号Crystal Beach2),I/OAT技术是和虚拟化技术紧密相关的。
I/OAT2有两个主要的设计目的,第一个是进一步增强数据中心网络I/O能力,第二个继续保持Intel I/OAT的无状态架构优势。同样,I/OAT2依然是一个平台级的I/O优化方案,涉及到了CPU、芯片组、网卡控制器、等多个方面。

第一代的I/OAT通过增强软件接口、软件预取到CPU、优化数据流等措施,实现对于TCP协议栈的优化处理。新一代的I/OAT2利用DCA(Direct Cache Access,直接高级缓存访问)技术,进一步降低频繁存取内存对系统性能所造成的负面影响。I/OAT2通过芯片组支持QuickData技术,该技术通过直接将网络数据放入内存中无需处理器参与,从而加速了标准网络数据的传送过程。Intel在此基础上增加了DCA和MSI-X等功能,以提升数据传输和复制的效率。
支持IOAT2的网卡控制器不仅支持无状态卸载,TCP分配&效验和卸载,优化多队列&数据流,分离头部/有效负载等功能,还通过增加对于DCA、MSI-X、中断快速响应、头部分离/复制等功能的支持,提升IO效能。

可以看到DCA和MSI-X两个功能是此次IOAT2所带来的主要改进。DCA(Direct Cache Access,直接高级缓存访问)基本工作原理是使得CPU高速缓存中的数据可以被网络控制器优先访问,一方面充分利用缓存中的数据,另外一个方面利用高速缓存低延迟的特性,来避免CPU频繁的访问内存,降低系统开销。DCA有两种基本的工作模式,当处理小型I/O任务的时候,甚至不需要芯片组中QuickData引擎的参与,只有当处理大型I/O任务的时候才需要。
MSI-X(Extended Message Signaled Interrupts,扩展消息信号中断)是MSI(消息信号中断)的增强版本,是PCIe 1.1规范中增加的新特性,可以将PCIe总线中的数据封包进行更灵活的分割,满足不同应用的需求。在I/OAT2中结合了直接内存访问、选择性中断行为的流量区别等功能,提供了更快的中断速度。
I/OAT2还支持头部分离/复制这一新特性。头部分离是TCP/IP协议处理过程中一个必不可少的过程,I/OAT2将来自数据/有效负载的TCP、IP头部放入不同的内存缓冲中。头部复制动作则是将头部进行拷贝并放置于不同的缓冲中,然后将整个数据包放入另一个缓冲中。头部复制可用于处理更长的头部。

在服务器虚拟化应用中,由于多个VMs共享一个网口,会由于VMM软件的开销影响而导致I/O性能损失非常的大。支持I/OAT2的平台会在平台和网卡硬件上都进行相应的改进,可提供更高效的网络数据传输,比如VM、VMM网络协议栈处理效率均可受益,该技术还可以加速数据从网络NIC硬件队列到虚拟NIC的移动。此外还利用了VMDq(NIC使用多硬件队列给VMM软交换机加速)来提升虚拟化应用的效能。
VMDq通过排序和分类封包来提升虚拟机应用中共享网卡的效率。如上图所示,在发送数据的时候,实行轮叫发送队列服务,确保公平发送,防止出现线头阻塞(Head-of-line blocking, HOL)现象。在接收数据的时候,VMDq部分将属于不同VMs的封包分类,然后由VMM成组的发送到VM,从而减少VMM交换机代码执行的次数,以获得较高的效率。
经过了1年多的推广,I/OAT技术已经得到了业界广泛的支持,比如MS Server 2003 SNP、Linux Kernel 2.6.18、SuSE Enterprise Linux Server 10、Redhat Enterprise Linux 5.0都已经支持I/OAT技术,VMWare也计划在下半年推出的VMWare ESX Server 3.5中增加对这一功能的支持。
| 功能 | IOAT1(Bensley) | IOAT2(Stoakley/Caneland) | IOAT3(Next Gen Platform) |
| Intel QuickData Tech(Data Movement engine)BW | 2GB/s | 2GB/s | 4GB/s |
| DMA通道数量 | 4 | 4 | 8 |
| LAN stateless offloads (Header/data split, Receive Side Scaling, TX/RX checksums, TCP segmentation) | 支持 | 支持 | 支持 |
| Message Signaled Interrupts | MSI | MSI-X | MSI-X |
| Direct Cache Access | 支持 | 支持 | |
| Low Latency Interrupt | 支持 | 支持 | |
| Optimized Header-Splitting / Replication | 支持 | 支持 | |
| Multi-VM Direct Assignment of Data Movement Engine | 支持 | ||
| Required LAN Si | IOAT1 | IOAT2 | IOAT3 |
| Gilgal Dual GbE PHY | 支持 | ||
| Zoar Dual GbE MAC/PHY | 支持 | 支持 | 支持 |
| Kawela(Adoram) Dual GbE MAC/PHY | 支持 | 支持 | 支持 |
| Oplin Dual 10 GbE MAC | 支持 | 支持 | 支持 |
| Niantic(Hadar) Dual 10 GbE MAC | 支持 | 支持 | 支持 w/RSC |
从VT-x到VT-d,再配合I/OAT2,45nm服务器平台提供了完善的虚拟化能力和IO能力,这些都可以实质性地提升最终产品的能力。

我们收到的浪潮英信NF290D是45nm服务器平台的先行者之一,浪潮英信NF290D采用了2U规格设计,在扩展度、价格、密度方面达到了很好的平衡。在浪潮290D的前面板上,必须的开关、指示灯之外,具备了6个热插拔3.5"硬盘槽位置,可以插入SAS 3Gbps硬盘或者SATA 3Gbps硬盘。我们测试的配置安装了4个Seagate Cheetah 15K.5 ST314655SS硬盘,可以提供强大的磁盘IO能力。
浪潮英信NF290D前面板还提供了一个USB 2.0端口,以用于移动存储等。
此次推出的浪潮英信NF290D双路四核至强服务器,基于全新的Intel 45nm High-K Harpertown处理器设计,全新的制程可以以较低的功耗的同时提供更强的性能,从而最终提升计算密度、降低成本。
2个USB接口、后置VGA接口、后置9针公串口、集成双千兆网卡,这些为服务器的前后两方位维护提供了更多的选择。浪潮290D板位置之下是1+1的热插拔冗余电源,这一设计同样切合服务器关键应用持续与稳定的电力支持需求。

浪潮在NF290D的内部系统设计上,处处体现出优化风道、方便维护的理念。
在机箱的中央部分,是3个主风道风扇,它为整个机箱的散热风道提供了最主要的动力。这些风扇的最右边还预留了一个风扇的位置。
采用了SAS技术,因此存储设备的布线也变得简单了,风道也更为理想。
我们收到的配置上,浪潮NF290D配备的时ETASIS的双电550W电源,1+1 冗余配置,可以对2U的服务器提供充足的动力。
留意处理器散热风道:通过一个特别设计的金属盖,浪潮英信NF290D服务器在2U箱体的中央部分建立了一个包括了双路Xeon DP处理器、北桥、内存,以及PWM供电模块在内的散热通道,其动力由两个强力的机箱风扇提供,因此CPU散热器本身就可以去掉了风扇。
作为45nm服务器平台的先行者,浪潮英信NF290D没有采用最新的Intel 5400 Stoakley平台,而是采用了经济的Intel 5000V芯片组,这可以加快推出市场的速度,降低成本,这也可以看出NF290D服务器的定位:以合适的价格提供强大的计算能力。

和Intel 5000P相比,5000V芯片组在北桥的内存支持方面以及IO扩展能力方面有所不如:从4个FBD通道降低到2个,一方面降低了最大内存支持数量,一方面降低了内存带宽,这部分地影响到了性能。
Intel Harptertown Xeon DP处理器
散热管铜底散热器
浪潮NF290D的CPU散热器采用了热管设计,在测试当中可以保持CPU在较低的温度之下。这也和采用的45nm处理器制程相关:功耗、发热量都降低了。
图上方就是两个采用了45nm High-K工艺的Intel Xeon DP E5440处理器了,主频为2.83MHz,具备了2 X 6MB二级缓存,前端总线频率达到了1333MHz,并且两个Xeon DP具有独立的前端总线,再配合增强的内部微架构和革命性的SSE4指令集,浪潮英信NF290D的性能值得期待。
在前面的图片中,同样是LGA 771的处理器,正面上看65nm Clovertown和45nm Harptertown没有什么区别,背面就不同了,如上图,背面电容的分布具有了一些差别,可以让我们方便地区分:上者是新Harptertown,下者是老Clovertown。
浪潮英信NF290D采用了简化版本的Intel 5000V芯片组,只提供了6条内存插槽。我们测试的配置为4条Ramaxel 1GB FBD-DIMM内存,规格为PC2-5300F-555。4GB的系统内存容量并不算多,浪潮英信NF290D最多可以扩充到16GB内存。

5000V芯片组的IO扩展能力也略不如5000P,不过在大部分的情况下,这不是什么问题。
浪潮英信NF290D提供了两个PCI Express插槽、两个PCI-X插槽和一个PCI插槽,其中PCI Express插槽分为一条PCI-E x8和一条PCI-E x4,其中x8插槽由Intel 5000V提供,x4(以及PCI-X)由ES6321ESB南桥提供,我们认为浪潮英信NF290D的阵列卡插在PCI-E x8插槽上更好,因为这样它可以避免和南桥的网卡等设备抢夺南北桥之间的ESI带宽,还可以与同样连接在北桥上的内存、CPU作最直接、快速的交流。
ES6321ESB南桥提供了两个PCI-E x4插槽和PCI-X 133MHz插槽,浪潮NF290D利用这些PCI-E x4界面实现了x8 SAS功能。实际上,浪潮NF290D在主板上就已经通过LSISAS1068芯片提供了x8 SAS界面,并且通过ZCR可以扩展到阵列功能,然而通常ZCR的性能通常逊于真正的阵列卡,因此浪潮NF290D仍然采用了一块独立的SAS RAID卡。
这8个SAS端口由板载LSISAS1068芯片提供,当然,它们也能兼容SATA设备。6321ESB南桥还能提供额外的4个SATA 3Gbps接口。
独立的LSI8308ELP SAS RAID阵列卡,可以提供RAID JBOD/0/1/0+1/5/6功能,具备了128MB的缓存,提供8个SAS端口,我们的SAS专题中对其进行过测试,我们对其性能表现很满意。这块卡采用了PCI-E x4界面。
通过Intel HY82563EB PHY芯片配合南桥提供了千兆网络能力
集成XGI Volari网卡
![]() | |
|
有任何购物问题请联系我们在线客服 |
本站所有个人信息将不会被泄漏给其他任何机构和个人 © 2001~2010 All rights reserved 本站logo和图片都已经申请保护,不经授权不得使用 |