图解第五代英特尔至强可扩展处理器
四年五节点,一年出两代。在年初推出代号Sapphire Rapids(蓝宝石激流,SPR)的第四代英特尔至强可扩展处理器之后,仅隔11个月,代号Emerald Rapids(绿宝石激流,EMR)的第五代英特尔至强可扩展处理器,又向我们走来了。
然而业界并不慌乱,因为这两代Rapids共用Eagle Stream(EGS)平台,主板不用换,原则上只需要更新固件,为第四代英特尔至强可扩展处理器准备的服务器,就可以支持第五代英特尔至强可扩展处理器啦。
五代至强可扩展,我有一Die您上眼
这种一个平台服务两代CPU的事情比较常见,远一些的有22nm的英特尔至强(Xeon)E5 v3和14nm的E5 v4,最大核心数从18个提高到22个(E7可达24个),TDP维持在145/160W(工作站版)。
然后14nm就开始限制更名为至强可扩展(Xeon Scalable)处理器的至强系列CPU的继续扩展:从第一、二代至强可扩展处理器,到第三代中先面市的四至八路版本(代号Cooper Lake-SP),基本没超出单die(晶片)提供最多28个核心的范畴,说是原地踏步也不为过。
第五代英特尔至强可扩展处理器与第四代都采用Intel 7制程,即“四年五个制程节点”计划中的第一个制程节点。我们在英特尔公司的Jones Farm会议中心学习第五代英特尔至强可扩展处理器相关知识的时候,CEO帕特·基辛格(Pat Gelsinger)突然现身,为即将发布的新CPU站台。
大领导犯不上给一款疑似“摸鱼”的产品背书,与SPR相比,EMR有几处明显的改进,集中在XCC(eXtreme Core Count,最多核or极多核)版本上,体现了大英打磨Intel 7制程的成效。
英特尔首席执行官帕特·基辛格手举第五代英特尔至强可扩展处理器。注意大屏幕两侧分成左右两部分的EMR-XCC
第四代英特尔至强可扩展处理器开始采用业界流行的Chiplet(芯粒)技术,(XCC版本)由4片(tile)对等的die通过10个EMIB(Embedded Multi-Die Interconnect Bridge,嵌入式多芯片互连桥接)连为一体,提供最多60个核心、112.5MB末级缓存(Last Level Cache,LLC),即每核心1.875MB的L3 Cache。实际上,只有支持八路(8S)配置的至强铂金8490H达到60个核心,“主流”的最高核心数为56个。
英特尔公司副总裁、英特尔至强产品和解决方案事业部总经理 Lisa Spelman 展示第五代英特尔至强可扩展处理器
更简洁,更强大
相比之下,第五代英特尔至强可扩展处理器(XCC版本),die变少了,也变强了。
一方面,EMR-XCC把die的数量从SPR-XCC的4个减半为2个,仍然是互为镜像的方式,但只需要3个EMIB,可以大大简化封装环节的工作量。
左侧SPR-XCC的EMIB连接,有点过于抽象
从效果图来看,EMR-XCC的每个die上,核心/缓存复合体与DDR5内存控制器组成7×5的2D-Mesh网格,减去“腰部”两侧各占1格的DDR5控制器,理论上可以提供33个核心,2个die就是66个。第五代英特尔至强可扩展处理器最多提供64个核心,即每个die少启用1个核心,毕竟单die的核心数比上一代多了一倍多,“我全都要”对良率的挑战实在是有点大。
有舍有得,从目前公开的SKU来看,第五代英特尔至强可扩展处理器有3款64核心,与第四代英特尔至强可扩展处理器和至强CPU Max系列(前者的HBM版本)的60核加56核的数量持平。
另一方面,特别体现Intel 7优化功力的,当属EMR-XCC的L3 Cache(LLC)容量,从第四代英特尔至强可扩展处理器的1.875MB,暴涨至5MB,第五代英特尔至强可扩展处理器的最大LLC容量也来到320MB,都有接近三倍的提升。
内存:提频与扩展
内存子系统的升级贯穿第五代英特尔至强可扩展处理器全系,以缓解核心数增长带来的内存带宽压力(内存墙)。支持的DDR5内存最高频率从第四代英特尔至强可扩展处理器的4800MHz提高到5600MHz,幅度超过16%,略胜于核心数的增加;最低档也从4000MHz提高到4400MHz,即10%的幅度。
增加内存通道的数量是提高内存带宽的另一种手段,譬如采用Intel 3制程的下一代至强处理器将把每CPU的内存通道数扩充到12个。无论是当前的主板布局,还是从兼容第四代英特尔至强可扩展处理器的角度,都不允许第五代英特尔至强可扩展处理器这样做,但是呢,要变通,总能找到办法。我们知道,第四代英特尔至强可扩展处理器支持CXL(Computer Express Link)1.1规范的Type 1和Type 2设备,第五代英特尔至强可扩展处理器则加入了Type 3内存支持,允许单层或两层内存配置:
- 两层内存支持聚焦容量扩展,第一层(Tier 1)是内存控制器下辖的8个DDR内存通道,第二层(Tier 2)是跨2个CXL Type 3设备提供的4个CXL内存通道,应用场景如提高内存数据库(如Redis)的TPS;
- 单层内存支持就是把上面两层合并,提供12通道DDR + CXL交错传输,容量和带宽双丰收。
当然,构筑在PCIe 5.0之上的4个CXL内存通道,带宽比“货真价实”的4个DDR内存通道,相差得有一个数量级,更像凑数的。
I/O、互连,加速、节能
第五代英特尔至强可扩展处理器的PCIe 5.0通道数还是80个,这样主板也不用更改。但是XCC版本的die上留给PCIe控制器“浪费”的硅片面积似有减少,更趋近于MCC版本,代价是112个PCIe 5.0的至强W处理器可能不会有了。
EMR-XCC的四个角各有1个UPI和1组加速器,每个die上的UPI和2组加速器之间,是占据3个网格宽度的PCIe 5.0控制器,共6个
用于CPU之间互连的UPI 2.0,速率从第四代英特尔至强可扩展处理器的16GT/s提升到20GT/s,幅度达25%。但是,第五代英特尔至强可扩展处理器只支持双路(2S)互连,不支持四路(4S)或八路(上一代中后缀为H的SKU),带HBM内存的至强Max系列也暂时没有更新——虽然其高内存带宽在大语言模型(LLM)的推理场景很有价值。
从上述迹象来看,第五代英特尔至强可扩展处理器不会完全替代第四代英特尔至强可扩展处理器,两者会有相当程度的并存。
虽然最大核心数和LLC有不同程度的增长,第五代英特尔至强可扩展处理器标称的TDP(Thermal Design Power,热设计功率)仍把持在350W(瓦)这条线,只有一款液冷通用产品(8593Q)超出10%。根据英特尔提供的资料,第五代英特尔至强可扩展处理器在较低利用率(如30~40%)下的能耗得到优化,可以降低用户的供电和制冷成本。
需要注意的是,EMR最重大的提升——LLC容量,只限于XCC版本,核心数不超过32个的MCC(Medium Core Count,中等核数)版本,可能因为仍是单晶片(Single Monolithic Die)架构的缘故,看起来只做了微调,升级体现在核数、频率、TDP的小幅增加,或者DDR5内存频率上一两个台阶(以400MHz为单位)。
在不超过20个核心的领域,还有所谓EE LCC的SKU。LCC即Low Core Count(低核数),EE代表Edge Enhanced(边缘增强)。第四代英特尔至强可扩展处理器已低调推出过EE LCC和EE MCC的SKU,后缀以N或NE结尾,AMX(Advanced Matrix Extensions,高级矩阵扩展)支持并不普遍,标配加速器有DSA和专用的vRAN加速设备各一。
外围I/O配置上,这两代至强可扩展处理器在XCC和MCC上的规律应该还是相同的,譬如:XCC可以有4个UPI(分布在四角),MCC的UPI不超过3个。
第四代英特尔至强可扩展处理器的加速器,得到了继承
我们知道,第四代英特尔至强可扩展处理器引入了4种外挂的加速器,分别是:
- DSA:数据流加速器(Data Streaming Accelerator),优化流数据移动和转换操作;
- QAT:QuickAssist技术,用于加速加解密和数据压缩解压缩;
- DLB:动态负载均衡器(Dynamic Load Balancer),用于网络功能;
- IAA:存内分析加速器(In-Memory Analytics Accelerator),用于高级数据分析。
这4种外挂加速器,可以理解为集成在CPU上的PCIe加速卡。每个公开的SKU都至少开启1个DSA设备,通用(General Purpose)型SKU最后以 + 号结尾的有DSA、QAT、DLB和IAA设备各一。除最低端的3508U之外,都支持Intel On Demand技术以启用更多加速器,区别在于,XCC版本每种加速器都可以增至4个,MCC版本就只有QAT和DLB能增加到2个,DSA和IAA最多各1个。
在快进到具体SKU解读之前,最后重申一下基本规则,即SKU的第二位数字5代表第五代英特尔至强可扩展处理器,第一位数字代表所处等级:
- Platinum(铂金)→ 8;
- Gold(金)→ 6 和 5;
- Silver(银)→ 4;
- Bronze(铜)→ 3。
如前所述,第五代英特尔至强可扩展处理器最多支持双路,所以没有后缀为H的4S/8S版本,也没有9开头的HBM衍生版本(Xeon Max),目前公开的32个SKU分为8类,主要靠后缀识别。
只有4位数字,以及 Y 和/或 + 结尾的是通用型,占总数近六成,又细分为性能和主流两类。
(注:表中列出两代CPU的相关型号以便对比,第五代英特尔至强可扩展处理器及其参数突出显示,Long life一栏只显示第五代的情况)
2S性能通用
前一代在这个组的旗舰是(Platinum) 8480+,从SKU编号上看平替它的应该是8580,两者在发布时的建议价格(初始价格)完全相同,本组存在这种情况的还有8562Y+、6542Y、6544Y和6526Y。
8580的核心数比8480+多了4个,LLC容量接近三倍,DDR5内存频率高出800MHz,CPU运行频率基本相当,这种情况在XCC中很有代表性,8570和8568Y+甚至在运行频率上还小有优势。但是8580不带 +,意味着只有1个DSA开启,全面超越的任务由64核的8592+完成,其LLC容量甚至略超8480+的三倍。
从8562Y+向下,进入MCC区间,核心数和LLC容量基本与前代相当,优势主要体现在DDR5内存通道的频率上,6548Y+、6542Y、6526Y和5515+以TDP的小幅上升换取了更高的CPU运行频率。
2S主流通用
扛旗的8558核心数有48个不算少,但LLC容量掉到260MB,DDR5频率也非顶级。
32核的(Gold) 6530突然爆种,LLC容量达到160MB,接近6430的三倍,如果后者不是XCC的血统,真要怀疑60MB前面多写了个1。
本组其他选手都在MCC区间,6538Y+、6530和4510在初始定价上有“平替”前任的意思,还多了个8核的(Silver) 4509Y。
液冷通用(-Q)
8593Q可称真旗舰,基频与全核睿频都高于8592+,TDP也来到385W,反正有液冷加持。
6558Q在主要参数和初始定价上,都像奔着平替6458Q来的。
单路通用(-U)
8558U拉高本组上限,但在8558中算弱的,从CPU频率到内存频率,乃至TDP,都有所下降。
5512U的核心数、LLC容量和DDR5内存频率,都比5412U有所提升,TDP则持平。
(Bronze) 3508U在主要参数和初始定价上,也像奔着平替3408U来的。
5G/网络优化(-N)
8571N的LLC容量是本组核心数相同两款前辈的三倍还多,IAA也拉满,运行频率明显提高,而TDP并没有增长。
6538N与6438N初始定价相同,频率更高。
云优化 IaaS(-P)/ SaaS(-V)
8592V的基频比8592+略高,但UPI少1个,DDR5内存频率和TDP略低。
8558P与8458P初始定价相同,核心数和频率都提高了,最关键是LLC容量有三倍多,很有诱惑力的样子。
媒体专用(-M)的SKU在这一代消失了。
存储与超融合(HCI)优化(-S)
6554S与6454S都是QAT、DSA、DLB全开,初始定价相同,新品睿频更高,三倍的LLC容量,TDP不变。
长使用寿命(IoT)通用(-T)
为边缘应用优化,目前只有4510T一款产品。不过从上面的那些表格来看,有小一半的SKU具备“长寿”能力的样子。