报告连载 | Arm 新升:NVIDIA Grace 与 AmpereOne
最近,业界首个以算网融合为核心的多元算力研究报告《算力经济时代·2023新型算力中心调研报告》出版,我们将对报告内容开启连载模式。
结合算力经济时代的算力基础设施发展,第二章主要探讨了以下话题:
☞ 多元算力:CPU + GPU
☞ 摩尔谢幕,Chiplet 当道
☞ Chiplet 与芯片布局
☞ Arm 新升:NVIDIA Grace 与 AmpereOne
☞网格架构的两类 Chiplet
Arm在过去十年中一直期望能够在服务器市场获得一席之地。亚马逊、高通、华为等企业都推出了基于Arm 指令集的服务器 CPU。而且,随着异构计算的兴起,Arm 在高性能计算、AI/ML算力基础设施中的影响力正在扩大——或许,随着Neoverse V2 推出和英伟达加入战团,Arm 在服务器 CPU 领域有望从一个参与者变为领先者。
早在2021年,英伟达就对外介绍了基于 Arm Neoverse 架构的数据中心专属CPU —— NVIDIA Grace,拥有72个核心。Grace CPU超级芯片(Superchip) 则由两个Grace芯片组成,它们之间通过NVLink-C2C(Chip-2-Chip) 连接在一起,可以在单插座内提供144个核心,以及1TB LPDDR5X 内存。除了双 CPU 的组合,在GTC2022上,NVIDIA还宣称 Grace可以通过NVLink-C2C与Hopper GPU连接,组成Grace Hopper 超级芯片。
NVIDIA Grace 是基于ArmNeoverse V2 IP的第一款重磅产品。目前还没看到 NVIDIA Grace 晶体管规模的相关资料,不妨先参照两位“前辈”的数据。据推测基于Arm Neoverse V1 的 AWS Graviton 3是550亿晶体管,对应64核、8 通道DDR5内存;据推测基 Arm Neoverse N2的阿里云倚天710是600亿晶体管,对应128核、8 通道DDR5内存、96通道 PCIe 5.0。从 NVIDIA Grace Hopper 超级芯片的渲染图看,Grace 的芯片面积与 Hopper 近似,而已知后者为800亿晶体管,二者均基于台积电 N4制程节点。据此推测72核的 Grace 芯片的晶体管规模大于Graviton 3、倚天710 是合理的,也与 Grace 基于Neoverse V2(支持 Arm V9 指令集、SVE2)的情况相符。
Arm Neoverse V2 配套的互连方案是CMN-700,在NVIDIA Grace这里称作SCF(ScalableCoherency Fabric,可扩展一致性结构) 。英伟达宣称 Grace 的网格支持超过72个CPU核心的扩展—— 实际上,在英伟达白皮书的配图中可以数出来80个CPU 核心。每个核心1MB L2缓存,整个CPU有多达117MB L3 缓存(合 每个核心 1.625MB) ,明显高于其他同属“旗舰级”的 Arm 处理器。
△ NVIDIA Grace CPU 的网格布局
NVIDIA SCF在芯片内的设备(如CPU核心、内存控制器、NVLink等系统 I/O控制器)之间提供3.2 TB/s 的分段带宽。网格的节点称为CSN(Cache Switch Nodes, 缓存交换节点),每个CSN通常要连接2个核心及2个 SCC(SCF Cache partitions,SCF 缓存分区)。但从示意图来看,位于网格角落的4个CSN 连接的
是2个核心和1个SCC,而位于中部两侧4个CSN连接的是1个核心和2个 SCC。整体而言,Grace 的网格内应该有80个核心和76个SCC,其中8个核心应该是出于良率等因素而屏蔽。而网格外围“缺失”的4个核心和8个 SCC 对应的位置被用于连接NVLink、NVLink-C2C、PCIe、LPDDR5X 内存控制器等。
NVIDIA Grace支持Arm的许多管理特性,譬如服务器基础系统架构(SBSA) 、服务器基础启动要求(SBBR) 、内存分区与监控(MPAM)、性能监控单元(PMU)等。通过Arm的内存分区和监控(Memory Partitioning and Monitoring,MPAM)功能,可以解决CPU 访问缓存过程中因为共享资源的竞争导致的性能下降问题。高优先级的任务可以优先占用L3缓存, 或者根据虚拟机预先划分资源,实现业务之间的性能隔离。
△ NVIDIA Grace CPU 超级芯片
NVIDIA Grace作为已知的最新最强版本Arm架构核心(Neoverse V2)的实例,再加上其必将获得自家GPGPU的深厚实力加持,业界从一开始就给予了高度关注,期待其在超算、机器学习等领域的表现。在GTC2023上,人们终于看到了Grace的实物,其实际市场表现仍需要一段时间的等待。
△ GTC2023 演讲中展示的 Grace 超级芯片实物
作为Arm Neoverse V1的“后浪”,Neoverse V2的升级可以说是全方位的,包括基于Armv9-A 指令集、更高的性能和微架构能效,加上更多的核心数和更大的L3缓存,NVIDIA Grace CPU在Arm版图中高于 Graviton3,是可以预期的。
英伟达毕竟是Arm服务器CPU领域的新手,在这方面资深的Ampere Computing(安晟培半导体) 经过多代产品积累之后,在2023年5月中正式发布拥有192个单线程自研核的 AmpereOne 系列处理器,这个核心数量也创下了(主流)服务器CPU的新纪录。
AmpereOne采用台积电5nm制程,提供的Ampere(A1) 核数量覆盖136 ~ 192个的区间,每个核心配备2MB L2缓存,这一点与Neoverse V2(的上限)相当,达到Ampere Altra和Altra Max系列的两倍。系统级缓存(SLC)为64MB,分别是Altra和Altra Max系列的2~4倍,与AWS Graviton3持平。
其他如8通道DDR5内存和128个PCIe 5.0通道,都属于新一代服务器CPU 的正常水平。
由于每个核心相对不那么复杂,又采用了比较先进的制程,AmpereOne 系列的使用功耗在200 ~ 350瓦(W)之间,平均每核心不到2瓦。NVIDIA Grace CPU的功耗也不算高,超级芯片加上内存的TDP“才”500瓦,即单个(72 核的)Grace CPU在250瓦以内。
尽管从核心微架构到外部I/O都获得了全面的升级,但AmpereOne并没有 取代Altra和Altra Max系列的任务,Altra Max系列继续提供128核与96 核,Altra系列覆盖 80 核及以下的需求。我们认为,这种布局也与网格架构的特性有关,我们接下来讨论这个话题。(未完待续)