服务器大讲堂|超A服务器开箱鉴赏系列之4U8GPU智能型选手
在益企研究院“超A服务器”开箱鉴赏系列第四集中,主角是4U的8 GPU服务器,今天狒哥将通过服务器大讲堂,继续解读超微(Supermicro)A+(APlus)服务器产品线的另一成员——还是4U8GPU,不同点主要来自于GPU,进而影响到服务器的整体形态。
前一集介绍的超微(Supermicro)A+ Server 4124GO-NART,支持8个SXM4外形规格的英伟达(NVIDIA)A100 GPU通过6个NVSwitch互联。
没错,视频中狒哥解读的这台AS -4124GS-TNR就是针对其他GPU产品的,支持各种PCIe显卡,这意味着不仅可以使用英伟达的推理卡、游戏卡,还可以选择AMD的GPU,譬如Instinct系列——我们知道,A+服务器都基于AMD EPYC家族CPU,如果配合AMD GPU,不知要甜出几个+号……
话说回来,双路AMD EPYC 7003/7002系列CPU确实是AS -4124GS-TNR服务器的核心,因为这种8卡GPU服务器需要大量的PCIe通道,而这恰恰是AMD EPYC 7003/7002系列CPU的长项:在双路配置下,最多能对外输出162个PCIe 4.0通道。所以,AS -4124GS-TNR可以提供多达10个PCIe 4.0 x16插槽,直连8个双宽、全高全长(FHFL)的PCIe 4.0 x16显卡之余,还可以留出一些PCIe通道给NVMe和高性能网卡。
这8个GPU每4个一组,分布非常对称:
插槽位置上,两组双宽PCIe x16槽位中间,夹着2个网络和存储等扩展用的槽位;PCIe扩展板下方大约1U的空间,是VGA、USB等管理端口、AIOM槽位,以及4个2000瓦钛金(Titanium)电源,转换效率96%以上,2+2冗余,满足10个用电大户的供电需求。
拓扑结构上,每组的4个PCIe 4.0 x16,各连1个AMD EPYC 7003/7002系列CPU,即所谓的Dual-Root模式,可以均衡负载,适合需要CPU大量参与计算的应用场景,GPU也能更快的读写内存数据,与AMD EPYC 7003/7002系列CPU核数众多的优点非常匹配。
因为还有余力支持RAID卡等PCIe设备,AS -4124GS-TNR前面板的下面2U留有多达24个2.5英寸热插拔盘位,其中4个可以是NVMe SSD,本地存储能力相当强大。
前面板部分的上面2U留作风道,8个92mm的重载风扇两两串列,每个转速高达11500 RPM,强劲气流吹向CPU的散热片和后面的GPU。
刚才已经提到,AMD EPYC 7003/7002系列CPU的PCIe通道足够多,直连这些GPU而不需要借助PCIe交换芯片,所以CPU和内存槽的后面主要是16个PCIe 4.0 x8 SlimSAS连接器(前面还有4个,共20个)和10个给GPU供电的12伏8针插座,并没有较大的芯片及其散热片,风道相当通畅。主板较短的另一个好处是整机非常紧凑,深度不到740mm,比很多2U通用型服务器还要短,机柜适应性极佳。
说到机柜和散热,很难不想到液冷。融科联创基于AS -4124GS-TNR推出的机架式液冷服务器RW4290-A3,由风液式CDU带走2个CPU和8个GPU产生的热量,有效控制核心发热部位温度,保证服务器稳定高效输出,运行噪音也比较小。前面板的液晶屏设计,更便于温度的监测和控制。
RW4290-A3凭借AS-4124GS-TNR的强劲性能,以及更高的液冷散热效率,帮助降低数据中心的PUE,也高度契合超微“We Keep IT Green”的低碳环保理念。
总体感觉,AS-4124GS-TNR服务器的最大优势就是“全能”:由于支持多个品牌和类型的GPU,基本上GPU能做的工作它都行,譬如超微列出的关键应用领域就包括人工智能和深度学习(AI/DL)、高性能计算(HPC)和分子动力学模拟、云游戏等不同方向。
“超A服务器”开箱鉴赏系列第五集就到这里,更多CPU、GPU等芯片与服务器的故事,欢迎大家留言点播。