《考察报告》连载十|“中国特色”的服务器形态与技术生态

2018 年诺贝尔经济学奖获得者 William D. Nordhaus 在《计算过程》一文中对算力进行定义:“算力是设备根据内部状态的改变,每秒可处理的信息数据量”。算力是设备处理数据的能力,算力基础设施的使用效率,都会影响到云服务商的创新能力和盈利能力。作为算力基础设施的核心设备,服务器承担着计算的关键作用。

从全球来看,Synergy Research 的数据显示,2021 年全球在数据中心 IT 硬件和软件上的支出比 2020 年增长了 10%,其中,公有云服务商云基础设施支出(含服务器、存储、网络、安全、软件)增长了 20%。云服务商继续对其数据中心进行大量投资, 以满足客户需求。

从国际数据公司(IDC)发布的《2021年第四季度中国服务器市场追踪报告》来看,2021 年第四季度中国 x86 服务器市场收入规模为 456.63 亿元,出货量 114.4 万台,同比增长 4.4%;2021 年全年中国 x86 服务器市场出货量同比增长 6.9%,收入同比增长 10.5%;美国、中国分别占全球市场的 37%、33%。

疫情爆发间接推动了中国服务器市场的增长(图表来源:IDC)

尤其是新冠疫情引发线上需求爆炸式增长,云服务商的服务器采购需求继续增大,从 IDC 的数据中可以看出,互联网公司依然是 2021 中国服务器市场增长的主要驱动力,排名前五的互联网公司阿里巴巴、腾讯、字节跳动、快手、百度占据了互联网市场 70% 以上的份额。

当 5G、云计算、人工智能、工业互联网等场景渐次成熟,上层应用场景改变了底层硬件基础,计算、存储、网络架构的迭代升级和调整融合,对服务器产品的形态提出了更高的要求,比如提升计算密度,通过高速互联技术提升集群的扩展性,通过高度集成化设计、模块化和冗余设计简化交付部署流程。

1、多样化场景化需求催生了“服务器定制化”,云服务商通过自研服务器丰富产品矩阵,覆盖通用计算、异构计算、存储,为云上业务提供高效算力。

一方面,在数字化不断涌现的新场景中,定制化服务器可以使服务器特性与业务需求更加匹配,可以通过高计算密度提供高算力和能效比,也能针对应用环境优化为用户节约成本,譬如定制版本的处理器可以选择独特的主频与内核数量组合,在内核数量相当时获得更高的主频;另一方面,从新冠疫情爆发以来,云服务商不仅能够快速响应,其规模化、定制化和自研能力也可以支撑各项新型服务,及时满足客户需求。因此,云服务商以自研服务器为抓手,将新的技术应用于云服务器来适配云端业务场景,通过完善从底层到应用层的自研技术体系,不断优化硬件基础设施提升算力效率。

2、2021 年,从传统的 PC 到服务器,从芯到云,信创产业化进程正在加速,安全和计算正在深度融合。

在 “数字中国万里行”的实地考察中我们发现,信创服务器作为产业数字化的底层技术基础设施,未来需求空间正全面打开。比如中国电子信创云基地主要服务于党政、央企和金融客户的数字化转 型,“数字大理”、天津西青已全面开启全国产化、全信创基座的数字化转型之路。

在云南大理苍洱云数据中心,以 PKS 技术体系为基础,部署的长城擎天 DF723 服务器均为“大理造、大理用”,基于 Arm 架构,采用国产化中文 BIOS 固件和操作系统,核心多、存储容量大,支持批量部署、集群管理。

3、在国家提出“双碳”战略后,低碳高效成为共识。根据应用场景和工作负载的不同,选择适合的算力单元(如 CPU 和 GPU)可以提高数据中心的能源使用效率,而算力需求更快速地增长也提高了机柜的功率密度,液冷技术将在未来几年中获得更多数据中心的青睐。

2022 年全面启动的“东数西算”工程则在全国范围内优化算力的布局,通过建设高效集约、普适普惠的新型基础设施,推动计算力的绿色化和均衡发展。

2U与1U

在这几年来“数字中国万里行”的实地考察过程中,不难发现,2 路 2U 仍是国内服务器市场上的主流规格。IDC 的服务器市场追踪报告也可以证实这一点,按出货量统计:

  • 2018 ~ 2021 年,2 插槽(双路)服务器占比一直在 88% 上下;
  • 同期,机架式服务器的占比从 80%+ 上升到 90%+,其中 2U 规格又稳定在 70% 左右的高位。

双路服务器更受欢迎这一点在算力篇已经提过,背后的一些原因 2U 也适用。但是,另一个大市场却并非如此——在美国,1U 与 2U 的出货量很接近,有时还能略占上风。

相对中国市场,1U 在美国市场上更受欢迎;相对美国市场,中国市场上 2U 更受欢迎。这个差异涉及的因素比较多,此处重点从国内数据中心的基本情况与 2U 服务器的特点展开。

1.计算密度

同样是双路配置, 1U 服务器的计算密度可以达到 2U 服务器的 2 倍。但是,放大到整个机柜乃至数据中心的层面,1U 服务器能不能体现出计算密度上的优势,还要看单机柜的供电能力(单柜功率)。

在这样的机柜里,1U 服务器其实体现不出密度上的优势

普遍而言,在我国的超大规模数据数据中心里,单柜功率 7.2 ~ 8.8 千瓦(kW)已经是比较高的水平。以近年 2U 双路服务器的平均负载,这个供电能力可以支持 16 ~ 22 台。大型互联网和云计算公司偏好更高大些的机柜,譬如 2021 年数字中国万里行考察过的腾讯云怀来瑞北数据中心使用 52U 机柜,UCloud(优刻得)乌兰察布云基地使 用 47U 和 54U 的机柜,算上留给交换机的空间,也足以容纳下这么多 2U 服务器了,改用 1U 服务器并不能真正的提高密度,反而会增大服务器自身散热设计上的挑战。

2.通用性

通用服务器的典型布局,可以从前到后划分为三大功能区域,依次是存储、CPU 和内存、扩展和 I/O。作为维持服务器正常运转的基础,系统散热风扇位于存储区和 CPU 区之间,电源通常在 I/O 区的一边或两边。

在没有每 U 计算密度压力的前提下,2U 服务器在上述几个部分,比 1U 服务器有明显的优势,有时还不止两倍那么简单:

  • 前面板区:2U 服务器可以插 25 个(常见 24 个)2.5 英寸小盘(SFF)或 12 个 3.5 英寸大盘(LFF),1U 服务器分别为 10 个或 4 个,即 2.5 ~ 3 倍的关系;
  • 风扇:2U 服务器通常配 4 个 80mm 或 6 个 60mm 风扇,直径明显比 1U 服务器用的 40mm 风扇大得多,可以用相对低的转速提供更大的风量,能效上有优势;
  • CPU:可以使用更为高大的散热片,在风冷环境中能支持更大功率的 CPU;
  • 扩展和 I/O:具有更多的 PCIe 插槽,能够较好地支持 GPU……

计算、存储、网络全能,一言以蔽之,2U 服务器的通用性和扩展能力,比 1U 服务器好很多。

自研与信创

多样化、场景化需求促进了服务器定制化,在各种特定的场景中,通用服务器 的面面俱到反而成为制约因素,而定制服务器可以根据明确的应用需求针对性 强化一两个方面,通过合理的取舍,优化“长板”,弱化甚至去掉不需要的“木 板”,在提升目标效率的同时,降低不必要的成本。

2020 年春节过后, 面对疫情期间的线上复工复学潮,腾讯会议在 8 天内实现 100 万核的快速扩容,服务器资源全部由腾讯云星星海 SA2 云服务器提供支撑,迅速捧红了腾讯云深度自研的“星星海” 服务器。

腾讯云星星海 AMD 通用 2 路服务器,注意前仓没有布置硬盘位

基于 AMD 第二代 EPYC 处理器的星星海 SA2 是腾讯云首款拥有完全自主知识产权的服务器,也是“腾讯第一款真正为云而生的服务器”。SA2 是腾讯自研服务器品牌星星海的第一款产品(AMD 通用 2 路),该品牌随后又推出了英特尔 4 路和 2 路(两种不同架构的第三代至强可扩展处理器)服务器、异构计算服务器、高密存储等产品,并在持续壮大中。

这款 AMD 平台的通用 2 路服务器,充分展现了 2U 服务器在散热设计上的优势。它采用了 T 型热管散热器,即利用热管扩大 CPU 散热片的总面积,CPU 正上方的主散热片通过热管连接到前方(冷通道方向)并列布置的两个较小的远程散热片(remote heatsink)上,3 个散热片和热管构成 T 型布局,也称“羊角”散热片。2U 服务器的 CPU 散热片本就高大,再经热管扩容,散热能力进一步提高,配合 6 个 6056 高效率风扇和系统风道管理,可以满足 2000 瓦系统散热需求,能支持 2 个 300 瓦(W)TDP 的 CPU。

根据腾讯的数据,T 型热管散热器方案,可使 CPU 温度降低 8℃,风扇节能 50% 以上。星星海服务器在重载下测试,风扇功耗降低 40 瓦以上,系统功耗占比低至 2.14%。再配合高效率的 80 PLUS 铂金(Platinum)供电单元(PSU)等节能手段,“以 500 台集群为例,星星海服务器每年可节电 50 万度”。

随着 AMD 第三代 EPYC 处理器的发布,腾讯云推出全新一代星星海自研服务器,除了支持新 CPU 带来的新特性之外,风冷散热能力也提升 22%,并兼容液冷设计,“能够将碳排放降低 8%”。

倚天 710 双路 1U 服务器

Arm 方面,阿里云在 2021 杭州·云栖大会上展出了搭载倚天 710 处理器的磐久服务器,为 1U 双路规格。而在 Arm 服务器 CPU 供应商 Ampere Computing(安晟培半导体)的官网上,可以看到富士康(Foxconn)、技嘉(GigaByte)、超微(Supermicro)、纬颖(Wiwynn)和浪潮(Inspur)的多款服务器平台,2U 的数量大约是 1U 的两倍,其中纬颖的 Mt. Jade 贡献给了开放计算项目(Open Compute Project,OCP)。总的来说,这些服务器有两个特点:一个是可以同时支持 80 核的 Altra 系列和 128 核的 Altra Max 系列;一个是单路的型号比例较大,原因在算力篇已有介绍。

云南大理苍洱云的数据中心,部署了很多基于飞腾 CPU 的长城服务器,中国长城甚至在大理下关机场附近开设了服务器生产线。中国长城的 2U 双路服务器擎天 EF860 基于国产飞腾腾云 S2500 处理器,采用国产中文固件和操作系统,最高 128 核,32 个 DDR4-2933 内存槽,最大系统内存容量 2TB。EF860 的后部 I/O 扩展模块化设计颇具亮点,最多支持 9 个标 准 PCIe 3.0 设 备,可容纳 2 个全宽全高 GPU 卡,2 个 OCP 3.0 插槽用于安装 10G/25G OCP 网卡模块。

上一篇
下一篇