中美开放整机柜服务器实践与演进
本文是OCP China Day 2022开放整机柜分论坛回顾的第三部分,正文提炼嘉宾的主要观点,建议关注“E企研究院”以观看演讲视频为主。
我们知道,OCP(Open Compute Project,开放计算项目)“原生”的机柜规范Open Rack的主要用户是Facebook(Meta),而BAT共同发起的天蝎整机柜项目(Project Scorpio)主要用户是百度。所以,天蝎整机柜和Open Rack的发展,可以在很大程度上代表中美(开放)整机柜服务器的现状。
天蝎5.0整机柜:中国开源整机柜技术创新与突破
百度资深系统工程师郑建武的分享分为四部分:
- 整机柜的发展历程;
- 整机柜的问题和挑战;
- 浸没液冷整机柜介绍;
- 未来架构思考。
天蝎整机柜与Open Rack基本同龄,从2012年的第一代到今年在探索试点的浸没,正好十年,经过了6个版本的迭代,主要介绍突出的三个阶段。
- 2012年的风冷整机柜,集中散热、集中供电,还有集中交付,算下来整体的TCO收益大概是5~15%;
- 2019年在做的冷板液冷整机柜,风液结合,目前看来有5%的收益;
- 今年在探索的浸没整机柜,全液冷,算下来长期收益在10%左右。
整机柜的问题和挑战分为三个维度:
- 政策:为实现“双碳”目标,数据中心要逐渐液冷化;环保政策,对液冷的部署提出新挑战。
- 芯片功耗:芯片堆核设计,功耗随之攀升;如CPU 350W(瓦)、GPU 500W,单节点功耗增加明显。
- 机柜密度:单柜12kW(千瓦)时,节点密度低,风冷对液冷收益变薄;提升单柜密度,24~36kW逐渐成为主流。
(天蝎)浸没液冷整机柜外尺寸为2500×1400×850(长宽高,单位mm),52U(单位SU,具体见《开放整机柜简史》一文介绍),21英寸节点,也兼容19英寸(通用)服务器。
布局上,集中供电的电源(PSU)和交换机放在中间。供电铜排(busbar)在机柜底部,为一体式(不分段),采用灵活的Clip而非硬锁连接。54伏供电,整机功率36千瓦,未来Eagle Stream(EGS,对应英特尔新一代CPU)可以扩展到60千瓦乃至72千瓦。双输入钛金(Titanium)电源进一步提高集中供电效率,但也兼容通过PDU配电的传统供电方式。
浸没式液冷的核心是冷却液的选择,天蝎5.0采用单相氟化液,化学特性友好,方便运维,国产化溶液可以降低成本。集中CDU主备配置,目前是一拖四,未来可能一拖八,集中换热又可实现单柜控制。
Clip取电和IO前运维的设计都很适合浸没式液冷环境,风冷和液冷节点采用一套设计,物料共用,自由切换。
浸没式液冷的管理采用机柜级的管理设计,可以进行远程的控制和报警。机柜监控管理单元模块(RMMU)与RMC互联,可以采集Tank里所有的信息,后期可以进行一些散热策略的管理。
思考:芯片的功耗一直往上走,PUE值要一直往下走,这是一个矛盾体,解决方案肯定是液冷。机柜级、节点级还是封装级?从机柜级的角度,风冷机柜的搬迁运维不是很方便,液冷倒是更适配机柜级的(交付和运维)。
ORv2到ORv3机架设计的演进
在Open Rack v1的基础上,Open Rack v2(ORv2)发展得相当成熟,其主要用户Facebook(Meta)也成长为百万台服务器量级的数据中心巨头。
正如《开放整机柜简史》中所指出的,在新的历史时期,Open Rack和天蝎整机柜都致力于回归松耦合,给用户提供更灵活的选择,包括更好的支持19英寸的“标准机”。
Open Rack v3(ORv3)在2019年浮出水面以来,经过几年的发展,逐步走向完善。Delta(台达)机构高级经理楊茗棠远程接入此次开放整机柜分论坛,介绍了ORv2到ORv3的几处细节变化。
作为一个以集中供电为核心的机柜规范,铜排(busbar)的变化显然是最需要关注的。与天蝎5.0类似,ORv3的铜排也改为一体式,并与电源框(Power Shelf)浮动连接。浮动连接使ORv3的电源框可以和服务器节点(IT Gear)一样灵活的布置在机柜的任意U位,而仅支持48V(ORv2还支持12V)供电也体现了必要的精简。
电源框和节点接到铜排上的连接器结构上类似,主要是尺寸和承载电流的大小有所区别。电源框的接触点可以承载360A电流,节点的官方规格是100A,但是安费诺(Amphenol)等公司已经能支持到150A电流。
ORv3机柜的侧板上,为固定(L型)导轨分别留出了OU(48mm)和RU(44.45mm)体系的安装孔位。因为电源框的左右两侧要给交流电输入留出位置,所以其配套的导轨要短一些,采购的时候需要留意一下。
运维的友好度得到改善,更易于使用。在机柜的底部,采用新设计的双轮脚轮,只需要把机柜(略微)抬起,就可以借助六角扳手从上方拆下,而不必把机柜放平(拧底部的螺丝)。调平器(leveler)也采用了快拆结构的设计。
在机柜顶部的出线口增加了塑料保护罩,避免线材在拉拽时划破线皮。左右两侧模块化的理线架也可以拆下来,更换为用户自己想要的样式。
最后是对液冷的支持。ORv3机柜后端两侧预留了悬挂分水器(Manifold,集水分歧管)的位置,支持手动的快拆接头和盲插接头。还有后门换热器(Rear Door HEX)的安装,总之是为冷板式液冷(风液混合)方案做了充分的优化。
Meta的ORv3产品产品规范,包括机柜本体、电源框、BBU等,预计在年底之前陆续定稿。
下篇将回顾本次开放整机柜分论坛最后的圆桌讨论部分,敬请期待!