OCP China Day 2022开放整机柜论坛全回顾
当地时间10月18日,2022 OCP全球峰会(2022 OCP Global Summit)在加州圣何塞召开。作为一个有票的人,考虑到回程的诸多挑战,我决定先忍到明年再看。
按照往年的经验,昨天凌晨我登录大会网站,想要看一眼直播。但……貌似今年没安排直播,还是我这个票必须现场激活一下?Anyway懒得深究了,老老实实洗洗睡也好,过几天踏实看回放吧,本周继续把OCP China Day 2022开放整机柜论坛的回放弄完。
不过,再怎么说,咱也是有基友的人,要看几张峰会现场照片,总是可以的。
看起来会场里空座位还有不少,该不是给我留的吧?罪过,罪过。
就我个人而言,展厅和面基是去峰会现场的最大动力。
向赞助商致敬。
嗐搁那儿“元宇宙”呢,头晕不?
u1s1,Meta(Facebook)对开放硬件生态的贡献,那还是相当大的。
咋脚着这么眼熟?
当然必须要感谢这位Open精神十足的帅哥,我愿称他为动力源陈思诚。
OK,让我们把时钟拨回上个季度……
8月10日,OCP China Day 2022在北京举行。来自益企研究院(E7Research)的张广彬,人称狒哥,也就是我,受OAI项目发起人Whitney Zhao和OCP中国社区负责人叶毓睿(Peter Ye)委托,负责下午开放整机柜论坛的开场和收尾工作——原本还有整场的主持,因为我临时被隔离在家,由叶大师代劳了,在此再次感谢。
OCP基金会负责新兴市场的副总裁Steve Helvie为大会致辞
先看一眼开放整机柜论坛的全部议程:
开放整机柜简史
张广彬,益企研究院
京东云天枢服务器的思考与实践
丁 煜,京东科技产品副总监
天蝎5.0整机柜:中国开源整机柜技术创新与突破
郑建武,百度资深系统工程师
ORv2到ORv3机架设计的演进
楊茗棠,Delta(台达)机构高级经理
圆桌讨论
主持人:张广彬(狒哥)
讨论嘉宾:
何永占,百度服务器研发经理
曾钦杵,腾讯星星海实验室研发总监
丁 煜,京东科技产品副总监
唐卫中,Meta技术工程师
张 斌,浪潮信息服务器产品线高级经理
开放整机柜简史
开放整机柜论坛的开场演讲是狒哥总结的《开放整机柜(服务器)简史》,分享和答疑加起来接近1小时,所以文字内容有较多删节,要了解全部内容请看上面演讲视频。
整机柜(服务器)的历史可以追溯到上个世纪,譬如Google在1999年“土法上马”的“软木板服务器”(corkboard server),可以说是互联网行业最早的整机柜服务器。我们的主题聚焦在“开放”,就要从2011年的Open Rack和天蝎整机柜讲起——十多年的发展不那么难梳理,我也有机会持续追踪,积累了不少一手材料。
不同于老婆饼、夫妻肺片,整机柜服务器是真的既有服务器、又有机柜,关键还“整”到了一起。而这个机柜呢,在数据中心里通常是基础设施与IT两个团队的分界线:机柜往外归(数据中心)基础设施的团队管,机柜里面的服务器、存储等IT设备归IT的团队管。整机柜服务器把机柜和服务器作为一个整体来考虑,因为在规模等因素驱动下相对更具备打破次元壁的条件,所以它在互联网和云计算的公司里得到较为广泛的应用。
“把机柜和服务器作为一个整体来考虑”,这个“整体性”也有程度之分。改动最小的是机柜、服务器仍保持各自的完整,但是在工厂预安装、配置好,整体交付,省去在数据中心现场上架的繁琐过程,可以极大地提高交付效率。
更进一步是把机柜和服务器作为一个整体来设计,最常见的是通过池化资源提高效率。可以把服务器的一部分功能转移给机柜,譬如把供电单元(PSU,即俗称的“电源”)、风扇集中到机柜上,这时整机柜服务器就不仅仅是一种交付方式了,而是一种产品形态。
从“互不干涉”的单纯交付方式,到“你中有我”的高度集成产品,我按照通用性和集成度(或许用“耦合度”来表示更好)这两个不能算对立的角度草绘了一条开放整机柜服务器的“光谱”,旨在帮助大家理解开放整机柜服务器的发展和演变逻辑。
开放整机柜服务器“光谱”
Open Rack规范的提出,和天蝎项目(Project Scorpio)的成立,都在2011年,基本上从2012年开始推出产品,很快就进行了迭代,即天蝎2.0和Open Rack v2(ORv2),到2014年微软也加入了OCP,带来开放云服务器(Open Cloud Server),简称OCS,也很快公开了第二版,所以2012~2014年可以认为是开放整机柜发展的第一个阶段。
2016年,LinkedIn推出Open19,同年LinkedIn被微软收购,但保持相对独立运作;这一年的晚些时候微软发布了Project Olympus,用来替代OCS,所以这一行都是微软系。LinkedIn并入微软似乎没有影响Open19的走向,先是也加入了OCP,去年还贡献给了Linux基金会。这算是第二个阶段。
现在处于第三阶段。Open Rack v3一直都在发展完善中,天蝎发展了3.0、4.0,一会儿还要介绍5.0,还有2019年京东云也介绍了他们的整机柜服务器JDCloud Rack。纵轴主要以用户来划分,最下面是微软,上面一行是Open Rack,主要的用户是Facebook(Meta),再上面的天蝎BAT发起的,百度一直在推动,最上面是京东,当然这个上下也没有高低之分,部分参照了时间顺序。
横轴靠左代表通用性更好,靠右代表集成度(耦合度)更高。以最右边的天蝎1.0为例:一方面,天蝎1.0把供电单元和风扇都整合到了机柜上,与(服务器)节点高度耦合;另一方面,虽然机柜还是(看起来通用的)19英寸,但是天蝎1.0推出的比较仓促,很多细节没有统一,不同供应商的产品之间通用性不佳。
天蝎2.0和Open Rack都把机柜的内宽拓展到21英寸,但是Open Rack只集成了供电单元,没有集成风扇。
微软系的三个都相对靠左,首先因为全都是19英寸。OCS和天蝎1.0一样集成了供电、散热和管理,但它是一个12U的Chassis(子机箱),类似于刀片服务器的设计,整体还能放到标准的19英寸机柜上,所以通用性要好一些。Open19看名字就很直白,只整合了供电和交换机的线缆。从OCS切换到Project Olympus的一个逻辑是,微软作为全球第二大的云计算公司,要考虑全球部署,标准的19英寸机柜具有更好的适用性,Project Olympus主要对供电的部分做了一些改进,更便于维护。
Open Rack v3(ORv3)和天蝎3.0、4.0都加入了对19英寸标准RU的服务器节点的支持,就是所谓的标准机,所以通用性好多了,而且天蝎3.0、4.0因为服务器条件的变化,在机柜上集成风扇也不是一个必选项。京东云的整机柜是19英寸,但是它也和天蝎3.0、4.0一样可以选集成供电或不集成供电,所以这两者的相对位置我认为还有待商榷。
整机柜服务器的供配电
池化的一大好处是提高利用率。原来每个服务器有两个电源,1+1配置,冗余度50%;整合到一起以后冗余度大大降低,可以N+R,譬如9+1,而且用的电源数量减少,就可以用更大功率的电源,这样的电源通常效率也更高,还可以省电,节能降碳。不管从减少电源的采购费用(CapEx),还是从提高用电效率(OpEx)的角度,理论上都是可以节省的。
从运维的角度,供电单元集中在机柜的正面,背面只有铜排(busbar),可以做前维护。微软的Project Olympus做了个折中:PSU仍然在各个服务器上,但是对PDU做了一些改变,还是从前面拔掉节点就可以断电了。
整机柜供电池化的实践主要看一下Open Rack和天蝎。Open Rack v1分三个供电区,每个供电区有自己的供电框,铜排之间不相连,每一个供电区又有三条独立的铜排,这主要与Facebook当时使用的(2U3)计算节点有关。ORv2开始只保留中间的一条铜排,而天蝎2.0开始铜排在机柜(正面视角)的后方靠左边,Open Rack 1.0的三条铜排也有一条靠左。据我所知,双方曾经探讨过,机柜内宽都是21英寸,干脆也把铜排的位置统一一下,但最后没能达成一致。既然如此,干脆Open Rack还是保留中间,天蝎在左边。所以两边的机柜不能完全通用,节点可能主板是能通用的,但配电部分因为与铜排的位置相关,也不能完全兼容。
另外两点分别是铜排电压从12V提高到48V,以及锂离子电池备电单元(BBU或BBS),具体可以看上面的演讲视频(包括最后的答疑环节),此处不展开。
风扇池化与节点形态
散热——具体说是风扇——的池化,有类似的逻辑。取消服务器节点内部的风扇,集中到机柜后方形成风扇墙,可以采用较大尺寸的风扇,一方面减少风扇的数量,另一方面大直径风扇可以用较低的转速来提供与小尺寸风扇同等的风量,能耗和效率都会更好。譬如1U服务器必须用40毫米的小风扇,摆一排,数量很多,效率不好。天蝎整机柜采用横截面尺寸140×140的风扇组成风扇墙,就不受这个限制,大量采用1U节点。Open Rack虽然没有整合风扇,但也想用尽可能大一点的风扇,所以早期的节点都是2U,其中计算是2U3节点,存储(JBDO)节点内部是两个1U的托盘,共享2U机箱的风扇,也是为了让风扇直径尽可能大一些。
这样我们就看到一个有趣的“倒挂”现象。益企研究院组织“数字中国万里行”考察的时候,可以看到国内的数据中心,哪怕是互联网的数据中心,只要不是整机柜,或者不是超算中心,机架上大部分都是2U服务器。在国内2U服务器的占比非常高,IDC的数据也表明,国内市场2U机架服务器和1U机架服务器的出货量比例大约是4:1,而在美国2U和1U服务器的出货量大约是一半一半。就通用机架服务器而言,2U在中国占压倒优势。
但是那些年的整机柜服务器正相反,国内的天蝎整机柜以1U节点为主,而美国的Open Rack是2U的节点为主,很有意思。不管哪个流派,达成的共识是把风扇挪到服务器或机柜的最后方,即风扇后维护,算是一个成果。
机柜内宽和单位高度
机柜的内宽从19英寸拓展到21英寸,横向布局下,计算节点的数量可以增加50%,硬盘数量也可以增加25%,代价是“馅”更大显得“皮”更薄,节点的中部会有较严重的下垂。如果高度单位还是原来的标准(Rack)RU,上下节点的间隙可能不够,所以Open Rack引入了Open U(OU),把每U高度增加到48毫米;天蝎也弄了个Scorpio U,简称SU,高度46.5毫米,也比标准的RU增加了一些。可能有人会问,这个OU和SU就差1.5毫米,比SU和RU之间的距离还小,为什么OU和SU不统一呢?反正出于各种考虑最后就是没统一,退而求其次的结果是,新一代的机柜都可以兼容RU,以前甚至还不兼容,所以这也是一个进步。
存储节点与GPU节点
随着时间的推移,2U以上的节点开始增多,主要是存储节点和GPU节点。如前所述,Open Rack的JBOD节点(代号Open Vault)其实是2U里面的2个1U,天蝎的JBOD(Just a Bunch Of Disks)和冷存储节点也都是1U,总之都是把3.5英寸硬盘平铺在托盘(tray)上,只是铺法有所区别:Open Vault是纵向铺,横向一排可以放5个,1U最多15个硬盘;天蝎JBOD和冷存储节点是横向铺,一排可以放3个,1U最多20个硬盘。
2U通用服务器把硬盘布置在前面板上,优点是便于维护,缺点是只能放12个(3.5寸),存储密度那是不能比。
真要追求存储密度,竖插是更好的方案,这样机箱的高度就以4U为宜。譬如微软Project Olympus的JBOD就是4U,可以放88个盘,即22盘/U,这还是19英寸的机柜,并没有吃21英寸的红利,密度反而更高。ORv2的存储节点Bryce Canyon就是4U规格,附带的好处是可以用(比2U)更大直径的风扇。
所以从存储的角度,只要改变了思路,其实19英寸也是够用的,不一定非要21英寸。
另一种就是GPU节点(如JBOG),譬如3U或4U,上午OCP基金会负责新兴市场的副总裁Steve Helvie在开场致辞中提到了OAI和OAM,OAI(Open Accelerator Infrastructure,开放加速器基础设施)是OCP服务器项目的子项目,OAI-OAM属于其中的开放加速器模块(OCP Accelerator Module),标准化GPU、FPGA等设备的接口和散热器外形规格。英特尔支持OAM最为积极的,从原来的Nervana到后来收购的Habana Labs,包括自己推出的数据中心GPU(代号Ponte Vecchio),都支持OAM。最近一个比较大的成果上午也提到了,就是英伟达也支持了OAI、OAM这个(子)项目,并且贡献了最新的HGX-H100 GPU基板规范,等于把HGX的精华贡献给了OCP,这是一个非常值得庆祝的事情。当然其中少不了上午Steve提到的Whitney Zhao他们的工作,我记得是在2018年年底,当时Whitney Zhao在Facebook(Meta),微软的Siamak Tavallaei,还有百度的丁瑞全,在知道了大家有相似想法后开始合作,一起促成了OAI(包括OAM)这个(子)项目。这个合作很成功,充分证明了在项目开始的早期,大家迅速达成一致,对避免项目走向非必要的分支是非常重要的。
OAI项目的发展也很快,现在OAM和UBB(Universal Baseboard,通用基板)都已经到了1.5版,今年年底之前会达到2.0版。最重要的还是OAM,随着半导体制程进步速度放缓,GPU等加速器的功耗越来越大,从一开始的450瓦(W)风冷就可以cover,到700瓦(风液)混合,甚至到1000瓦,这是很恐怖的。
整机柜与数据中心
这就要说到整机柜和数据中心之间的关系,部署整机柜一个很大的问题就是数据中心的供电限制。左图是2018年首届“数字中国万里行”参观的一个机房,单机柜7.2千瓦,放到现在国内数据中心里也是不低的水平,但是上面只放了4台2U的服务器,因为每台服务器都有2个CPU和4个GPU,功率高达2千瓦,所以也只能放4台。如果连半个机柜都放不满,叫什么整机柜(服务器)?新一代CPU的功耗现在都奔着三五百瓦去了,再想把一个机柜基本放满,没有二三十千瓦是不行的,试问国内有多少数据中心能够达到这个水平?这是机柜供电的限制。
另一个是散热能力的限制,如果达到二三十千瓦,不管从风冷的散热能力还是从PUE的角度来说,功耗都太高了,所以行业在转向液冷。如果还是风冷服务器,这些年大家为了提高数据中心效率,降低PUE,很多数据中心都已经提高了送风温度。前几年前我们看数据中心还是封闭冷通道居多,整个机房作为热通道,冷通道地板下送风,送风温度不超过20℃,整个机房(热通道)二十七八度,人在里面还是比较舒适的;近些年越来越多的数据中心为了延长使用自然冷源的时间,把送风温度提高到25℃上下,热通道的温度可以达到35℃以上,不利于人员长时间驻留。所以,新建的数据中心大多改成了封闭热通道,即整个机房是冷通道——于服务器而言,更有利于前I/O或者说是(IT侧)前维护的设计。
从液冷的角度,机柜要负责把机房提供的冷却液分配给服务器。风冷机柜就找风冷机房,液冷机柜就要数据中心提供相应设施,这些都是要匹配的。还有就是承重,液冷机柜和存储型机柜都要考虑,相应的机房地板承重能力、通道设计、电梯载重都要匹配。综合各方面来看,整机柜对数据中心的要求是更高的,OCP很早就在做相关工作,有OCP Ready这么一个项目,有一定的参考价值。
最后简单总结一下:
虽然在一些细节上没有统一,整机柜服务器和其他超大规模用户定制的服务器还是形成了与原来通用的机架式服务器很不同的形态,譬如把风扇放到后面,(集中供电的话)铜排也在后面,服务器后面基本就留给基础设施了。包括转向液冷之后,分水管、服务器上的接头也都会放在后面,还有液冷后门。液冷的前门和后门两种方案都有,不过看起来天蝎和Open Rack都更多倾向于后门,因为液冷的分水管就在后面,可以就近用同一套管路。
所以后面留给服务器或者数据中心基础设施侧的运维,前面留给IT侧的运维,是与通用服务器很不同的地方。
在机柜的结构上,一开始21英寸内宽的机柜不可避免的削弱了结构,放得还比普遍机柜更满,也等于“薄皮大馅”。通过十年的摸索,现在不管是加横向支撑还是其他手段,21英寸机柜的强度基本不是问题。
21英寸的优势当然是空间,包括内部空间,和前面板的空间。如果把后面都留给了基础设施侧,网线什么的都放在前面(前出线),OCP3.0的网卡也要放在前面,可能还有少量SSD,比如EDSFF的SSD,这个空间还是比较紧张的,那么宽了几英寸之后,确实有利于布置这些扩展设备。
另一个共识是兼容19英寸和RU(标准机),最初天蝎和Open Rack不太考虑这些,主要满足自身(大客户的定制)需求就可以。现在ORv3为OU和RU预留不同的定位孔,由机柜原生解决比用户通过其他附件去解决要好很多。
回顾开放整机柜服务器这十年的发展史,大家一开始都是图生存,先解决当下的问题,所以更强调局部的效率。所以做了很多紧耦合的事情,较少考虑兼容。后来意识到从整体来看行业效率不高,所以现在大家慢慢的又向松耦合回归,发展自己的标准,也尽可能的支持行业通用标准,给用户更多的选择权,而不是把这个产品固化下来追求局部效率最优。
用我2019年的话说,这是一个“先把厚书读薄,再把薄书读厚”的过程。
我认为,整机柜服务器在作为一种交付方式,和作为一种产品形态之间,正在找到一个比较好的平衡。
京东云“天枢”服务器的思考与实践
我今天分享京东云开发代号为“天枢”的整机柜服务器,对它的一些思考和实践,以及一些上线之后的收益。具体包括三个部分:
- 对我们自己的需求或者产品设计目标的一些思考,也是希望和各位分享的重点;
- 简单介绍这个产品的方案,最终真正做出来的东西是什么样子;
- 上线、生产化运营之后的一些收益和经验。
就像狒哥刚才提到的,市面上有很多很优秀的产品设计,也已经发展很长时间了,为什么京东还要自己再去重新定义一个产品设计?我们用了差不多三年时间把这个产品重新开发出来,是与市面上已有的其他产品不太一样的一个产品,源于我们自身的需求和想实现的目标。
因为整机柜产品也跟了很长时间,我们以前都讲整机柜服务器实际上以跳出机箱的维度,从机柜的视角在看我们怎么去做这个产品。最近几年我觉得这个想法还是很有局限性的,实际上我们现在在做的事情是以数据中心的视角,以整个基础设施的视角在思考我们应该设计一个什么样的服务器,这个服务器必须要和数据中心的风火水电基础设施能紧密的协同起来,同时也需要和我们上面运行的应用、我们的业务能够结合起来,只有这样做才会是一个优秀的产品。
这就是我们为什么会发现狒哥刚才分享的时候提到,现在几乎所有的整机柜产品都是由互联网公司发起然后去定义的。原因很简单,就是因为互联网公司才真正从机房建设,到设备的设计,再到上层的应用程序,完整的跑整个流程。在这个过程当中才可以说找到很多特殊的需求,然后做出特殊的产品设计来。
我们的核心需求是什么?京东大家应该都很熟悉,作为同时具备实体企业基因和属性、拥有数字技术和能力的新型实体企业,与现在比较火的互联网公司存在很多差异,京东并没有非常非常多的媒体类的应用。我们是做商城的,以零售为主,不像短视频或者其他的一些公司。他们有很强的视频或者是媒体处理的需求,所以对异构、存储容量有很高要求,而我们就不会有那么多。
另一方面,我们不会有非常非常强烈的海量冷数据的要求,所以这就是为什么京东的产品最后做出来之后会和现在市面上的东西不太一样。我们也会关心异构和冷存储、分级存储,甚至是冰存储这一类的概念,但是我们真正做产品的时候,还是要和我们的应用紧密相关。所以我们从一开始就想得很清楚,这个产品要做的就是聚焦承载高CPU算力这样的通用算力平台,可以承载热存储和温存储的应用。相对来说我们应用的没有那么多的冷存储、异构,尤其是大规模异构产品,所以一开始的时候就没有考虑放在现有产品的节点设计上。当然我们有预留一些设计,未来有需要的时候可以开发。
第二是要预留至少三代平台的支持,为了保护我们的投资。就像刚才说的,要用整机柜服务器,做数据中心的时候就要开始设计;如果要做液冷的话,更是要从一开始的时候就做设计。一个数据中心生命周期很长,我们不可能做一个整机柜产品比如说某一个机柜的规格,放进去用了两三年之后,发现下一代平台需要用一个新的机柜去承载。尤其是京东是国内对IT设备及数据机房应用和需求比较早,历史相对比较久的公司,所以有很多历史上合作的机房,这些全部都要考虑在内,所以我们希望这个产品要预留三代平台的支持。
然后要有很强的通用性,能够在各种各样的部署环境下使用,既可以放进我们自建的新机房,也可以放进液冷机房,同时还要能放进就像刚才狒哥有介绍的,可能一个机柜只有几千瓦电那样很老旧的机房。这就是一开始很重要的想法,我们不可能做一个只能放进新机房的产品,这不符合我们的实际需求。我们还要能支持各种各样的设备类型,尤其一个机柜级的数据中心级别的产品,一定要能放其他东西。能支持各种各样的平台,这个就很简单了,从业务的视角也希望给我们的应用端提供各种各样的可能性,不能只能支持某几种CPU。
我们希望它能平滑对接现有的产业生态,虽然我们会根据自己的需求完全重新做一个东西,但并不意味着全部都要重做,重新发明轮子,然后定义很多的器件级规范,这是很不科学、很不经济的,没有意义。核心在于我们能从更大的维度去设计这个事情,而不在于我要去实现一些很小的技术点。
效能包括两方面的问题:一方面国家有提双碳目标,就算没有双碳目标,因为运营数据中心要交电费,能省下来的都是真金白银,所以我们一定要强调高的用电效能。从另一个视角观察,我们要给应用方、我们的应用程序提供更高的效能。
另外是低成本,在互联网以外的企业很难有我们这样的体量,所以会考虑为了降低成本做一些基础架构的池化,比如刚才狒哥讲到一个点,就是电源共享电源箱,可以有机会用更少的电源模块的数量或者更少的冗余的功率去实现对更多的机器的可靠性的保护,不会因为断电降低在线的SLA。
要大量使用模块化设计,可以把一些不同的功能解耦去演进,我们不需要每出一个新的东西或者每导入一个新的,譬如换一个CPU的供应商就要重新做一个机器,这不经济,所以我们会大量用模块化的设计。而从软件和运维的视角,我们会想方设法让产品的自动化程度变高,可以自动去完成一些运维的动作。另外要足够的智能化,当你的应用体量比较大,每天都有设备在线上发生故障的时候,必须能够智能化的尝试自己处理一些状况,这是个偏软(件)的功能。
围绕着这些产品需求和目标,我们定义出来的产品是什么呢?
首先介绍一下这个结构,可以整机柜和标准服务器兼容,刚才狒哥已经做过很多铺垫,这是一个很重要的特点。
模块化设计之后,可以灵活地做前置或者后置IO。如果要和传统设备混合使用的话,应该是后IO的,因为传统设备都是后IO,我相信在座的有运维经验的人肯定不会接受一个机柜有一些设备的线从前面走,有一些设备的线从后面走,这是很灾难的。
刚才提到要让基础设施部分支持三代甚至更长的平台,所以在结构散热和供电方面预留支持的能力。以冷却来说,CPU的风冷可以做到500瓦(W),液冷可以做到800瓦,甚至更高,现在用的方案不做器件性的变化、只做流速调整就可以支持到800瓦。如果需要更高,我们可以通过改变冷板设备等来实现。
也可以灵活兼容集中(直流)供电或者是传统的AC(交流)供电,这样可以让我们的产品支持不同的数据中心,或者说让我们的机柜可以支持不同的设备。混合散热实际上就是用液冷和风冷结合的方式来把散热的效能提升;最后是整机柜都有的特性,就是可以做L11整机柜交付,效率可以大幅提升。
机柜系统,这个图刚才狒哥用过,上午浪潮的演讲里也有。外尺寸是标准的机柜尺寸,好处是机房不需要重新做规划,后面根据我们使用的节点不同可以选择要不要装分集水器,放母排(busbar)还是放PDU都可以。
这是目前我们唯一在线上使用的节点,没有像比如Open Rack的节点那么丰富多彩。这个产品支持整机柜,或者放在普通的机柜里面用标准的供电也可以,是完全模块化的一个设计,所有的模块我们在图上演示出来的这些可以移除的东西,真的在产品上是可以被移除的,而且免工具。
我们把风扇移到了机器的最后方,从而使得对硬盘的干扰变少,提高了硬盘的性能和稳定性。
大家可以看到我们有几个思考的方向。第一我们尽量把业务功能涉及的模块放在前面,比如存储模块、IO模块,前出线都是这个原因,所有跟实际功能有关的东西我们希望在前面可以被维护。放在后面就是基础设施层面的,风火水电的,比如散热、供电是放在后面的。
内部用来放电路板的空间非常非常大,我们已经做到了19寸产品里几乎最大,好处是很容易把市面上不高于这个尺寸的任何一个电路板、任何一个平台的方案都可以放到里面去,而且我们在设计的时候,固定方式、IO出线方式、散热全部都是模块化的。不会出现某一个主板必须要配合我的电源出的位置,甚至你用什么样的电源插接头都没关系,我们已经考虑过中间有一些转接可以帮助实现所有模块,几乎市面上所有19寸以内的主板都可以放进去。这也是刚才提到的,我们希望给我们的业务部门提供尽量大的灵活性。
节点的前后IO是一个简单的展示:如果是后IO的时候,我们会把网络插卡,包括PCIe设备放在后面,这样和传统设备一样,包括同时用普通的AC电源;如果是前维护的时候,网络模块就是放在前面的,相应的后面就会用集中供电方式接铜排。
这是我们和其他服务器设计的一个异同。其他整机柜一样,我们是专门为L11交付进行整体设计的,也就意味着它的运输可靠性是做过通盘考虑的。如果是标准服务器的话,努力可以做到L11,但毕竟它不是为这设计的,所以会有一些困难。系统供电可以选择传统的PDU或者也可以用busbar,也比较灵活。散热部分把风扇放在后方,这样可以真正实现不动节点的情况下做热插拔,和其他一些设计会稍微有些不一样,尤其和标准的机架式服务器,虽然也是可以热插拔的风扇,但是要维护的时候必须要把这个设备抽离出这个机柜,其实在现场是不太可能做的。
IO的方向可以前、后,我们的节点可以放进我们自己定制的机柜,也可以放到普通的19寸机柜,满足我们自身在不同数据中心的部署需求。同时我们也可以兼容普通的19寸标准的服务器或者是存储、网络设备,都可以放进我们的机柜,灵活性会非常好。
狒哥也提到21寸的宽度肯定空间利用率高一点,这一点确实可以认为它是有一个妥协的,和标准的机架式服务器一样。
最后简单分享两个图,一个是我们的实践收益,这是在我们廊坊数据中心运行下来,包括对成本的评估之后,看到的一个情况。这里展示的是液冷的方案,建设成本会比普通风冷要高2%,高出来的这部分主要源于额外多出来的这些连接器管线,但是因为节能这个特性,可以替我们省很多电,在第15个月的时间就可以做到和风冷的设计盈亏平衡。我们一个产品大概在线上的生命周期不同应用不一样,按照五年算,60个月,在运行末期我们预估这个产品可以比传统的风冷产品TCO能降低5%左右,这个数字还是比较好的。
这是我们实际线上业务运行的一个情况,曲线实际上是横跨很多天的,可以看得到京东业务的特点就是很多人早上起来之后会刷一下,上班和下班之后再刷一下,买点东西,然后睡觉了,负载就会降下来。下面这组是同样我们天枢整机柜,但是风冷的,我们的机房给他设计的是8.8千瓦(kW)每个机柜的供电能力,所以放了14台服务器;上面这个就是液冷的,因为液冷散热比较好做,他不太依靠机房的空调所以说我们给他放了18台机器,这样的话我们在同一个数据中心里面可以多放接近30%的机器,空间的成本会好一点。
可以看到同一天功耗的峰谷值差异很大,下面几乎只有它的一半到三分之一,这意味着我们的这个产品设计结合了水冷之后,在低负载的时候功耗能降得下来,在高载的时候因为它有更好的散热,所以CPU可以更多时间运行在高频,甚至是超频的状态下,所以它的功耗又是能上去的。
我们放的节点数量不一样,看绝对值是没有意义的,但是相对的差异很明显。这也是我们觉得采用液冷设计一个非常非常好的收益。
最后分享三个点,因为在座有很多可能是行业里面的厂家,也会有一些想要看一看京东作为一个客户会有什么样的经验可以分享。
第一个是要想清楚自己应该做什么,不要去做技术的狂热爱好者,就像刚才狒哥讲有一些产品极限的利用它的(内部)空间,设计出了一个非常强大的产品,但是很有可能到线上之后发现机柜供电不行,只能放四台;或者太重了拉不出来、上架上不上去,机柜撑不住,所以我们要理智客观一些,产品的设计要根据你的实际业务需求来,然后把一些相对次要的需求给过滤掉。比如我们就过滤了支持大GPU这样一个设计,我们清晰的去定义我们这个产品的设计。
另一个是要用很强的灵活性去对抗复杂性,这在京东也是很典型的,因为我们商城本身就有很多的业务系统,再加上物流、健康、金融,现在也在做云,所以我们有数不清的应用,他们会提出数不清的需求,会对你有各种各样的要求,但我们很难把他们所有的东西都做出一个机器来去满足ta,所以我们之所以用模块化,做很多这样的设计,就希望我们的方案设计可以让一个产品以一敌百,这个产品在线上基本可以满足差不多80%以上的应用系统的需求,还会有一部分,可能还是要用异构,还是要用冷存储,会用其他产品替代。
最后一个还是刚才有提到的,“最好的”不一定是最好的,spec看起来最fancy的不见得是你真的用得起来的,你一定要把它和其他环节匹配,这样才是可以落地的产品,而不是说看起来很漂亮,结果用了几年之后发现不好用,我也不买了,实际上在行业里面是可以看到很多这样(我们认为是)失败的案例。
天蝎5.0:中国开源整机柜技术创新与突破
百度资深系统工程师郑建武的分享分为四部分:
- 整机柜的发展历程;
- 整机柜的问题和挑战;
- 浸没液冷整机柜介绍;
- 未来架构思考。
天蝎整机柜与Open Rack基本同龄,从2012年的第一代到今年在探索试点的浸没,正好十年,经过了6个版本的迭代,主要介绍突出的三个阶段。
- 2012年的风冷整机柜,集中散热、集中供电,还有集中交付,算下来整体的TCO收益大概是5~15%;
- 2019年在做的冷板液冷整机柜,风液结合,目前看来有5%的收益;
- 今年在探索的浸没整机柜,全液冷,算下来长期收益在10%左右。
整机柜的问题和挑战分为三个维度:
- 政策:为实现“双碳”目标,数据中心要逐渐液冷化;环保政策,对液冷的部署提出新挑战。
- 芯片功耗:芯片堆核设计,功耗随之攀升;如CPU 350W(瓦)、GPU 500W,单节点功耗增加明显。
- 机柜密度:单柜12kW(千瓦)时,节点密度低,风冷对液冷收益变薄;提升单柜密度,24~36kW逐渐成为主流。
(天蝎)浸没液冷整机柜外尺寸为2500×1400×850(长宽高,单位mm),52U(单位SU,具体见《开放整机柜简史》部分介绍),21英寸节点,也兼容19英寸(通用)服务器。
布局上,集中供电的电源(PSU)和交换机放在中间。供电铜排(busbar)在机柜底部,为一体式(不分段),采用灵活的Clip而非硬锁连接。54伏供电,整机功率36千瓦,未来Eagle Stream(EGS,对应英特尔新一代CPU)可以扩展到60千瓦乃至72千瓦。双输入钛金(Titanium)电源进一步提高集中供电效率,但也兼容通过PDU配电的传统供电方式。
浸没式液冷的核心是冷却液的选择,天蝎5.0采用单相氟化液,化学特性友好,方便运维,国产化溶液可以降低成本。集中CDU主备配置,目前是一拖四,未来可能一拖八,集中换热又可实现单柜控制。
Clip取电和IO前运维的设计都很适合浸没式液冷环境,风冷和液冷节点采用一套设计,物料共用,自由切换。
浸没式液冷的管理采用机柜级的管理设计,可以进行远程的控制和报警。机柜监控管理单元模块(RMMU)与RMC互联,可以采集Tank里所有的信息,后期可以进行一些散热策略的管理。
思考:芯片的功耗一直往上走,PUE值要一直往下走,这是一个矛盾体,解决方案肯定是液冷。机柜级、节点级还是封装级?从机柜级的角度,风冷机柜的搬迁运维不是很方便,液冷倒是更适配机柜级的(交付和运维)。
ORv2到ORv3机架设计的演进
在Open Rack v1的基础上,Open Rack v2(ORv2)发展得相当成熟,其主要用户Facebook(Meta)也成长为百万台服务器量级的数据中心巨头。
正如《开放整机柜简史》中所指出的,在新的历史时期,Open Rack和天蝎整机柜都致力于回归松耦合,给用户提供更灵活的选择,包括更好的支持19英寸的“标准机”。
Open Rack v3(ORv3)在2019年浮出水面以来,经过几年的发展,逐步走向完善。Delta(台达)机构高级经理楊茗棠远程接入此次开放整机柜分论坛,介绍了ORv2到ORv3的几处细节变化。
作为一个以集中供电为核心的机柜规范,铜排(busbar)的变化显然是最需要关注的。与天蝎5.0类似,ORv3的铜排也改为一体式,并与电源框(Power Shelf)浮动连接。浮动连接使ORv3的电源框可以和服务器节点(IT Gear)一样灵活的布置在机柜的任意U位,而仅支持48V(ORv2还支持12V)供电也体现了必要的精简。
电源框和节点接到铜排上的连接器结构上类似,主要是尺寸和承载电流的大小有所区别。电源框的接触点可以承载360A电流,节点的官方规格是100A,但是安费诺(Amphenol)等公司已经能支持到150A电流。
ORv3机柜的侧板上,为固定(L型)导轨分别留出了OU(48mm)和RU(44.45mm)体系的安装孔位。因为电源框的左右两侧要给交流电输入留出位置,所以其配套的导轨要短一些,采购的时候需要留意一下。
运维的友好度得到改善,更易于使用。在机柜的底部,采用新设计的双轮脚轮,只需要把机柜(略微)抬起,就可以借助六角扳手从上方拆下,而不必把机柜放平(拧底部的螺丝)。调平器(leveler)也采用了快拆结构的设计。
在机柜顶部的出线口增加了塑料保护罩,避免线材在拉拽时划破线皮。左右两侧模块化的理线架也可以拆下来,更换为用户自己想要的样式。
最后是对液冷的支持。ORv3机柜后端两侧预留了悬挂分水器(Manifold,集水分歧管)的位置,支持手动的快拆接头和盲插接头。还有后门换热器(Rear Door HEX)的安装,总之是为冷板式液冷(风液混合)方案做了充分的优化。
Meta的ORv3产品产品规范,包括机柜本体、电源框、BBU等,预计在年底之前陆续定稿。
圆桌讨论
“整机柜服务器在你心目中是不是一个惊叹号,还是一个句号?你脑袋里是不是充满了问号呢?”
这是OCP China Day 2022开放整机柜论坛最后圆桌讨论环节的“暖场”问题,参与讨论的6个人,3个在现场,3个在线上,其中张广彬(狒哥)和京东的专家是前两位演讲者,其他4位嘉宾分别是:
何永占,百度服务器研发经理
曾钦杵,腾讯星星海实验室研发总监
唐卫中,Meta技术工程师
张 斌,浪潮信息服务器产品线高级经理
讨论过程十分热烈,总时长超过80分钟,又突破了去年(OCP China Day 2021)的7人组……话题比较多,嘉宾们又都健谈,基本覆盖了整机柜服务器领域大家关心的热点。
暖场①:标点
作为一个半开放式提问,只给出叹句问三个选项,是出于向《大话西游》致敬的考虑。在设计这个问题时,我已想到也更期待有人会答出“省略号”,但却只猜中了开头,没猜到结局……
开场力求让大家轻松愉快,营造一个畅所欲言的氛围,所以前3分半以调侃为主,想跳过的可以直接从第4分钟开始看,时长约12分钟。
讨论②:收益
百度、Meta、京东、腾讯……都是服务器市场上的大客户,且不乏整机柜部署的经验,站在他们的角度,整机柜的收益主要是什么?这个环节大家的观点比较一致,时长不到8分半。
讨论③:限制
正如狒哥的《开放整机柜简史》所言,开放整机柜的历史已超过十年,而在有能力部署整机柜的用户中,还有很大比例并没有采用。那么,限制(阻碍)整机柜部署的主要因素有哪些?时长约15分钟。
讨论④:液冷
整机柜服务器需要配套的供电和散热(制冷)能力支持,随着近年来CPU、GPU功耗的直线上升,在传统风冷的机房里,整机柜的吸引力就大打折扣。那么,液冷与整机柜是不是“更配”呢?时长不到12分钟。
讨论⑤:浸没
这是上一个讨论的衍生环节,天蝎5.0整机柜带来的浸没式液冷再一次引发了冷板式液冷与浸没式液冷的“路线之争”,时长约12分半。
讨论⑥:供配电
整机柜的供配电环节是个很大的话题,包括而不限于高压直流(HVDC)、BBU等话题,而作为美国公司的代表,Meta对高压直流的兴趣也挺值得关注……本节讨论时间比较长,接近20分钟。
讨论⑦:标&兼
约5分钟的快速讨论,怎么看待21英寸的节点宽度,以及整机柜对所谓标准机(19英寸宽、标准RU)的兼容?
OCP China Day 2022开放整机柜论坛的内容回顾就到这里,欢迎有兴趣讨论开放计算相关话题的读者在公众号后台给我留言,谢谢大家!