巧设计,大电流;从长计,很节能
算力的蓬勃发展追求性能更为强大、部署密度更高的服务器。2023 年,主流服务器迈入“百核”时代。与之对应的,则是处理器耗电量的大幅增长,且这个势头还将持续下去。
为了帮助合作伙伴更好应对功耗持续增长的挑战,响应绿色减排的社会号召,英特尔联合上下游合作伙伴研发了电源汇流排技术,以降低处理器供电损耗。
烽火超微积极地将该项专利技术导入到全新一代的第四代英特尔®至强®可扩展处理器平台服务器产品开发中,取得了明显的能效改善,提升了产品竞争力,有望为数据中心用户节省可观的运维成本。
随着数据量的增长和云计算等需求的提升,服务器耗电量呈现日益上升的趋势,CPU 的功耗也越来越高。Intel Purley 服务器平台CPU 的TDP(Thermal Design Power,热功耗)最高为205W,到了最新发布的第四代英特尔®至强®可扩展处理器平台,单颗CPU 的TDP 增加至350W。随着功耗的增加,损耗也水涨船高,如何实现低能源损耗的主板设计就成为了一个重要的课题。
英特尔电源汇流排技术(Power CorridorSolution)就是为了应对这种挑战而提出的创新,该项专利技术可以大幅降低服务器主板在CPU 供电部分的传输损耗,并满足电源性能要求,提高了服务器的能源转换效率。
将英特尔电源汇流排技术应用在大规模数据中心可以获得可观的电费节省,做到绿色低碳,节能减排。根据英特尔与烽火超微合作的产品测试结果,对于一个拥有20 万台双路第四代英特尔®至强®可扩展处理器服务器的数据中心,配置 TDP为350W 的CPU,在电费成本0.12 美元的条件下,五年内可以节省最高900 万美元的电费。
大电流带来的损耗挑战
CPU功耗的增加会给服务器主板带来硬件上的设计挑战。高功耗的CPU需要主板电源线路承载更大的电流。电能在传输中的功率损失(P)与电流(I)、电阻(R)相关,其关系为物理公式:
P=I2R
由公式可见,电流增加导致的损耗增加是平方关系,电流增加1倍,损耗增加3倍。这些功率损耗还会转化为废热,增加服务器的散热负荷。
主板设计能做的是尽量降低电源供电传输路径上的阻抗,以满足高功耗CPU的性能要求。这里的传输路径阻抗指的是从给CPU供电的主电源Vccin的电源转换控制器VR(Voltage Regulator)的输出,到CPU 插槽(Socket)端的电源传输路径阻抗Rpath,包含印刷电路板、封装和插槽部分。
缩短导体长度、增加导体截面积可以降低阻抗。主板设计中降低供电传输路径阻抗的传统解决方法是增加印刷电路板(PCB) 叠层或铺更厚的铜,以增加电源层导体的总截面积。但这种方案会带来成本上的大幅上升,譬如PCB 从12 层变更为14 层,会增加成 本 20% 左右。
英特尔电源汇流排技术并不增加PCB 叠层,而是在主板背面增加额外的供电铜排来实现的,如下图所示:
图注:传统提升供电布线方法 ( 左 );电源汇流排技术提升供电布线方法 ( 右 )
该技术给原有主板设计带来的改动影响很小,只需要将一定厚度(0.8mm) 的铜排,用表面贴装技术(SMT) 组装到主板上即可。相应的,CPU 的背板需要切割出相当于铜排大小的凹槽,以容纳凸起于主板表面的铜排。铜排与背板凹槽接触的一面覆盖绝缘漆,另一面与主板上的供电路径焊接在一 起,即可实现电流导通能力的提升。
这个方案的技术难点主要有如下几点:
1. CPU 背板的凹槽变动带来的CPU 插座端的性能影响评估,如强度等;
2. 主板上PCB布线的改动;
3. 生产加工工艺技术对良率的影响,譬如汇流排焊接空泡率的控制等。
电源汇流排技术的实施需要生态链厂商的大力配合。英特尔联合供应链生态伙伴共同开展技术开发与验证,确保了新技术变更下的产品指标满足需求,如汇流条在焊接后的空泡率等达到设计目标等。
烽火超微积极导入新技术
英特尔与中国服务厂商烽火超微合作,将电源汇流排技术应用到了的后者基于英特尔Eagle Stream平台的项目中。烽火超微应用 电源汇流排技术的主板CPU 插座背面如下图( 右侧) 所示:
图注:原主板 CPU 插槽背面及背板 ( 左 );电源汇流排技术改进后的主板背面及背板 ( 右 )
经过联合开发,烽火超微依据服务器量产的所有测试标准,全方位、系统性地评估了这个方案的可行性,测试结果显示这项技术是完全满足量产标准的。具体评测项目包括:
● CPU 电源性能测试和仿真分析
● 传输路径阻抗Rpath 和效率对比测试
● 系统散热测试
● CPU 功耗测试对比
● SPECpower 测试
● 热冲击测试
● 冲击和振动测试
● 渗透染红测试
● 空泡率测试( 汇流排的焊接空泡率期望控制在5% 以内)
● 电磁兼容EMC 测试
● CPU 背板和垫板可靠性评估
作为试点应用电源汇流排技术的参考方案,烽火超微第四代英特尔® 至强® 可扩展处理器平台服务器配置如下:
系 统:FitServer R2280 V7 机架式服务器
处 理 器:英特尔®至强®Platinum8458P 处理器(TDP 350W)×2 路
内 存:DDR5 4800 32GB × 16条
硬 盘:16TB HDD × 3
网 卡:I350
RAID卡:LSI 9460-8i
测试结果显示,对于配置了350W TDP CPU 的英特尔第四代英特尔® 至强®可扩展处理器平台两路服务器系统,使用英特尔电源汇流排技术可以在CPU 满载压力下的系统性能有如下直接提升:
烽火超微基于第四代英特尔®至强®可扩展处理器平台服务器
☞ 约10W 的整机功耗节省。
☞ CPU 处理器供电传输路径阻抗在remote sense 点降低24%,在远端降低31%。
☞ 电源转换控制器VR 效率额外提升0.7%。
☞ SPECpower 在满载时的测试分数提高1%,优化了系统能效比。
☞ CPU 插座底部附近温度最高降低4℃。
开发团队也进行了电源仿真分析,结果和实测数据基本吻合。
对于CPU 非满载下的工况,应用电源汇流排技术的样机也有不错的节能效果。如80% TDP 负载时,整机能耗依然可以节省多达 7W。在50% TDP 负载下,整机能耗可节省 3W。多种功耗下的测试数据表明,CPU功耗越高,电源汇流排技术带来的节能效果越 可观。
电源汇流排技术除了直接提升了能效,还间接提升了系统稳定性和平台的升级潜力。譬如,从降低CPU 插座底部温度看,一方面是由于阻抗减小使得损耗废热随之减少,另一方面,铜排本身也提供了导热和散热功能。这使得服务器主板以及元器件能将热量均衡快速的释放到外部,保证系统更加稳定运行。面向未来处理器的发展,原有主板可以额外支持更高功耗的CPU 而不需要通过增加PCB 电源叠层或者增厚铜箔。
图注:仿真分析
巨细靡遗,涓流汇海
根据行业经验,数据中心约有70% 运行成本来自电价。数据中心服务器数量众多,在庞大基数下,单台服务器数瓦的能效差异也会在长期运行中累积为巨大的数字。
假设一个数据中心,部署了20 万台前述配置的Eagle Stream平台两路服务器,电价为0.12 美元,在连续运营5 年后,电源汇流排技术可以节省多少电费呢?
如果按满负荷下的能耗计算,如此规模的数据中心5年内节省电费最高可达931 万美元。
考虑到实际不同业务场下CPU 利用率不同,数据中心需求也有峰谷差异,可以假设更多的场景。
● 当所有CPU均运行在80%负载下,每台节约7W 功耗,累计可以节省约616 万美元。
● 如果只有80%的服务器满载,累计可以节省721万美元以上。
● 如果只有50%的服务器满载,累计可以节省406万美元以上。
● 即使是一个业务量非常不饱和的业务中心,所有CPU均只运行在50%负载下,也可以节省约195万美元的电费。
总结
在系统验证阶段,烽火超微对应用英特尔电源汇流排技术的平台进行了从电源、散热、电磁兼容、生产等方面的多维测试。结果显示,通过电源汇流排技术,可以使得系统损耗降低约10W,CPU 供电传输路径阻抗降低24%,总体效率在传统电源方案基础之上提升0.7%。而且,应用新技术的产品平台完全满足量产测试标准,可以进行规模化生产与推广。新的节能技术提升了烽火超微EGS 平台服务器的竞争力,从节能降本、提升稳定性、扩展升级潜力方面为客户提供更多的价值。
面向数据中心的低能耗服务器设计是重要的开发方向,可以更好满足大规模数据中心的部署需要,符合国家双碳战略,促进产业链全生命周期的节能减排,助力行业绿色节能发展。