数字中国万里行|绿色自研技术推动数据中心减碳增效
在新基建和东数西算的政策加持下,绿色节能和高效智能成为我国云数据中心的核心诉求。国家和地方持续出台一系列政策,进一步规范了数据中心的能耗管理和PUE值,明确要求全国新建大型、超大型数据中心平均电能利用效率(PUE)降到1.3以下,国家枢纽节点进一步降到1.25以下,绿色低碳等级达到4A级以上。
北京根据数据中心建设规模,PUE准入水平分别设定为1.3、1.25和1.15。上海数据中心新建项目PUE控制在1.3以下,改建项目控制在1.4以下,集聚区新建大型数据中心综合PUE降至1.25以下。旨在有序推动数据中心绿色高质量发展。
图片来源:《国家“东数西算”工程背景下新型算力基础设施发展研究报告》
据数据中心绿色能源技术联盟统计,2021 年度全国数据中心平均 PUE 为 1.49,并且有相当数量的数据中心 PUE 超过 1.8甚至 2.0。
“东数西算”工程聚焦创新节能,在集约化、规模化、绿色化方面着重发力,在数字中国万里行中我们发现,云服务商正持续加强绿色自研技术创新投入,推动数据中心减碳增效。
2022年9月,数字中国万里行团队在杭州考察了阿里巴巴浙江云计算仁和液冷数据中心:综合应用阿里达摩院、平头哥等最新研究成果,阿里云基础设施层已形成了服务器、网络、数据中心一体化架构设计,支撑上层云计算产品和应用平台的算力释放最大化。
体系化能力 输出高性能算力服务
阿里巴巴浙江云计算仁和液冷数据中心综合应用阿里达摩院、平头哥等最新研究成果:大规模饮用自研CPU芯片倚天710以及搭载倚天710的阿里云自研服务器–磐久服务器。
倚天710基于最新的ARMv9架构,内含128核CPU;集成业界最领先的DDR5、PCIe 5.0等技术。阿里云智能总裁张建锋在2022云栖大会上表示,作为中国首个云上大规模应用的自研CPU,倚天710算力性价比提升30%,单位算力功耗降低超60%,阿里云未来两年20%的新增算力将使用自研芯片替代。
今年4月,阿里云推出了ECS g8m实例,就是阿里云第一款使用倚天710 CPU的实例,主要针对通用计算、云原生以及Android in Cloud等场景。在2022云栖大会期间,阿里云宣布搭载倚天710芯片的阿里云弹性计算实例在11月15日正式上线。
目前,阿里云已全面兼容x86、ARM、RISC-V等主流芯片架构,自研倚天710进一步丰富了阿里云的底层技术架构,并与飞天操作系统协同,阿里云智能副总裁、基础产品负责人蒋江伟透露,继推出自研CPU倚天710和云基础设施处理器CIPU以来,阿里云构建了以数据为中心的新型云计算架构体系,在这个体系下,倚天+飞天+CIPU的组合表现亮眼,在大数据和AI及高性能计算、视频编解码等场景下普遍优于业内同类产品,性能可提升20%以上。
而搭载倚天710的磐久服务器在2021双11期间首次上线运行,应用于电商等多个重要的核心场景,顺利支撑了双11、双12两次电商流量的洪峰考验,性能和稳定性均超预期,更好地满足现代数据中心对高速数据处理的需求,再加上搭载的阿里自研倚天 710 芯片在定制灵活性、核心数和性价比方面优势,磐久服务器 M 系列可在大规模事务处理、在线交易及云原生应用场景中发挥作用。
云网技术、软硬一体 解决AI算力难题
随着人工智能、机器学习相关需求井喷,对算力需求越来越高,但简单粗暴的硬件堆砌不可持续。虽然市面上许多AI硬件(包括GPU、FPGA等)的计算能力很强大,但它们的内存资源非常稀缺,当内存资源不足时,要么运算停滞,要么会增加数据的无效传输,带来很大的运行开销,增加了时间成本。
阿里巴巴集团副总裁、阿里云基础设施负责人周明表示,阿里云打造的“磐久超高性能网络”,采用自研的Solar-RDMA高速网络协议,使处理器可以通过load/store指令访问其他任意服务器的内存,非常适合深度学习模型内神经网络的交互形态,相比传统模式可降低长尾时延90%以上,最低可至2微秒。
在阿里巴巴浙江云计算仁和液冷数据中心部署了阿里云在云网技术、软硬一体探索后新一代智能计算产品:“灵骏”智能算力系统。
灵骏智算产品是软硬件一体化设计的算力集群服务,具备公共云、专有云等多种产品形态,灵骏的底层硬件核心组件由磐久服务器和自研高性能RDMA高速网络两部分组成,不仅拥有异构计算弹性能力,还以低通信延时、高并行计算效率为特征提供系统化的高密度计算服务;灵骏软件包括算力资源管控运维、AI加速套件、云原生任务管理,以及完善的AI开发作业平台,支持Pytorch、TensorFlow等常见AI框架。可最小化所有非计算开销,实现5倍的通信性能提升,千卡并行计算效率高达90%。
从实验走向实践 浸没式液冷集群部署
在“东数西算”政策引导下,部分计算业务将逐渐向西部迁移,但调用频次高、对网络时延要求极高的业务,决定了数据中心不能离经济发达地区太远;还有智能制造、科学探索、生物制药、自动驾驶、数字孪生等场景等基于人工智能的新应用和场景实现,需要面向 AI 的算力基础设施,仍需要本地数据中心承担。
双碳不仅是环保概念,更是技术路线。西部拥有丰富的可再生资源(风能、太阳能等),可利用天然优势来进行数据中心散热,东部数据中心绿色化发展则更多需要从节能技术创新、优化节能模式入手,来降低数据中心的能源消耗,作为最高效的冷却方式,浸没式液冷也备受关注。
浸没式液冷技术让数据中心冷却节能不再依赖自然环境,密封的箱体保护IT设备免于外界环境的影响,可极大提高设备可靠性。 2016年,阿里巴巴推出了全球首个商用浸没式液冷服务器集群。2018年8月数字中国万里行团队,考察了位于张北的阿里云冬奥数据中心,这里已经开始部署浸没式液冷服务器集群;2020年阿里巴巴浙江云计算仁和液冷数据中心投入运营,成为更大规模浸没液冷技术的典型实践案例。
阿里巴巴浙江云计算仁和液冷数据中心基于单相浸没液冷技术,利用绝缘冷却液实现高效散热,无需风扇、空调、冷机等冷却设施,数据中心PUE(Power Usage Effectiveness-能源使用效率)可低至1.09,每年可节电7000万度,节约的电力可以供西湖周边所有路灯连续亮8年心。
液冷数据中心的背后是巨大创新和革命性变化,甚至在架构上颠覆了主流的直接风冷方案,可以说是硬件与系统的变更需要大量人力和物力投入。目前阿里巴巴设计出一整套《浸没式液冷数据中心技术规范》,涵盖了浸没液冷子系统,浸没液冷服务器等IT设备的设计要求,以及数据中心从设计到运维等各个环节,并向全社会开放。
全局协同 加快智能算力网
作为中国首座绿色等级达5A的液冷数据中心,阿里巴巴浙江云计算仁和液冷数据中心是行业内首个直接与分布式光伏项目达成电力交易,首个参与跨省、跨区点对点绿电交易的电力用户,通过高压直流(HVDC)、供配电分布式冗余(Distribution Redundancy)、智能AI优化算法等多项节能技术进行规划设计与建造,更绿色、更智能的辐射长三角地区的数字化升级。
除了浙江省杭州市,目前阿里云已经在河北省张北县、内蒙古自治区乌兰察布市、江苏省南通市、广东省河源市自建5大超大规模数据中心,分布京津冀、内蒙古、长三角地区、粤港澳大湾区、等“东数西算”的算力枢纽节点。
而在京津冀、内蒙古算力节点,为了适应市场智能算力快速增长的速度,在今年数字中国万里行期间,阿里云还启动位于乌兰察布和张北的两座智算中心,
- 张北智算中心的的算力规模达到12 EFLOPS,是全球最大的智算中心,同时,这里也结合了达摩院的AI的应用和研究,比如通用性的超大规模的人工智能训练模型M6,可以在512张GPU卡的同步运行的前提下,在10天内训练出具有可用水平的10万亿的模型,这也是全球最大的AI预训练模型。但是它所消耗的能耗仅为同等规模训练模型的1%左右。作为国内我们首个商业化的落地的这种多模态的大模型,M6已经在电商、制造业,包括科学研究等多个场景得到了有效的应用。
- 乌兰察布智算中心的建设规模是3亿EFLOPS,主要服务的场景是在自动驾驶、生物制药、科学探索、元宇宙这些行业里面。
随着东数西算和全国一体化大数据中心体系建设步伐加快,阿里云支撑经济社会数字转型、智能升级和融合创新为导向,运用绿色低碳技术为我区域的产业加速,也为数字经济来加速。