南京大学姚舸:绿色e-Science中心在路上

从历史悠久的超算,到以大模型为代表的AI应用,无不在要求用户不断提升对算力密度和规模的;而随着AI与HPC加速融合,单机架的密度和功耗早已经超过传统意义上数据中心的规模,建立健全响应的配套解决方案也是刻不容缓。

益企研究院在数字中国万里行考察后发现,目前数据中心加快向具有创新技术、强大算力、超高能效、更加绿色安全为特征的方向演进,在具体落地中,不同业务分布在不同密度的机房,对基础设施的需求不同,如何实现算力全生命周期的各个环节实施绿色化?

南京大学 高级工程师 姚舸

在自主设计、自主开发、自主实施、自主管理运维南京大学e-Science中心后,人工微结构科学与技术协同创新中心的姚舸老师给出答案——将上层业务应用与数据中心基设施建设充分融合,根据低密度云机房与高密度HPC机房的业务特点、功率密度等特点,整体规划布局,打造绿色高效的数据中心。

全栈思路 整体规划 统一管理

南京大学e-Science中心隶属于人工微结构科学与技术协同创新中心,是2014年获教育部、财政部认定的国家级协同创新中心。e-Science中心服务教学、科研、管理为一体,为南京大学4大校区5万名师生提供两大类支持:高性能计算以及十多种云服务,包括云盘、协同表格、开源镜像、代码托管、LaTeX等十余种数字服务,用户累计超八万人,每天校内外有几十万的独立IP的访问。

这就意味着,e-Science中心需要有高性能且高效的基础设施支撑学校科研攻关;同时该基础设施还要经济、高效、稳定的满足日常学校教学和管理。

在姚舸看来,e-Science中心自建设以来保证绿色可持续发展:节约能源,节省经费,还要满足未来扩容需求,支撑更多新业务需求。

首先,基于全栈理念,从机房设计、建设改造到IT基础架构再到上层的系统软件和应用,统一规划考虑。

第二,融合集群,统一共享互联互通。

中心将各课题组集群和公共集群融合统一,为用户提供全生命周期一站式服务。独自自主设计、安装、部署、运维;实现单一集群资源共享、统一管理。

在e-Science中心,HPC/AI集群是一个融合多品牌、多型号的单一集群,融合约十几个品牌的四十多种不同型号产品,规避了资源使用不均衡,运行效率低的问题。为此中心专门建立了一个文档网站和实时监控系统,帮助用户更好的选择和使用。

HPC/AI集群不仅是计算节点多,对海量数据的存储和读写需求也水涨船高,特别是近些年AI for Science对IO的要求越来越高。早在2018年e-Science中心采用NVMe全闪盘进行Burst加速,成倍提升了AI的性能。

自e-Science中心的高性能计算中心建立伊始,基于全栈打通,统一管理的思路,通过开放共享公开运营,已经为中心节约了大量经费,也为学校师生提供了良好的服务。

第三,打破壁垒,资源共享,丰富服务。

中心在提供面向科研的科学和智能计算的基础上,不断扩展服务能力,已建设了包括云盘、协同表格、开源镜像、代码托管、LaTeX在内的十余种数字化服务,实现了科研、教学、管理的全场景覆盖。

去年,中心对基础平台进行了升级,在国内高校中首先采用国产化NVMe over RoCE 端到端的全闪存储,为中心的众多服务提供了安全稳定高速的支撑,通过存储和业务网融合部署节约设备,节约电力,节约散热,节约维保费用,也节约了安装空间、线缆。

此外,为了应对海量数据存储的需求,中心率先引入英特尔傲腾可持久内存并基于OpenZFS自建存储系统,“花小钱办大事”的支撑了开源镜像站的海量存储和访问,为用户提供了高性价比的归档存储空间。

目前,e-Science中心解决了跨学科跨单位的数据交流频繁问题,云盘表格等业务四校区协同,为五万师生提供流畅多元的业务体验,不仅节约经费实现绿色运营,也为建设“第一个南大”贡献了自己的力量。

基于业务 因地制宜 自主设计

近几年,AI的发展非常迅速,学校HPC的需求越来越大,高性能计算与其他的信息化服务等不同场景对应的基础设施建设思路迥然不同。

数据中心的本质就是将电力转化为算力的基础设施,姚舸表示,在机房建设方面,e-Science中心是根据业务需求来决定的,而不是先建设机房再进行部署。目前e-Science中心有三个机房,包括一个低密度云机房和两个高密度机房。

在配电方面,低密度云机房单机柜密度不高,主要支撑关键业务。中心努力更有效地利用现有的配电系统的功率和冗余性,每个机柜设计为双路32安单相供电,大约为7千伏安。通过对业务系统的整体优化,尽可能降低设备能耗,尽管空间有限仍旧设计了长达8小时的不间断电源供应。在低密度机房中将两台UPS和三台空调分配到了不同的供电回路上,同时空调的功率比较小可以通过发电机来带动运行,这就能保证即使在大楼长时间停电检修期间,关键业务不中断。

两个高密度机房,主要用于HPC的计算节点,HPC集群计算为两大类,一类是传统的数值计算,另外一类是AI工作负载。每个机柜是42千伏安的功率,两路32安的三相供电。如果有需要,可以增加到4路32安的供电。

高密度机房有三路供电,两个UPS连接到不同的电源上,另外一路供给室外冷水机组。冷冻水的空调室内机使用从库房“借”来的配电,这样可以大的配电容量尽量留给HPC设备和室外的冷冻水机组。

将电力转化为算力的过程中,会产生大量的热量。由于机房位于学校的市中心位置,空间有限。其中中间的这个机房在2009年改造为高密度机房,这在当年这是很大的挑战,众多厂家均无设计经验也没有什么成功案例可以参考,只能自己钻研自己设计,为节约空间贴墙安装配电柜,同时采用了房间级空调和风道实现冷热通道分离来提高单个机柜的热密度,在紧张的空间和当年极其有限的经费情况下这几乎是惟一的方法,在使用了14年的今天这个机房仍旧正常的运转。右侧的机房,是四年前新改造的,采用了现在流行的冷通道封闭方案,以提高效率简化运维。目前两个高密度机房的冷冻水室外机组和室内机都做到了N+1的冗余。

蓝框的部分是空调,红框标出的位置是配电柜(部分配电柜在图上未画出)

对于最左侧的低密度机房来说,使用了互相独立的三台直膨式小空调,即使在坏两台的情况下,仍然能够保证机房的温度大概在30摄氏度,这样可以尽可能保证业务的连续性。

除了制冷、配电等问题,布线也是很大考验。以前设备少线缆少,主要是南北流量,机柜之间又没有阻隔,线缆甚至可以横着走。现在机房越来越大、设备越来越多,设备互联的东西向流量大,随着带宽的增加线缆的成本越来越高,机柜间还有列间空调,布线就会困难得多。对于HPC/AI集群,高性能网络的线缆成本更加昂贵,因此提高单机柜密度已经变得非常重要,这样可以大幅度减少线缆的成本和后期运维的压力。

在姚舸看来,机房的基础设施建设,一定要自上而下来做,机房的风火水电等基础设施要跟上层的硬件设备,以及顶层的业务紧密相关,整体考虑,从头要做到尾,节约能源,也可以让学校的经费得到最大化的应用。这,也是一种绿色。

后记

从业务发展与需求变换看数据中心变革,南京大学绿色e-Science中心的创新实践,与益企研究院一直秉持的“全栈数据中心”理念高度吻合。

全栈数据中心是纵贯IT基础设施与数据中心基础设施,把芯片、计算、存储、网络等技术和数据中心风火水电作为一个整体看待。上层业务需求的变化会通过芯片、计算和存储等IT设备传导到基础设施层面,即数据中心作为基础设施也会相应的产生自上而下的变化。

数字中国万里行暨算力经济中国行走进高校系列,我们将围绕大模型、大算力、智慧科研、绿色算力等相关技术、产业、人才培养等话题深度探讨,研究,敬请关注!

上一篇
下一篇