强劲算力 绿色加码 探索海洋深处的秘密
过去的一年,多模态大模型不断给行业带来惊喜,随着生成式AI和大模型技术加速破圈,算力进入“建设为王”的新时代。
从数据统计来看,2023年全国有超过30个城市在建或筹建智算中心的项目达到128个。2024年12月底,全国规划、拟建、在建带有“智算中心”的数量达到有732个。
在智算中心建设一路高歌猛进之时,智算中心的“空置率”最近成为行业内热议的话题,网上也出现“智算中心太多,大模型不够用了”的直言。
对于头部互联网及云计算公司而言,智算中心是其提升核心竞争力的体现,建设效率可能比研究突破更能决定谁将在AI的下一阶段脱颖而出。但针对ToB、ToC的AI应用尚未如预期般大规模快速增长,智算中心健康运行面临的核心依然是消纳算力问题。
在最近联想组织的走进海南崖州湾科技城、探索智算基础设施与AI应用的创新之旅中,海南人工智能计算中心坚定的产业运营思维,提供增效向新的智能算力和绿色可持续的技术方案,再次验证了这一逻辑:追求与客户的实际应用落地一直是智算中心叙事源头。
运营思维 智算中心的价值回归
在三亚市西部,有一块占地26.1平方公里的这片热土,正在构建一个陆海统筹、开放创新、产业繁荣、绿色节能的科技新城典范,这里便是有由南繁科技城、三亚深海科技城、三亚崖州湾大学城、南山港和全球动植物种质资源引进中转基地五大部分构成的崖州湾科技城。
2020年6月1日,中共中央、国务院印发《海南自由贸易港建设总体方案》后,崖州湾科技城不仅承担了国家深海科技创新中心、培育深海深空产业的重任,同时还要发挥国家南繁科研育种基地优势,建设全球热带农业中心和全球动植物种质资源引进中转基地。
随后,崖州湾科技城围绕南繁种业、现代生物医药、深海科技,航天科技、脑科学五个产业布局。
好消息是:聚焦南繁、深海、科教三大科技创新高地,入驻崖州湾科技科技城的研究机构和企业客户不断增加。但与之而来的崖州湾科技的园区管理者和进驻单位三连问。
- 园区进驻单位增加,算力问题如何解决?
对于园区而言,园区原有的云平台是难以支撑科研的算力需求。比如在种子种业、精准医疗、蛋白质结构研究方面,需要百P到E级算力;在深海科技领域,深海探测、海洋信息库需要高分辨率数值模拟,都在驱动计算量指数级增长。
而在入驻的科研单位中,有的单位自身实验室机房散热差、机器运行稳定性差,科研算力资源严重不足;还有一大部分科研计算任务需要还通过邮寄硬盘到国家超算中心运算。
- 科研方向广,如何构建专业化运营满足细分需求?
在入驻单位中,不同研究方向细分场景多,比如种子种业中的跨物种器官移植项目中的基因编辑生物技术场景、应用在蛋白质结构研究中的生物分子模拟场景;还有在深海科技领域中有关洋科学研究中洋流数据的监测、海洋信息库、新能源开发这些场景,都需要大算力科学仿真计算、大并发的生信分析计算。显然,以往架构单一的云计算无法满足科研单位的算力需求。
与之相对应的是,科研工作者大多非计算机科班出身,对于超算应用软件的部署、计算环境的迭代优化缺少相应能力,急需专业化的算力平台和运维服务支撑,让科研工作者精力回到自身科研业务中。
- 如何满足数不出园的管理需求?
对于科研单位来说,由于经费原因难以应用价格昂贵的商业软件费;与此同时,基因测序、生信分析产生海量的数据,对存储需求极大,科研单位本地存储资源少,且数据安全存在较大隐患。园区专有云平台HPC、AI算力不足,存储资源在海量基因数据面前更是显得捉襟见肘。
对于问题的答案,崖州科技城从海南人工智算中心开始讲起:基于当地的细分业务场景,注重智算运营思维。
海南人工智算中心由崖州湾科技城管理局负责统筹管理,崖州湾科技城管理局与海南电信采用共建共营共享方式,将先进计算中心将与人工智能计算中心算力实现统一调度合并运行,为提供园区科研单位及高校,提供全方位的高效算力综合服务。
高质算力 让科学专注突破界限
算力作为 AI 的核心驱动力,正经历着前所未有的深刻变革。在芯片的演进上,单个芯片通过应用Chiplet和先进封装等技术,集成的晶体管数量持续增长,相应的尺寸和功耗也越来越大。
单芯片的计算能力提升的同时,服务器架构设计迎来了越来越高的挑战,单机架功率不断提升。芯片和服务器技术的迭代升级加速了智算中心高密化趋势,需要发挥出最大算力性能。
考虑到速率、时延、算力密度叠加问题,海南人工智能计算中心围绕高密度和短距来布局。目前建设两个集群。一是联想主要承建的x86集群,二是完全国产自研的ARM集群。
其中联想承建的x86集群中,单液冷机柜包括64-66个节点服务器,单个机柜功率达到66kW。使用20260颗英特尔8458P,总计达到90640核算力。
在存储方面,部署了30P的高速存储,最多读写IO可以达到700G左右。同时基于园区内客户对数据传输的需求,崖州湾科技城管理局统筹建设了遍及整个园区的内网,海南人工智能计算中心实现了100G的骨干网接入,保证科研单位可以通过内网直接接入,达到高速传输。
目前结合算力供给呈现出多元化的复杂局面,海南人工智能计算中心实现多样化算力兼容,其中CPU算力11PFLOPS,GPU算力175PFLOPS。
海南人工智能算力中心进行通用计算集群、科学计算集群和AI算力集群进行统一管理,并对多种CPU、GPU、DPU等处理器进行异构管理调度。
作为科技城的心脏,海南人工智能计算中心为科技城脉搏提供了强劲的动力,不仅支撑着生命科学、海洋科学等领域的前沿研究,更为人工智能的发展注入了强大的算力支持,让科学家们能够专注于突破界限,探索未知。
绿色加码,讲出中国智算故事
按照新一代平台架构设计,海南人工智能计算中心从设计到交付,这一切时间仅为1年。
以联想交付的集群为例,前期在项目初期,双方就应用、设计、建设进行充分沟通,梳理出现有及未来研究学科的主要应用和数据特点,在技术方案选型及架构设计层面,设定一套足够支撑其高性能算力要求、海量数据读写且能满足主流学科应用兼容性的技术框架。
海南人工智能计算中心工程师表示,打造高密算力必经之路是:液冷技术的应用。海南人工智能计算中心项目要求PUE值整体必须低于1.3,且因存储、网络、安全设备均为风冷,对液冷服务器的PUE要求极高。
在建设方案上,从封闭冷通道、板水冷、循环水水冷、浸没式水冷各种方案的性能、成本、效果与项目组展开分析及论证,最终选定汇聚了材料学、微生物学、流体力学、传热学等科研结晶,采用联想温水水冷技术。
联想温水水冷方案利用纯净水作为冷媒,采用间接式液冷方式对计算机服务器进行冷却,对CPU、GPU等采用微通道(通道当量直径在10~1000μ)散热器,针对内存、较低功耗的I/O板卡等部件采用导热板散热技术。温水水冷技术通过减少对空调和散热器的需求,可节约40%以上的能耗成本,热量还可以循环利用,给机房、社区加热,同时噪音也比风冷低很多。
具体而言,海南人工智能计算中心采用联想最新的联想问天海神液冷解决方案,包含1038个水冷节点、16套IB交换机及5套DSS存储集群,达到了7.86 PFlops算力与30PB存储容量。
实际上,“联想问天海神”面向通用计算领域提供2U和1U的机架式服务器,科学计算领域提供包括海神温水冷超算产品SD/SC系列,智算领域也发布了8U大规模训练型服务器、8UOEM平台产品以及训推一体化服务器,所有产品均支持液冷方案,其中通用计算和智能计算产品所有关键核心部件支持冷板液冷散热,科学计算产品支持全覆盖冷板散热,广泛应用于全球各个国家和地区。
采用联想提供的冷板式液冷散热架构,海南人工智能计算中心将80%的发热量由冷板式液冷带热至外部冷却进行集中散热,使IT设备散热效率提升50%。数据中心内 CDUN+1冗于设计,确保液冷水路供应无虞。现在,通过冷板式液冷服务器,实现了200%的算力效率提升,智算中心总体PUE改善至 1.3以下,机柜部属密度提升 28.6%,基础设施能耗节省 30%,碳排放总量减少 10%。
让企业和用户实现算力无忧、应用无忧、运维无忧,企业和科研单位对海南人工智能计算中心的使用好评也充分验证另外一个答案:算力瓶颈不只是单纯的技术和建设问题,而是影响整个行业竞争格局的重要变量。
海南人工智能智能算力中心不仅为现代生物医药、热带特色高效农业和种业、深海、航天、清洁能源、节能环保、高端食品加工等支柱产业和实体经济高质量发展提供强大科技支撑。也向行业内验证了智算中心运营的基本逻辑:“以应用和场景”为第一性原理,从高质量算力出发,不断挑战绿色算力、可持续发展的上限,让人工智能和产业相结合,最终是一件很酷的事儿。