联想万全异构智算平台,打开AI 2.0时代的算力魔盒!
联想推出万全异构智算平台,以“一横五纵”策略应对AI 2.0时代算力挑战,通过技术创新提升计算效率,并与锐捷网络合作加速AI基础设施布局。同时,成立异构智算产业生态联盟,推动产业合作,致力于提供高效、绿色的智能算力,助力企业智能化转型。
一年前,ChatGPT这只蝴蝶轻轻扇动的翅膀,掀起了如今最强劲的AI风暴。AI大模型具备超强的泛化、生成能力,促使人工智能进入更广的应用场景和更深的业务流程中。尤其在产品设计、金融评估、办公辅助、自动驾驶、能源调配等方面,颠覆式地改变生产方式,极速促进生产效率。
随着“百模千态”走向每一个行业,加速千行万业智能化转型时,承载大模型的新型算力中心也在悄然发生变化,算力规模快速增长、计算技术多元创新、产业格局加速重构。要实现AI大模型的“智力”进阶,就需要更强大的运算能力和更加丰富的算力资源。而AIGC需求引发的数据洪流,更是对数据中心的服务器、网络、存储及安全管理提出了更高的要求。
4月18日,在联想创新科技大会(2024 Lenovo Tech World)上,联想集团副总裁、中国基础设施业务群总经理陈振宽表示:“大模型开启的AI 2.0时代已经迈着大步朝我们走来,我们需要重塑过去积累的技术,升级联想的基础设施,来满足客户的智算新需求。”
联想集团副总裁、中国基础设施业务群总经理 陈振宽
基于此,联想正式对外发布了“联想万全异构智算平台”,并提出了基于“一横五纵”产品策略,助力客户在AI 2.0时代下算力突围的方法,让AIGC更快地融入到千行百业之中,从而推动中国数字经济迈入高质量发展的新阶段。
“一横五纵”
联想打开AI 2.0时代的“密钥”
AIGC的兴起所产生的巨量训推算力需求让本就供需不平的算力产业结构进一步“承压”,而这也对数据中心基础设施提出了全新的挑战。
正是洞察到这种市场变化,陈振宽强调,联想AI基础设施持续聚焦三大领域,实现科技创新。首先是超强算力,智能匹配:为用户匹配经过验证优化的最佳算力;其次是核心算法,极致提效:以核心算法挖掘算力潜力,提升计算效率。第三,液冷创新,打造绿色算力:以先进的液冷技术帮助用户节能增效,并突破芯片散热的瓶颈。
具体到落地层面,联想针对客户对AI基础设施的新需求,构建了“一横五纵”战略框架,“一横”即联想万全异构智算平台,这是AI 2.0时代联想中国基础设施战略框架的核心,作为能高度自动化完成AI全流程开发的平台,可输出高可用算力并不断突破计算效率瓶颈的利器。“五纵”即服务器、存储、数据网络、软件及超融合以及边缘基础设施产品和方案。目前联想是全球第一大科学计算、第三大AI基础设施和服务器供应商,存储也居于全球第三位,拥有通用计算、科学计算、智能计算、边缘计算的完整布局。同时,联想全面布局了冷板式、浸没式等液冷技术,并在全球打造了多个业界领先的液冷数据中心。联想海神温水水冷技术可实现100%服务器部件用水冷却,热移除效率最高达98%。
除此之外,算力需求的指数级增长,也对网络提出了超大规模、超高带宽、超强可靠性的需求。因此,联想在3月26日与锐捷网络股份有限公司达成战略合作,双方将以此次战略合作为契机,携手共进、优势互补,不断拓展合作的广度和深度。联想与锐捷合作的升级,将进一步落实和加快联想AI导向基础设施的“一横五纵”布局落地应用。
突破性五大创新 构建异构智算差异化优势
创新是企业发展的根基和动力之源,尤其是IT企业,在全球新一轮的AI浪潮下,只有通过创新才能持续引领产业变革。长期以来,联想集团一直非常注重技术的创新,创新实力更是得到了业界和资本市场的双重认可,连续两年入选 BCG全球最具创新力50强。
在高峰对话,AI 2.0时代的智算新需求环节中,甘肃紫金云董炳武表示,近年来在智算设施性能及能耗不断提升的背景下,原来的机柜功率已经无法满足客户需求。而吉利张振杰也提到了算力优化对于智算中心的重要性,他表示,在系统部署高性能计算、智算之后,吉利汽车研发效率整体缩短了30%。同时,阿里云赵林特别提出,大力发展AI应用需要结合各方的力量,只有行业的参与者各自发挥自己的领域优势,降低AI使用的门槛。
目前,AI计算效率普遍偏低,难以达成预期,联想一直非常注重AI时代对算力效率的提升,五大创新中有四项是聚焦在提升算力利用率和可用性的算法创新。在过去一年,联想一直针对行业需求积极创新,陈振宽总结了联想过去一年为AI 应用大潮创新的五大技术,包括智能算力魔方、内核态虚拟化算法、集合通讯算法库、AI高效断点续训技术,以及跨AI和HPC集群的超级调度器。
联想中国基础设施业务群战略总监黄山为我们详细介绍了这五大创新为AI 2.0时代所带来的价值。
首先,在GPU算法优化方面。由于目前大多数GPU虚拟化的算法是在操作系统层面建立的,导致了GPU算力浪费。为此,联想研究院开发了在GPU驱动层的内核态虚拟化算法,联想万全异构智算平台融入GPU内核态虚拟化能力,在用户端成功实践,在多类推理和精调场景大幅提升GPU利用率20%-30%。
第二,在网络提速方面。网络通信慢会导致GPU空闲等待,计算效率降低。针对大规模集群网络通信瓶颈的挑战,联想由蚂蚁启发的数学算法被利用到联想通信算法,设计了优化网络数据传输路径的通信算法。以千卡规模集群为例,采用集成了联想集合通信库的联想万全异构智算平台做管理调度,可使网络通信效率提升超10%,并且集群规模越大,效果越显著。
第三,在AI运维方面。据统计,目前千卡集群每月至少有15次的故障断点。在常规的断点续训手段下,每次恢复训练需要几个小时,产生的额外费用超过百万元。联想异构智算平台在常规以外,深化了对软、硬件的全面监控,优化了多级存储备份架构和策略,更以多年积累的AI训练故障预测的AI模型来预测断点和提前优化备份,由此能将断点续训恢复时间缩减到分钟级。
第四,在破局算力孤岛方面。由于AI和HPC集群的调度方式完全不同,用户在不同集群间共享资源时,既要通晓两种调度方法,又要付出大量操作,导致无法实现资源共享。联想AI与HPC超级调度器架构的精髓之处就是做出能指挥双类型调度的最精简架构,在AI的K8S调度和HPC的Slurm调度之上,能够切换AI和HPC的调度沟通,能全局监控任务和动态共享资源,使得用户可以充分利用基础设施的每一分算力。
另外,除了算力效率方面的提升,为了帮助客户提升应用体验,联想构建了AI场景与算法与集群硬件三者匹配关系的算力魔方知识库,来标识AI场景、算法、集群配置这三者的匹配关系。针对不同场景,可以全自动规划和调度最佳算法和集群配置,用户只需输入场景和数据,即可自动加载最优算法和调度最佳集群配置。
基于这些创新设计,让联想万全异构智算平台成为了一个高度自动化完成AI全流程的平台,从而持续稳定地输出算力,并不断地突破计算效率的瓶颈。黄山表示,不断提升AI基础设施的计算效率才可以保证我们在AI应用大潮中取得领先地位。未来联想将挑战超过万卡规模集群的通信算法优化,挑战秒级的断点续训,深入研究相变式液冷技术,布局模块化液冷数据中心。这些技术帮助 AI 算力朝着更强大、更稳定、更高效和更绿色的方向,高质量发展。
生态创新 成立异构智算产业联盟
伴随生成式人工智能应用在行业走深向实,“大模型+大算力+大数据”正成为新一代人工智能发展的基本范式。第十四届全国政协委员、中国科学院计算技术研究所研究员张云泉表示,面对计算资源融合发展的未来,算力新基建需求快速发展,以支持人工智能、云计算、大数据等多元计算场景,推动算力向新质生产力转化。
第十四届全国政协委员、中国科学院计算技术研究所研究员 张云泉
但AI产业的发展,都离不开生态合作伙伴的支持。为了促进异构智算行业需求,加速异构算力应用。在大会当天下午的联想智算产业生态创新论坛上,联想集团与中国智能计算产业联盟共同宣布发起成立异构智算产业生态联盟,联合产业头部生态伙伴共建联想万全生态,通过联盟整合资源,提升产业的竞争力,制定产业标准,促进行业规范发展。
据介绍,异构智算产业生态联盟旨在携手成员共同建设一个分工合作、规范有序、安全健康的智算产业生态,加速大模型推动的智算产业化进程,推动AI基础设施的融合发展,共同提升中国智算产业的水平。异构智算产业生态联盟涉及AI芯片层、AI设备与系统层和AI平台与应用层,能够实现从IaaS平台、AI训练与推理到行业场景解决方案的全覆盖。
作为业界领先的智能基础设施及服务提供商,联想一直积极承担作为链主企业的责任。陈振宽表示,百花齐放的人工智能应用依赖于完整的人工智能生态圈,智算产业的高速繁荣发展离不开人工智能产业中每一个努力拼搏,不断创新的企业。联想将持续秉持合作共赢的理念,愿与众多优秀的伙伴们一道,加大资源投入,深耕场景,打磨产品,为中国智算产业的蓬勃发展提供坚实基础。
结 语
如今,AI热潮持续汹涌,算力产业蓬勃发展,行业发展迸发无限可能。联想集团基于万全异构智算平台,以丰富的产品布局,创新的技术,持续为用户提供安全稳定、高效、绿色的智能算力万全之策。从而帮助更多企业客户快速成长,高效创新,以稳进的步伐,开启智能化转型新篇章。