报告连载 | 算力经济时代的基础设施新价值

最近,业界首个以算网融合为核心的多元算力研究报告《算力经济时代·2023新型算力中心调研报告》出版,我们对报告内容开启连载模式。

结合算力经济时代的算力基础设施发展,第一章主要探讨了以下话题:

  • 多类算力基础设施并行发展
  • 多元算力与高速互联
  • 高效绿色的数据存储与管理
  • 绿色低碳与可持续发展
  • 能源与算力协同

2023 年始,ChatGPT和 GPT-4 再次掀起了人工智能的热潮,并打开了海量的应用场景:生成应用和布局、搜索和数据分析、程序生成和分析、文本生成、内容创作……ChatGPT 基于其庞大的算力和算法分析,可覆盖教育、科研、新闻、游戏等行业。

从 2018 年第一代生成式预训练模型 GPT-1 诞生以来,GPT 系列模 型几乎按照每年一代的速度进行迭代升级,2022 年以来,新的通用人工智能开始以更加高效的方式解决海量的开放式任务,它更加接近人的智能,而且能够产生有智慧的内容,也带来了新的研究范式—— 基于一个非常强大的多模态基础模型,通过强化学习和人的反馈,不断解锁模型的新能力。

ChatGPT是AI大模型创新从量变到质变长期积累的结果,是通用人工智能(AGI,Artificial General Intelligence) 发展的重要里程碑。

以GPT-4 为例,超大规模预训练模型展示了一条通向通用人工智能的可能方向,人们通过输入提示词和多模态内容,便可生成多模态数据。更重要的是,它可以用自然语言方式生成任务描述,以非常灵活的方式应对大量长尾问题和开放性任务,甚至是一些主观的描述。

“大模型 + 大算力 + 大数据”成为迈向通用人工智能的一条可行路径,比如大模型技术是自动驾驶行业近年的热议趋势。自动驾驶多模态大模型可以做到感知和决策一体化。在输出端,通过环境解码器可对3D 环境进行重建,实现环境的可视化理解;行为解码可生成完整的路径规划;同时,动机解码器可以用自然语言描述推理的过程,进而使自动驾驶系统变得可以解释。

而大规模深度学习模型的参数和数据量达到了一定量级,超大规模AI 大模型的训练一般必须在拥有成百上千加速卡的 AI 服务器集群上进行,需要相应算力的支撑。根据 OpenAI 的数据, GPT-3 XL 参数规模为 13.2 亿, 训练所需算力为27.5PFlop/s-day。由于ChatGPT是在13亿参数的 InstructGPT 基础上微调而来,参数量与GPT-3 XL接近,因此预计 ChatGPT 训练所需算力约为 27.5PFlop/s-day。

同样,算力作为自动驾驶的基本要素,从视觉检测、传感器融合、轨迹预测到行车规划,上万个算法模型需要同时完成高并发的并行计 算,需要更高性能的智算中心来完成训练、标注等工作。从2022年开始,人工智能算力成为主要增量,数字中国万里行考察期间,小鹏汽车和阿里云共同发布在乌兰察布合建当时国内最大的自动驾驶智算中心“扶摇”,专门用于自动驾驶模型训练,算力规模达 600PFLOPS,相当于每秒可以完成 60 亿亿次浮点运算。

从2018年开始,益企研究院(E 企研究院) 开启数字中国万里行,几年来,数字中国万里行的足迹遍布“全国一体化大数据中心”体系下的 8 个枢纽节点,出发点切合了国家后来提出“新基建”,路线选择和洞察也与国家“东数西算”工程的规划高度契合,深入实地对风、光、储能的考察符合“双碳战略”。

结合算力经济时代的算力基础设施发展,我们认为以下几个方向值得讨论。

多类算力基础设施并行发展

迄今为止,数字中国万里行已经考察了位于全国一体化算力网络十大数据中心集群中的多个不同类型数据中心,包含:互联网 / 云计算数据中心、金融数据中心、运营商数据中心、第三方 IDC、超算中心、智算中心。2022 年,我国算力基础设施迎来了多样化发展的繁荣期,从数据中心承载的应用来看,需要多类算力基础设施并行发展,保障算力资源的多元供给。

1.云数据中心加速算力普惠

过去几年,云计算行业均处于蓬勃发展阶段,技术演进结合客户需求释放,推动市场规模加速增长,促使云服务商加大全球数据中心布局。从全球来看,在过去三年对数字化转型进行了持续的 IT 投资 后,通货膨胀推动公共云成本不断上升,迫使企业客户优化公共云支出。宏观经济的不确定性导致信息技术预算采用更加保守的方案。越来越多的客户正在调整云策略,以提高效率和控制能力,在 2022 年,云基础设施服务的增长开始变缓。从 Canalys 的数据来看,2022年全年,云基础设施服务总支出从 2021 的1917 亿美元增长至 2471 亿美元,增幅达 29%。季度增长率放缓,2022 年第一季度为 34%,2022 年第四季度为 23%。Canalys 预计,在未来几个季度,云基础设施服务的增长速度将继续放缓。2023 年,全球云基础设施服务支出将增长23%。

同样,Synergy Research Group 的数据显示,2022年第四季度全球企业在云基础设施服务方面的支出超过610亿美元。从数据来看,比2021年第四季度增长了 100 多亿美元,前四季度的平均增长率为 31%。由于市场规模越来越大,Synergy 认为增长率的下降在一定程度上是意料之中的,但毫无疑问,当前的经济环境也产生了不利影响。

而对于中国市场而言,2022年是保守的一年,传统云服务商市场增长了 10%,总额达到 303 亿美元。Canalys 数据显示,2022 年第四季度,云计算支出总额为 79 亿美元,同比增长4%。与过去几年的强劲表现(前三年的年增长率超过30%)相比,2022 年的增长率大幅下降。Canalys 预计, 2023 年,中国云基础设施服务支出将增长12%。

疫情及其限制的影响不容忽视,但实际上,云计算行业增长动力逐步由互联网转向传统企业。政企客户对于云服务的安全、可控要求较高,再加上国资云、算力网络等新基建相关政策,电信运营商云接捧互联网巨头成为政企行业上云的 IaaS 服务主力军。

从中国移动、中国电信、中国联通2022年年报业绩来看,三家企业营收、净利润均实现增长,云计算成为拉动增长的主力,2022 年:

☞ 中国电信天翼云营收 579 亿元,同比增长108%;

☞ 联通云营收 361 亿元,同比增长121%;

☞ 移动云营收 503 亿元,同比增长108%。

作为算力的聚集点,云数据中心的规模化效应使得算力得以普惠化,用户按需采购算力、存储、带宽即可开展业务。随着国内大模型市场的快速发展对我国的基础算力提出更高的要求,没有算力基础,算法等发展难以为继。此时,云计算厂商的算力基础设施优势凸显,大模型的爆发会导致训练的应用场景越来越多,对训练的需求大幅增长,如何保证算力不衰减,对算力的高带宽、存算一体等提出新要求 , 需要底层平台+分布式框架+加速算法的高效集成。2023 年,云计算厂商开始发布人工智能大模型,4月份,阿里云通过官方微信公众号官宣了旗下的超大规模语言模型;华为云也介绍了华为盘古大模型的架构以及应用场景,还有在矿山、铁路、气象、医药分子等细分行业的应用。

未来,云数据中心的的核心依然是:让算力更加普惠,促使AI大规模普及。全方位的算力服务能力依然是云服务商竞争力的基石,算力基础设施的使用效率,会直接影响到云服务商的创新能力和盈利能力。另外,大模型是一场“AI+ 云计算”的全方位竞争,超千亿参数的大模型研发,并不仅仅是算法问题,而是囊括了底层庞大算力、网络、大数据、机器学习等诸多领域的复杂系统性工程,需要有超大规模 AI 基础设施的支撑。因此,云服务商不断优化硬件基础设施提升算力效率,提供通用计算、智能计算能力,通过云统一管理多种算力,灵活调度算力资源,并形成完整的产业生态,推动新兴产业发展。

2.智算中心加快智能算力部署

智算中心是服务于人工智能的数据计算中心,采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施。2022 年,智算中心作为发展最快的一种算力供给形式,全球人工智能算力成为主要增量。据IDC统计,2021年中国 Al 服务器市场规模为 53.9 亿美元,预计 2025 年达到 103.4 亿 美元,2021~2025 年 CAGR 达17.7%;2021年中国智能算力规模为155.2EFLOPS,预计2025年达922.8EFLOPS,2021~2025 年CAGR达56.15%。

在中国,智算中心发展尚处于初期阶段但发展迅速。从国家信息中心发布的《智能计算中心创新发展指南》来看,当前我国超过30个城市正在建设或提出建设智算中心,整体布局以东部地区为主,并逐渐向中西部地区拓展。

商汤上海临港人工智能计算中心(AIDC)

智算中心建设目的促进产业AI化、AI产业化,主要应用在城市治理、智能制造、自动驾驶等领域。2023 年火热的大模型计算的需求加速了算力的商业应用以及智算中心的发展。无论是智慧城市还是智能制造、无人驾驶、数字孪生等场景,除了要有数据支撑以外,还要和各领域、各场景的知识模型、机理模型甚至物理模型相叠加,形成基于人工智能的新应用和场景实现。以 AI 芯片为主的高效率、低成本、大规模的智能算力基础设施将成为训练AI大模型的前提。比如商汤科技发布多模态多任务通用大模型“书生(INTERN) 2.5”,其图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持。

多任务、多模态的能力需要强大的算力基础设施,以数字中国万里行参观的商汤上海临港人工智能计算中心(AIDC)一期为例,作为 SenseCore 商汤 AI 大装置的算力基座,AIDC 基于2.7 万块 GPU 的并行计算系统实现了5.0 exaFLOPS 的算力输出,可支持最多20个千亿参数量超大模型(以千卡并行)同时训练。目前商汤有 320 亿参数规模的通用视觉模型,在NLP 领域也有接近2000亿参数的大模型,有能力去训练 1800 亿参数的多模态大模型。

大模型进一步促进智算中心的发展。智算中心有技术实现复杂、建设周期长、资源投入巨大、产业辐射面广的特点。一方面,智能算力需求呈现几何式增长,本地智算中心主要服务本地产业和科研机构,无法向全国提供算力服务。另一方面,为了提供相匹配的超大规模的算力支撑,通过算力的生产、聚合、调度和释放,支撑产业创新聚集,亟需构建云化的智能算力网络,通过情况和各地区的需求情况进行算力动态调配,确保已建成的人工智能计算中心保持高效运营。

3.超算中心产业化

超算算力是基于超级计算机等计算集群所提供的高性能计算能力,通过各种互联技术将多个计算机系统连接在一起,利用所有被连接系统的综合计算能力来处理大型计算问题,所以又通常被称为高性能计算集群。目前已有11个国家级超算中心,多个省级超算中心和高校级超算中心。

一般来说,超算中心主要面向科研和科学计算进行计算密集型的任务处理,应用在基础学科研究、模拟仿真、气象环境、天文地理等领域。科学计算是大模型之外,AI 发展的另一重要方向,借助HPC,科学计算对基础科学研究和行业发展起到重大的推动作用。随着业务场景越来越复杂,AI+HPC的算力融合成为趋势。

2022 年,超算商业化进程不断提速,我国超算进入到以应用为需求导向的发展阶段。国内很多超算中心加强了商业化运行改革,算力服务异军突起,加速科研创新,以云服务方式提供通用超算资源,为拓展科学边界、推进技术创新提供了更强劲的动力。从2022 年中国高性能计算机性能 TOP100 排行榜来看,应用于“算力服务”的系统性能份额占比达到 57%, 超算中心、大数据、云计算、科学计算、视频应用分别以18%、6%、4%、4%、3% 排在其后。

2023 新型算力中心调研报告算力经济时代的基础设施新价值

在应用领域新增算力服务,充分反映了在大数据、人工智能算法和算力三驾马车协同配合时代中算力经济的发展,算力的多样化正成为高性能计算领域的发展趋势。

目前,国家也重视超算互联网工程,整合多个超算中心和云计算中心的软硬件资源,平衡算力的需求与供给,通过建设超算资源共享与交易平台,支持算力、数据、软件、应用等资源的共享与交易,同时向用户提供多样化的算力服务。(未完待续)

上一篇
下一篇