NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机
NVIDIA Spectrum-X 使基于 NVIDIA Hopper 十万卡 GPU 的巨型系统成为可能
2024 年 10 月 28 日—NVIDIA 宣布,xAI 位于田纳西州孟菲斯市的 Colossus 超级计算机集群达到了 10 万颗 NVIDIA® Hopper GPU 的巨大规模。该集群使用了 NVIDIA Spectrum-X™ 以太网网络平台,该平台是专为多租户、超大规模的 AI 工厂提供卓越性能而设计的 RDMA(Remote Direct Memory Access)网络。
Colossus 是世界上最大的 AI 超级计算机,目前正被用于训练 xAI 的 Grok 系列大语言模型,以及作为 X Premium 用户功能之一的聊天机器人(Chatbot)。xAI 正在将 Colossus 的规模进一步扩大一倍至 20 万颗 NVIDIA Hopper GPU。
xAI 和 NVIDIA 仅用了 122 天就建成了所有配套设施和这台最先进的超级计算机,从第一个机架落地到开始训练任务,只用了 19 天。而建造这种规模的系统通常需要数月乃至数年的时间。
在训练 Grok 这种超大型模型时,Colossus 实现了空前的网络性能,在三层网络架构下,整个系统未出现任何因流量冲突而造成的应用延迟增加或数据包丢失的情况。凭借 Spectrum-X 先进的拥塞控制功能,系统数据吞吐量一直保持在 95%。
这一性能水平是传统以太网在大规模的情况下根本无法实现的,传统以太网在数千条流发生冲突时,只能提供 60% 的数据吞吐量。
NVIDIA 网络高级副总裁 Gilad Shainer 表示:“AI 正变得至关重要,对性能、安全性、可扩展性和成本效益提出了更高的要求。NVIDIA Spectrum-X 以太网网络平台专为那些如 xAI 一样的创新企业提供更快的处理、分析和执行 AI 工作负载的速度,进而加速 AI 解决方案的开发、部署和上市。”
埃隆·马斯克在 X 上表示:“Colossus 是世界上最强大的训练系统。xAI 团队、NVIDIA 和我们的众多合作伙伴及供应商干得漂亮。”
xAI 发言人表示:“xAI 构建了全球规模最大、性能最强的超级计算机。借助 NVIDIA Hopper GPU 和 Spectrum-X,我们得以突破大规模 AI 模型训练的边界,打造基于以太网标准并经过超级加速和优化的 AI 工厂。”
Spectrum-X 平台的核心是 Spectrum SN5600 以太网交换机,它支持高达 800Gb/s 的端口速度,采用了 Spectrum-4 交换机 ASIC。xAI 采用了 Spectrum-X SN5600 交换机与 NVIDIA BlueField-3® SuperNIC 的端到端解决方案,实现了前所未有的性能。
专门面向 AI 的 Spectrum-X 以太网网络具有先进的功能,可在提供高效、可扩展的带宽的同时,实现低延迟和短尾延迟,而这些功能之前是 InfiniBand 网络所独有的。Spectrum-X 的功能包括基于 NVIDIA DDP(Direct Data Placement)技术的动态路由、拥塞控制计算,以及增强了 AI 网络的可视性和性能隔离,所有这些功能都是多租户生成式 AI 云和大型企业应用环境的关键要求。
关于 NVIDIA
NVIDIA(NASDAQ:NVDA)是加速计算领域的全球领导者。
媒体咨询:
何祝君
NVIDIA 高级公关经理
邮箱:adah@nvidia.com
吴冰柔
北京科闻领睿咨询服务有限公司
邮箱:Sharon.wu@archetype.cn
该新闻稿所含若干陈述包括(但不限于)有关以下各项的陈述:NVIDIA 产品和技术的优势、影响和性能,包括 NVIDIA Hopper GPU、NVIDIA Spectrum-X 以太网网络平台、NVIDIA Spectrum SN5600 以太网交换机、Spectrum-4 交换机 ASIC 和 NVIDIA BlueField-3 SuperNIC;xAI 的 Colossus 超级计算机集群的功能;xAI 正在将 Colossus 的规模进一步扩大一倍至 20 万颗 NVIDIA Hopper GPU;NVIDIA Spectrum-X 以太网网络平台加快了 xAI 等创新企业处理、分析和执行 AI 工作负载的速度,进而加速了 AI 解决方案的开发、部署和上市;借助 NVIDIA 的 Hopper GPU 和 Spectrum-X, xAI 得以推动大规模 AI 模型训练的边界,创建出一个基于以太网标准且经过超级加速和优化的 AI 工厂等均属前瞻性陈述,受制于可能导致结果与预期有重大差异的风险和不确定因素。可能导致实际结果产生重大差异的重要因素包括:全球经济状况;我们依靠第三方来制造、组装、包装和测试我们的产品;技术发展和竞争的影响;新产品和技术的开发或者现有产品升级;我们产品或合作伙伴产品的市场认可度;设计、制造或软件缺陷;消费者偏好或需求的变化;行业标准和接口变化;我们产品或技术在集成到系统中时发生的意外性能损失;NVIDIA 向美国证券交易委员会(SEC)提交最新报告中不时详述的其他因素,这些报告包括(但不限于)采用 10-K 表的年度报告和采用 10-Q 表的季度报告。向 SEC 提交的报告的副本均在 NVIDIA 的官方网站上发布,并可免费下载。以上前瞻性陈述并非未来表现的保证,仅以本协议日期为准;除法律要求外,NVIDIA 不承担更新以上前瞻性陈述以反映未来事件或情况的任何义务。
© 2024 NVIDIA Corporation保留一切权利。NVIDIA、NVIDIA 商标、NVIDIA Spectrum-X 和 BlueField均为 NVIDIA Corporation 在美国和/或其他国家的商标和/或注册商标。其他公司和产品名称可能是与其相关的各家公司的商标。功能、价格、可用性和规格如有更改,恕不另行通知。