浪潮信息夺得MLPerf年度总冠军:产业AI化需要“场景革命”

2021年,人工智能仍在经历从技术发展到应用落地的关口,尽管这已不是什么新鲜事,但人工智能落地的速度,还是要慢于大部分人的期待。站在产业AI化的时代大门,产业链厂商都在探寻让人工智得以加速落地的路径。

近日,MLPerf 2021年度第4次性能测试正式收官,也标志今年所有测试全部完成。2021年度MLPerf共诞生95个固定任务冠军,浪潮AI服务器共斩获44项第一,名列MLPerf 2021年度冠军榜首。

浪潮信息夺得MLPerf年度总冠军:产业AI化需要“场景革命”

这意味着在人工智能的训练和推理场景中,浪潮信息都实现了更高的效率,更快的速度,更强的性能,从而有了更现实的落地预期。那么,浪潮信息是如何推进产业AI化的?

训练和推理双料冠军,展现统治力

MLPerf由图灵奖得主大卫·帕特森(David Patterson)联合顶尖学术机构发起成立,也是影响力最广的国际AI性能基准评测。MLPerf的测试主要分为两方面,AI训练基准测试以及AI推理基准测试。

此外,MLPerf AI训练基准测试分为集群测试与单机测试两个场景,只考察完成AI任务训练的时间,时间越快则代表性能越强。MLPerf AI推理基准测试则多维度考察单机在数据中心和边缘两种场景下的推理性能。

在AI训练基准测试方面,MLPerf训练V1.1任务分为图像分类(ResNet)、医学影像分割(U-Net3D)、目标物体检测(SSD)、目标物体检测(Mask R-CNN)、语音识别(RNN-T)、自然语言理解(BERT)、智能推荐(DLRM)以及强化机器学习(Minigo)共8类AI应用场景,也是比较常见的人工智能应用场景。

12月1日,MLPerf 公布了最新一期训练(Training)榜单V1.1。浪潮信息提交了AI服务器所有8项单机测试的固定任务(Closed Division)成绩,并斩获其中7项冠军。

在AI推理基准测试方面,最新的MLPerf 推理V1.1 AI基准测试固定任务(Closed)包括数据中心(共16个项目)和边缘(共14个项目)两大场景。在数据中心场景下设置6个模型,分别是图像识别(ResNet50)、医学影像分割(3D-UNet)、目标物体检测(SSD-ResNet34)、语音识别(RNN-T)、自然语言理解(BERT)以及智能推荐(DLRM),其中Bert、DLRM和3D-Unet设有高精度(99.9%)模式。除医学影像分割任务只考察Offline离线推理场景性能外,其他模型任务按照Server在线推理和Offline离线推理两种应用场景分别进行性能测试。边缘场景AI模型在数据中心场景的6个模型基础上删减了智能推荐模型,并增加目标物体检测(SSD-MobileNet)模型,所有模型均有Offline离线推理场景和SingleStream单流推理两个场景。

同样地,在最新一期推理榜单 V1.1最受关注的固定任务(Closed)测试中,浪潮获得15项冠军,占据冠军榜单半壁江山。

浪潮信息夺得MLPerf年度总冠军:产业AI化需要“场景革命”

统计MLPerf 2021年度测试数据不难发现,浪潮信息展现了极为突出的统治力:2021年,浪潮AI服务器在MLPerf数据中心AI推理场景的总32项任务中斩获17项冠军,在边缘AI推理场景的总31项任务中斩获16项冠军,从云到边全面领先;在单机AI训练场景的16项任务中浪潮AI服务器共斩获11项冠军。

浪潮信息凭何夺冠?

首先,浪潮信息的优势在于“人无我有”,在MLPerf V1.0至V1.1推理榜单中,浪潮是唯一率先支持8xA100-80GB-500W GPU服务器的厂商,并且提供了液冷与风冷两种机型。与之对比的是,尽管有其它厂商也提供了支持A100-80GB-500W GPU服务器的测试结果,但是其能够支持的GPU数量仅有4颗。

其次,在“人有我有”的情况下,浪潮信息进一步实现了“人有我优”。在V1.1训练测试中,Supermicro也推出了单机8块500W卡的机型,是第一次在MLPerf中出现浪潮以外的公司,提供单机搭载8块A100-SXM-80GB(500W)的机型。

浪潮信息夺得MLPerf年度总冠军:产业AI化需要“场景革命”

虽然主要配置相近,但是浪潮NF5688M6以较大幅度领先Supermicro,说明服务器是一个内部相互作用的系统,靠堆砌硬件远达不到最优效果,硬件的拓扑,硬件的优化和软件的调优也会影响服务器的性能。

最后,不得不提的是浪潮信息系统级的构建能力,实现了服务器软硬全栈优化,是浪潮AI服务器能在训练和推理场景都保持优势的原因。

  • 硬件层面,浪潮信息针对AI训练中常见的密集IO传输瓶颈,浪潮AI服务器以领先设计大幅降低通信延迟,极大提升了AI训练效率;同时通过对CPU、GPU硬件性能的精细校准和全面优化,使CPU性能、GPU性能、CPU与GPU之间的数据通路均处于对AI推理最优状态。
  • 在软件层面,浪潮信息针对高负载多GPU协同任务调度,对NUMA节点与GPU之间的数据传输进行全面优化和深度调校,确保训练任务中的数据IO无阻塞;推理方面,结合GPU硬件拓扑对多GPU的轮询调度优化,浪潮信息使单卡至多卡性能达到了近似线性扩展。

此外,在深度学习算法层面,结合GPU Tensor Core 单元的计算特征,浪潮信息通过自研通道压缩算法成功实现了模型的极致性能优化。包括在散热层面的优化,针对目前业界功率最高的A100-SXM-80GB(500W) GPU,浪潮信息率先开发的先进冷板液冷系统,确保GPU在全功率甚负载下依然稳定工作,将AI计算系统的性能发挥到极致。

场景化的AI,才是实用AI

在这一轮人工智能发展的上半场,不断被提及的是算力、算法和数据,倘若以2020年为节点,下半场出现的高频词汇却是知识、行业know how和应用,其核心是人工智能不再贪多,从服务于一个场景开始,来达到人工智能的实用性。

对于当下的人工智能产业,应用侧是千变万化的,很难用一种解决方案完全覆盖,人工智能落地需要根据具体的场景、环节做具体的工作,浪潮信息也是这么做的。

每一个测试任务都对应着实践中AI落地的各种业务场景,不同的任务场景需要不同的计算类型,不仅是硬件层面,同时要在算法和数据结构上做改进,浪潮信息能够极大满足不同负载对于AI计算的需求。

从训练到推理,浪潮以场景为先的方法论收获了不错的效果。

最新一期训练测试结果显示,浪潮AI服务器在图像分类训练中每秒可处理27400张图片、在目标物体检测训练中每秒可处理12600张图片、在语音识别训练中每秒可处理8000段语音。

在单机系统测试的8项任务中,相较半年前V1.0竞赛最佳成绩,浪潮信息将医学影像识别、语音识别、智能推荐和自然语言理解任务的AI训练速度分别提升18%、14%、11%和8%。

最新一期推理测试结果显示,浪潮获得15项全球第一,涵盖医学影像识别、自然语义理解、图像识别、语音识别、智能推荐、目标物体检测(SSD-ResNet34)以及目标物体检测(SSD-MobileNet)全部7项AI模型任务。

即便在相同服务器配置下各项任务成绩依然得到较大改善,如图像识别(ResNet50)和语音识别(RNN-T)的模型性能分别较半年前的V1.0竞赛成绩提升了4.75%和3.83%。

人工智能只有实际落地才能形成真正的商业价值,而落地又倚靠多重要素,在这一过程中,浪潮信息不仅做算力提供商,凸显顶级AI服务器在AI模型训练和推理效率上的巨大价值,还能为人工智能落地提供场景化思维,推动人工智能产业生态的发展。

产业AI化:离客户越近,离竞争越远

伴随人工智能商业落地进程,场景化成为公认趋势。人工智能在千行百业内落地,不仅要做到人工智能+,更应该是场景化AI,针对每一个场景进行AI落地。

研究学者、产业厂商等从未放弃探寻过通用AI的可能性,例如当下火热的大模型就是典型代表,但是不得不承认,现阶段的AI局限于部分固定场景,才能实现更好的效果。

换个角度思考,即使通用AI也只能实现“通用”,并不能实现效果最优。以x86架构为例,x86凭借计算通用性得以广泛推广,但不同厂商的x86服务器在相同任务上依旧高下有别,浪潮信息深谙此道。

这揭示了一个更古不变的真理:离客户越近,离竞争越远。尤其是在以场景决定价值的人工智能业务上,对客户场景的深入理解,是厂商体现竞争力的关键。

据IDC最新全球服务器市场季度(2021年Q3)报告显示,浪潮服务器的出货量连续两个季度保持全球第二、中国第一,并进一步扩大领先优势,销售额同比增长15.0%,出货量同比增长14.0%,市场份额占比达10%。

同时浪潮信息AI服务器市场份额全球第一,中国市场份额已连续五年稳居第一。浪潮信息过往在服务器市场的经验,在AI时代放大并对外输出,在人工智能业务场景得以收获。

浪潮信息在MLPerf中能取得优异成绩的关键,也建立在对客户应用场景的理解之上,在产品研发、客户需求、实际应用中所获得的洞察和理解,指导了浪潮信息在测试中的策略。与此同时,浪潮在MLPerf测试中的探索和创新,也帮助浪潮更好地回馈产业客户的实际应用,以此形成一种良性的循环。

例如,在不断斩获MLPerf冠军的同时,浪潮也把竞赛过程中探索出的高效优化方法回馈至MLPerf社区,推动AI技术的共同进步。

在MLPerf Training v0.7中,浪潮开创性提出效率更高的ResNet收敛性优化方案:在ImageNet数据集上,仅使用85%的迭代步数就达到了75.9%的目标精度,该优化方案将训练性能提升了15%。目前,该方案已被社区成员采纳,并广泛应用到MLPerf Training V1.0测试中,这也是MLPerf中RenNet任务成绩得以大幅提升的重要原因。

深耕行业将是未来一段时间人工智能产业主脉络,离客户越近才会了解客户的痛点,产业AI化需要“场景革命”。浪潮信息在MLPerf中的表现,证明了其对不同场景的AI计算方案都处于领先水平,浪潮信息根据场景适配方案,将对业务场景的理解,转换为AI训练和推理层面的价值提升,为人工智能高效融入千行百业开辟新路,最终将产业AI化进程推到一个新的境界。

上一篇
下一篇