【新闻速递】轻松推理、弹性扩展 | 戴尔PowerEdge与英特尔数据中心GPU Flex系列联袂首秀

最近刚发布的《数字中国万里行2023新型算力中心调研报告》中指出,多样化应用场景加速算力格局变化,通用算力与智能算力相辅相成,适应多变的算力需求。

前两期的服务器大讲堂中,我们对基于第四代英特尔至强可扩展处理器的戴尔新一代Dell PowerEdge服务器进行了评测和详细解析,为追求高性能和追求“均衡”的不同用户提供了选择。

在后台有朋友就问了,说现在图形计算、数据处理、视频编码对服务器提出不同工作负载需求,能否提供一款基于英特尔处理器的异构方案呢?

Flex入局

答案来了:2022年8月,英特尔推出了数据中心GPU Flex系列(以下简称“Flex系列”),切入上述市场。已经上市的产品包括Flex 140和Flex 170。支持Flex系列的戴尔服务器也在第一时间上市。

E企研究院,赞218

现在我手上的这块是Flex 140,典型的半高、单宽设计,被动散热。外壳是金属材质,除了兼做导风罩,还有额外的散热效果。而且做的很有质感。

单卡有2颗GPU,12GB GDDR6内存,接口是PCIe 4.0 x8。

视频转码

英特尔Flex系列内置的Xe媒体引擎支持8k60Hz 12bit HDR解码,编码也可以支持到8k 10bit HDR。这还是蛮前卫的。常见的编码格式也都支持。

貌似是首个内嵌AV1硬编码的。AV1编码画质高、码流低,终端的支持非常积极,各大视频平台也正在导入这个格式。

我们先在Windows Server 2019下体验一下AV1编码。以益企研究院制作的4K视频为例。使用的硬件平台是Dell PowerEdge R750服务器,选配了双路第三代英特尔至强可扩展处理器金牌6354,以及256GB内存。

我们配备两块Flex 140,占用R750一个Riser上的2个PCIe插槽。

前面说过,每块卡有2个GPU核心,所以系统里可以看到4个加速器。

高质量模式下,AV1(编码文件)的体积不到源文件的四分之一,使用GPU硬加速编码,近7分钟的4K视频转码用时不到3分钟。

如果用至强处理器软编码,类似的画质需要大约14分钟时间。

从GPU占用率看,一路4K视频转码只占用一个GPU一半的资源。其实Flex 140一个GPU核心有两个媒体引擎。

我们转到Ubuntu 22.04系统下,用FFMPEG验证多路视频流在多GPU核心上的并行处理能力。

譬如1080P的AV1视频转码,1路视频时的转码速率约为每秒193帧,只占用一个核心约50%的资源。将视频增加到16路,4个核心资源充分利用,转码速率约为每秒180帧。

如果要处理4K的AV1视频,可以并行处理4路,且速度完全不减,GPU占用率不到90%。

要想让GPU满载怎么办?8K60视频可以做到。

视觉推理

推理加速方面,Xe Matrix Extensions可以加速各种主流的数据类型,包括BF16、INT8、甚至INT4。

我们前面提到的计算机视觉应用,譬如零部件缺陷检测、车牌识别、行为识别等等,都是推理任务。

益企研究院利用经典的ResNet50卷积网络对Flex 140的推理能力进行了实测,使用效率较高的INT8。在调用单GPU核心的情况下,每秒吞吐量大约为1400张图像。

认真看过我们做的英特尔第四代至强可扩展处理器测试的朋友应该知道,我们是首批验证新平台AMX加速能力的机构,当时用的是近乎于顶配的铂金8480+,ResNet50的吞吐量破万。不过呢,单是两颗8480+的价格就得小20万了……

为了多路并行处理,我们在Ubuntu中直接配置4个Docker,同时跑ResNet50。各个Docker的吞吐量在1300多到1400多不等。叠加起来就是大约5500的吞吐量——这是不是就合理多了?

除了性能,还有一个重要的因素是CPU占用率。

在物理机中运行ResNet50,Flex 140的CPU占用率只有1%!作为对比,用至强金牌6354跑同样的数据集,也可以达到1400的吞吐量,但代价是接近50%的CPU占用率。

这样,结论就很明显了:将图像分类之类的任务交给Flex 140后,这台戴尔服务器还有充足的性能进行下一步的处理。对于企业用户,配置了加速卡的服务器在担负视频转码、推理等应用的同时,也可以有足够的资源运行其他实例。

结语

主流的视频转码、目标检测等应用,通常用性价比较高的平台,搭配多路GPU卡实现,实现多路输入、并行处理。Flex 140是单宽、半高、半长卡,功耗也只有75W,典型的2U服务器扩展4块这样的卡没有难度,搞上十块八块也是可能的。

目前支持英特尔Flex系列的戴尔15代服务器已经上市,预计支持Flex系列的全新一代PowerEdge服务器也会在第三季度亮相。这类GPU服务器可以用合理的效费比提供较高的吞吐量,满足广泛的媒体处理、视觉推理加速等需求,部署于各类视频平台、智慧交通、智慧工厂、智慧零售等场景。

上一篇
下一篇