算力与场景协同 首个基于OCSP规范的用户案例落地

在超级计算深入到各行各业进程中,为了让超级计算更加智能化,让超算应用更加便捷,东方超算以云服务方式提供定制化超算云资源、软件和服务。东方超算云基于OCSP规范定制软硬件一体化的超级计算机系统,为公共服务、工业和学术提供高性能计算(HPC)、高性能计算分析(HPDA)和人工智能(AI)融合计算的应用和数据服务,提升算力使用体验。

–北京东方超算科技有限公司CEO 白洋

随着智能计算时代的到来,超级计算正在与人工智能、大数据融合发展,尤其是使用成本的不断下降,其应用领域也从具有国家战略意义的科学计算领域向更广泛的国民经济主战场快速扩张,如人工智能、深度学习、生物医药、基因工程、动漫渲染、过程控制、数据挖掘、金融分析、公共服务等领域。

在超级计算大众化进程中,超级计算运行模式逐渐向云计算方向演进。北京东方超算科技有限公司(以下简称“东方超算”)推出的东方超算云通过软硬一体全栈式运营服务平台加速行业创新,以云服务方式提供通用超算资源,为拓展科学边界、推进技术创新提供了更强劲的动力,满足科学计算、工程计算等领域的巨量计算需求。

东方超算云内蒙古超级大脑数据中心

内蒙古超级大脑数据中心位于国家“东数西算”工程中设立的内蒙古枢纽和林格尔新区,基于英特尔部署软硬件一体化的超算云资源,为公共服务、工业和学术提供高性能计算、大数据和人工智能服务,目前孵化10项以上SaaS服务,正在运行的有工业设计仿真协同一体化云、智能材料研发云、对地观测科学数据云、高时效高精度区域天气数值预报平台、碳核算平台等。

东方超算云内蒙古超级大脑数据中心在设计标准方面符合国家高能效、低碳要求,拥有360个18KW高密度机柜。结合内蒙古全年充沛的自然冷源,在数据中心制冷方面采取了新一代氟泵自然冷节能技术,从而为大幅度降低数据中心整体PUE值发挥了重要作用。

东方超算云内蒙古超级大脑数据中心

目前,内蒙古超级大脑拥有服务器4000台,20PB分布式并行存储容量,作为通用计算平台和存储平台,可为行业应用和数据提供高性能计算、高性能数据分析和人工智能计算的融合计算技术支撑。

超级大脑引入基于OCSP规范的计算平台

东方超算致力于全球先进的超级计算机研发、制造和运营。当数据中心技术架构变得更加精细,基于不同应用环境,东方超算通过定制化满足超级计算用户需求,随着CPU核心数量增加、新技术(DDR5、PCIe 5.0)的应用,要满足不同行业客户多样化需求,产品研发成为挑战:研发成本提高,各个部件互不兼容导致重复投入。

为此,东方超算选择基于OCSP规范的服务器,联合英特尔、闻泰科技共同开发,并经过测试和验证后在东方超算云平台中率先应用。

OCSP规范是由OCSP开放通用服务器社区 (OCSP Community)发布的开放优化且持续更新的服务器规范,东方超算联合英特尔、闻泰科技定制开发的OCSP服务器平台具备以下特质:

1、标准化、模块化设计带来高度灵活性。在OCSP规范中,存储、散热、主板、电源、IO扩展等部分都是模块化的,并且各个子系统都尽量实现了标准化和解耦。成员单位可以根据用户的实际需要灵活地调整各个模块,具有高度的灵活性。

以东方超算的实际应用为例,作为高性能运算节点,服务器可以采用无盘配置。因此,在符合OCSP规范服务器基础上,可以将存储模块简化,如配置简化的硬盘笼子、取消背板。调整后,既降低了成本,又可以增加进风量。

再如,IO扩展部分,超级计算节点可以选择高性能InfiniBand网卡(互联)和普通以太网卡(管理)的组合。

OCSP规范定义六大可互换模块

2、面向未来的高度定制化。目前的OCSP服务器基于英特尔®至强®可扩展处理器打造,拥有强劲的性能。已经上市的第三代英特尔®至强®可扩展处理器Ice Lake-SP支持最高主频3.6GHz、1.5MB L3缓存,单CPU最高拥有40个内核及80线程、最大支持CPU间3组11.2 GT/s UPI互连链路,使服务器拥有强劲处理性能。同时支持32根DDR4 3200 ECC RDIMM 内存,可提供优异的计算速度、高可用性及最多4TB的内存容量。

第三代英特尔®至强®可扩展处理器TDP最大为270瓦,目前东方超算引入的符合OCSP规范的服务器已经配置支持300瓦以上功耗的供电、风扇模组。对于即将进入市场的第四代英特尔®至强®可扩展处理器平台,东方超算与闻泰科技通过更换下一代平台主板即可支持。甚至,可以进一步定制更高功率的供电系统、为全高全长加速卡(4块)提供定制化的后窗等。对于液冷需求,OCSP在后窗扩展接口配置中已经预留了液冷进出口管道位置。通过一系列针对性的定制,可以帮助东方超算将服务器的性能提升到新的高度。

预留了液冷接口的OCSP规范后窗扩展接口配置

3、快速研发,降本增效,提升企业投资收益。OCSP社区在“标准化、模块化、(定位)L6”的理念下,定义了开放的机箱、电源、主板、硬盘、风扇和I/O扩展模块的解耦标准,在各个模块内部保留定制化空间。这明显简化了服务器的开发工作。基于标准化机箱和主板模型,主要部件都不需要单独开模。譬如散热子系统支持60mm和80mm直径风扇,深度可以兼容38、56mm,并考虑了额外配置蜂窝板(降噪)的需求。再如,对于多数应用场景,Riser及支架,甚至后窗都可以复用。除了硬件结构,OCSP在散热子系统、背板SMBus、CPLD与BMC的接口/寄存器定义等方面也预先进行了大量的指导性工作。这些规范化的工作明显地降低了用户的研发负担,可以降低开发成本,技术团队可以专注于洞察和响应用户的个性化需求。通过降低成本、增加附加值,企业投资收益可以获得有效提升。

4、助力低碳环保,满足绿色智能需求。在“双碳”背景下,客户对于算力提出高质量需求,低碳与可持续发展成为高价值数据中心的重要参考指标。OCSP规范服务器在设计之初即考虑了当前及未来几代处理器平台的需求,为存储、散热、IO扩展等规划了充足的扩展能力,并尽量实现可复用。在服务器的生命周期内,扩展弹性和高复用性可以降低零部件损耗,减少产品的碳足迹。

在高速计算的应用领域,尤其银行证券结算业务、芯片设计与仿真、有限元分析与计算、图形计算与渲染、其他高负载计算应用中,在保证计算平台的稳定性的同时满足IT计算设备的散热,提升服务器的使用效率和稳定性。

东方超算本次联合闻泰定制的服务器,面向大型数据中心部署,提供开放的管理平台,全面覆盖RedFish、IPMI、SNMP等多种管理协议;提供关键部件监控与运行状态上报功能,实现产品全生命周期的智能运维服务;高效的智能调速设计可根据实时的环温及负载,在不影响服务器负载性能的前提下节省整机功耗,满足绿色节能业务需求。

OCSP范围和服务器规格

  • 基于2U2S通用机型,覆盖企业/政府客户的主流需求
  • 基于 EIA-310 19 英寸机柜标准,统一机箱设计的关键尺寸
  • 用于英特尔至强SP平台(Whitley、Eagle Stream、Birch Stream)

算力与场景协同 打造超算新价值

目前,基于OCSP规范的服务器平台开始承担部分东方超算云计算节点,东方超算云面向科学计算、工业设计仿真协同、生态环境、智能材料研发、精准医学等多个行业云平台,提供应用和数据的订阅式云服务,推动以超算科技为核心的生态产业协同发展。

东方超算云也落地于诸多数字城市建设中,以呼和浩特市生态文明建设为目标,东方超算云助力打造了美丽呼市智慧决策平台,作为呼市自然资源与生态环境智慧化管理决策系统,设立城市数据中心,通过分层建设,达到平台能力及应用的可成长、可扩充,创造面向未来的数字系统框架。

基于东方超算云的实践和检验,未来,东方超算将继续基于OCSP规范研发和交付各行各业高度定制、绿色高效软硬一体化高性能计算解决方案,将算力与场景协同,落地不同行业应用,为拓展科学边界、推进技术创新提供了更强劲的动力。

关于东方超算

北京东方超算科技有限公司(简称东方超算 “ChinaHPC”)成立于2013年,是全球先进的超级计算机研发、制造和运营商,将大数据、人工智能和超级计算应用融合一体,面向政府、行业和学术领域提供先进的超级计算机和一流的服务支持。

关于闻泰科技

闻泰科技是全球领先的集研发设计和生产制造于一体的基础半导体、光学、产品集成企业,主要为全球客户提供半导体功率器件、模拟芯片的研发设计、晶圆制造和封装测试;光学模组的研发制造;手机、平板、笔电、服务器、IoT、汽车电子等终端产品研发制造服务。

闻泰科技服务器,专注于服务器和存储等数据中心产品的研发、生产、销售与服务。闻泰服务器产品线涵盖云计算数据中心、边缘计算、人工智能、金融与运营商等领域应用,产品类型包括:通用服务器、AI服务器、边缘计算服务器等。

关于英特尔

英特尔(NASDAQ: INTC)作为行业引领者,创造改变世界的技术,推动全球进步并让生活丰富多彩。在摩尔定律的启迪下,我们不断致力于推进半导体设计与制造,帮助我们的客户应对最重大的挑战。通过将智能融入云、网络、边缘和各种计算设备,我们释放数据潜能,助力商业和社会变得更美好。

上一篇
下一篇