兼顾大模型训练《高性能计算分布式存储系统技术要求》团体标准正式发布
近日,益企研究院、中科曙光共同牵头,中移动信息技术有限公司、中国科学院高能物理研究所、中电云计算技术有限公司、北京星辰天合科技有限公司等十余家单位共同起草的《高性能计算分布式存储系统技术要求》团体标准,正式在中国电子工业标准化技术协会网站发布。
益企研究院牵头并承办了《高性能计算分布式存储系统技术要求》的第一次启动会议。在中国电子工业标准化技术协会高标委的支持和指导下,为标准的制定和实施做出了重要贡献。益企研究院张广彬、王海峰作为核心编委,全程参与讨论,提供了大量的建设性意见和建议。对标准的制定起到了重要的推动作用。
高性能计算呼吁统一标准
前有ChatGPT迅速刮起大模型热,后有Sora推动AI应用持续深化。近年来,随着人工智能疯长,其背后的算力及高性能计算(High Performance Computing,HPC)也被提到了前所未有的高度。
HPC用于高速运行各种计算和分析任务,通常涉及大量的数据运算及存储。高性能存储是HPC重要的组成部分,HPC应用中的计算能力必须与数据的存储与调用相匹配。与此同时,分布式存储凭借广泛兼容、灵活扩展、多节点高可靠的特性,成为了HPC的“最佳拍档”。
然而,由于分布式存储架构各异,导致HPC应用中计算、存储、网络各模块无法有效衔接和管理,而且建设和运营成本居高不下。因此,有必要制定规范的技术要求,在解决上述问题的同时,促进HPC产业链上下游技术和产品的融合,推动建立成熟完善的存储生态系统。
据了解,此次公布的团标规定了高性能计算分布式存储系统的技术要求(以下简称“技术要求”),包括基础设施、集群软件系统、安全管理、功能模块、运维管理和绿色节能等方面的要求,还考虑了对GPU直通存储等关键特性的支持,适用于高性能计算和AI训练等场景下分布式存储系统的设计与部署。
“技术要求”成行业最强辅助
HPC可以广泛地应用于科学研究、气候模拟、基因测序、灾害预报、能源勘探等众多领域,对国民经济建设和民生福祉都有不可替代的重大作用。而团标确定的“技术要求”无疑是对HPC应用的“神助攻”。
科研教育:分布式存储系统可以提供高速、可靠的数据存储和访问能力,满足科研领域对于海量数据处理和计算能力的需求。“技术要求”确立统一的基础设施和功能模块标准,为科研技术创新提供坚实保障,也进一步提高了科研效率和成果质量。
气象预测:随着气象数据种类、数量日益繁多,范围尺度越来越大,时空分辨率越来越高,在大数据实时存储、实时处理、响应时间等方面提出了巨大挑战。“技术要求”的确立,提高了气象数据底座建设水平,为地方气象局存储系统建设提供了参考。
能源勘探:海量数据采集及分析的数量、质量、精度直接影响能源勘探决策方向,通过设计与部署高性能计算分布式存储系统,从高速网络、高效模块、智能运维管理等方面保证能源行业对存储I/O的需求,为勘探、开发、钻井等业务应用提供信息服务与支持。
除此之外,HPC及高性能计算分布式存储系统还可用于车辆设计、化学反应模拟、材料学等领域。“技术要求”的发布有助于提升分布式存储的性能和技术标准,推动产业规模的健康发展,并进一步提高整个高性能计算领域的技术水平和服务质量。
结语
一直以来,益企研究院参与相关行业标准的制定和落地,促进创新成果落地和产业化水平提高。在促进该《高性能计算分布式存储系统技术要求》发布过程中展现的专业能力,也为整个高性能计算领域的技术进步和标准化作出了重要贡献。作为针对数据中心、云计算、AI等信息基础设施领域最新技术和应用的研究和顾问机构,益企研究院秉持技术、应用、商业三合一的发展理念,在算力经济时代加速数据中心、云计算、人工智能等新型IT基础设施的新技术新产品在企业级用户中的应用,提高各行业的数字化水平。