亚马逊云科技获评IDC 2025年全球公有云基础设施即服务“领导者”
日前,在全球市场分析机构国际数据公司(IDC)发布的《2025年IDC MarketScape:全球公有云基础设施即服务(IaaS)报告》中,亚马逊云科技被评为“领导者”,在能力和战略的双维度上均为“领导者”。IDC在该报告中表示,全球公有云IaaS继续快速增长,预计2025年的整体规模将达到1880亿美元。
IDC在报告中提到:“亚马逊云科技在服务范围方面无可匹敌,其众多服务通常会在其盛大的年度re:Invent大会上发布。丰富的服务种类使亚马逊云科技对需要专业能力、混合基础设施或高度可扩展应用程序的企业具有吸引力。”报告还提到,“当需要最广泛的云服务组合以及经过验证的可扩展性和创新能力时,可以考虑亚马逊云科技。”

在《2025年IDC MarketScape:全球公有云基础设施即服务(IaaS)报告》报告中,IDC表示:随着企业将更多工作负载迁移到云并创建新的云原生应用程序,公有云IaaS继续快速增长,预计2025年IaaS的整体规模将达到1880亿美元。IDC在该报告中指出,AI正在通过多种方式重塑云基础设施。AI带动了对GPU、TPU和FPGA等专用硬件的大量投资;改善了自动化基础设施管理的运营效率和成本;推动了安全升级,企业需要以AI驱动型安全工具来响应日益复杂的威胁;提供需求预测以优化资源分配;推动开发AI驱动的服务与应用等。报告中,IDC为技术买家提供一系列的建议,其中重点提及了部署决策的原则、AI功能的集成度以及系统可观测性相关的安全性:工作负载部署决策不能仅局限于成本考量,服务集成度、供应商服务的广度,以及对互操作性和开放标准的支持力度,均至关重要;将AI功能集成到云基础设施中也越来越成为一个关键的差异化因素;建议优先选择具备强大开箱即用安全功能,且对系统可观测性有全面方案的供应商。该报告更多信息请点此了解。
IDC分析师、报告作者Dave McCarthy表示:“亚马逊云科技通过广泛的服务组合和持续的创新,在公有云IaaS市场中处于领导地位。广泛的全球基础设施,结合Amazon Graviton等定制芯片计划以及在AI领域的重大投资,使其在满足企业需求方面独具优势。其在可扩展性方面的卓越表现、成熟的开发者社区以及对AI基础设施的积极投入,使其成为需要先进云能力的企业的首选。”
亚马逊云科技自2006年成立以来,在基础设施覆盖的范围、以及IaaS领域涵盖的核心服务如计算、网络、安全等多个方面进行持续扩展及创新。在AI领域,亚马逊首席执行官Andy Jassy在2025年2月的第四季度财报电话会议中表示,亚马逊在2025年的资本投资预计达1000亿美元,其中大部分将用于亚马逊云科技AI基础设施的建设等。
以全球覆盖的规模提供创新的基础设施
亚马逊云科技的基础设施遍及36个地理区域的114个可用区,并已公布计划在新西兰和沙特阿拉伯等新建4个区域、12个可用区。同时,为了支持AI创新并满足客户不断变化的需求,亚马逊云科技持续推动数据中心本身的创新,包括简化电气和机械设计,在冷却、机架设计和控制系统进行创新。简化的电力分配和机械系统能够实现高达99.9999%的基础设施可用性,并将可能受到电气问题影响的机架数量减少89%;更新后的冷却系统将无缝集成空气和液体冷却功能,用于支持AI超级计算解决方案,以最低的成本为客户提供最佳性能和效率。由数据和生成式AI驱动的软件能够精确预测服务器最佳部署方式,以最大化电力使用效率等。
Anthropic计算部门杰出工程师James Bradbury表示:“亚马逊云科技的设计改进显著提升了基础设施的安全性、可扩展性和效率,为AI模型的运行和创新提供了强有力的支撑。”
加速“自研芯片”创新,让推理成为下一个基础核心构建块
作为全球云计算的开创者和引领者,亚马逊云科技是率先进入自研芯片领域的云供应商。革命性的Nitro虚拟化平台全面加速了亚马逊云科技在自研芯片领域的创新速度。迄今为止,亚马逊云科技已推出了多个系列的自研芯片,包括Amazon Nitro系统、通用处理器芯片Amazon Graviton、机器学习训练芯片Amazon Trainium和推理芯片Amazon Inferentia,同时保持稳定的更新频率,且每次更新均提供两位数以上的百分比的性价比提升。在2024年的re:Invent上,亚马逊云科技推出全面升级的Amazon Trainium2芯片,以及基于该芯片的Amazon EC2 Trn2实例和超级服务器。Amazon EC2 Trn2实例与当前基于GPU的EC2 P5e和P5en实例相比,Amazon EC2 Trn2实例的性价比提升30-40%。单实例配备16个Trainium2芯片,可提供高达20.8 Petaflops浮点算力的性能,非常适合训练和推理高达数十亿参数的大型语言模型。
Amazon EC2 Trn2 UltraServers服务器是亚马逊云科技在纵向扩展领域的又一次突破,用以满足大规模生成式AI训练和实时推理的性能需求。该服务器配备64个相互连接的Trainium2芯片,采用NeuronLink超速互连技术,可提供高达83.2 Petaflops浮点算力,其计算、内存和网络能力是单一实例的四倍,能够支持训练和部署超大规模的模型。训练方面,Amazon EC2 Trn2 UltraServers使客户能够突破单个Trn2实例的限制进行扩展,从而减少训练时间,加快投放市场的速度,实现快速迭代以提高模型准确性。推理工作负载方面,客户可以使用Trn2 UltraServers提升生产环境中万亿参数模型的实时推理性能。亚马逊云科技携手Anthropic正打造名为Project Rainier的EC2 UltraCluster,其包含数十万颗Trainium2 芯片,所达到的超级算力比他们当前一代领先AI模型训练所需算力高出5倍以上。
此外,亚马逊云科技发布了新一代AI训练芯片Amazon Trainium3。Trainium3是亚马逊云科技首款采用3纳米工艺制造的芯片。搭载Trainium3的UltraServers性能预计将是Trn2 UltraServers的4倍。首批基于Trainium3的实例预计将在2025年末上线。
网络性能跃迁,“10p10u级”为分布式AI训练提供最佳选择
芯片创新重塑计算,而在基础设施的另一个重头场景——网络中,亚马逊云科技在2024年re:Invent上推出了第二代UltraCluster网络架构,也称为”10p10u”网络,支持超过20,000个GPU协同工作,带宽达10Pb/s,延迟低于10μs(微秒),这一突破性的性能跃迁将模型训练时间缩短至少15%。同时还推出了兼具中央控制和优化及分布式的速度和弹性的SIDR(Scalable, Intent Driven Routing)全新网络路由协议。相比传统的BGP、OSPF等协议,SIDR在亚马逊云科技的10p10u网络中能在不到1秒内恢复网络,速度比传统方法快10倍,显著提升了分布式AI训练中的可靠性和实时性,确保网络在故障发生时也能保持高效运行。10p10u是亚马逊云科技有史以来扩展最快的网络,在2024年,安装了超过300万条链路。
安全是根基,以最高安全标准构建基础设施
安全是亚马逊云科技的首要任务,也是创新的根本保障。亚马逊云科技认为“安全是设计出来的”,无论是基础设施还是服务,从设计之初就应该将安全作为首要任务,并嵌入到从架构到操作的各个环节,从而为客户提供灵活、安全的云计算环境。亚马逊云科技的每一个区域的基础设施均采用同样最高安全标准进行构建和运营,无论是初创企业还是大型公司,均可以基于同样安全的基础设施进行创新。此外,亚马逊云科技还不断使用创新技术提升基础设施的安全性,例如亚马逊云科技通过自动推理技术实现以可验证的方式提升系统的可观测性,为关键系统按预期运行提供了严格的数学保证。这些经过自动推理验证的基础设施和云服务,不仅能够提高客户云上构建的安全性,还能更快提供更高性能的代码,并最终节约成本。
正如亚马逊云科技CEO Matt Garman表示:“安全是构建业务的根基。我们认为安全性是企业文化的一部分,并非事后附加上去的。不能先推出产品而后再添加安全性。必须从一开始就予以落实。所以,对我们来说,安全性在每一项工作中都至关重要。它体现在数据中心的设计方式里,体现在芯片的设计方式里,体现在虚拟化堆栈与服务架构的设计方式里,或许最为关键的是,体现在所有软件开发实践中,安全性自始至终都要在设计阶段、实现阶段、部署阶段、补丁阶段等所有环节占据核心地位,极其重要。万事皆以安全性为起始。在亚马逊云科技,安全性是众多客户放心将云工作负载托付给我们的原因之一。它是所有服务构建所依托的核心基础层。”