实现资源利用率达60% 云原生技术开启节能减排新思路
如今,云原生技术和理念正在不断外延和丰富,越来越多的企业正在基于云原生技术,构建适应业务快速发展的技术架构和绿色可持续发展模式。在此背景下,腾讯云推出了国内首个基于云原生技术的降本增效开源平台——FinOps Crane。
9月15日,中国电子节能技术协会2022年”云计算中心科技奖”正式颁布,腾讯云FinOps Crane荣获”云计算中心科技奖卓越奖”,成为国内首个获得该国家级奖项的云原生工具。
11月28日,作为全球首家!Crane成FinOps首个认证降本增效开源方案,Crane 能够助力云原生用户充分发挥云上资源的最大价值,帮助企业降本增效。
与此同时,在最近中国智能计算产业联盟发布的《国家”东数西算”工程背景下新型算力基础设施发展研究报告》中,也提到了高能耗对”东数西算”基础设施的影响。人们已经意识到数据中心能耗问题,必须采取必要的节能手段。
目前,业界对清洁能源利用、机房建筑节能设计、余热回收、服务器硬件节能等方面进行了较多的探讨,但对于软件复合节能优化的研究尚处在起步阶段,腾讯云FinOps Crane平台的出现打破了传统的数据中心节能模式,为数据中心节能减排提供了解题新思路。
近日,腾讯云技术专家作客益企研究院访谈间,畅谈云原生与节能减排的关系、实践,以及未来发展趋势,为了节能减排带来更多启发和思考。
面对节能减排 硬件层与应用层如何结合?
随着数据中心规模的不断增长,能耗问题凸显,能耗问题已经成为制约数据中心发展的关键因素。能耗基本占用了数据中心一半的运行成本,大大降低了数据中心的盈利能力。
在数据中心节能上,已经有很多文章可做,包括硬件、软件、算法设计、机房环境设计等等,从不同角度出发都可以有一些值得借鉴的节能方法。例如采用低功耗的芯片,采用液冷散热系统,将数据中心建在风能丰富的地方,但仅靠数据中心层面的节能减排,如今已经碰到了瓶颈。
而在应用层面,将数据中心成千上万的设备资源有效利用起来,让这些设备工作起来更有效率,从而起到节能的目的成为了数据中心节能减排的新方式。
在腾讯云容器技术专家FinOps产品研发负责人孟凡杰看来,降低碳排放是一个从基础架构到应用的系统化工程。应用层面通过优化业务功耗、通过对应用的优化将实时计算转成离线计算、通过混部技术让计算密集型业务在夜间电耗低谷期运行减少电力峰值需求、通过东数西算等大的方案将计算密集型业务更贴近能源成本较低的低于、通过作业调度让工作负载更贴近排放更低的电力中心等。
例如某个应用需要跑在100台服务器上,虽然并不是每台服务器都处于运转状态,但每台服务器都有最低的消耗。这个时候我们如果把每台服务器的资源利用率从10%提升到50%,就可以将100台服务器缩减到20台,从而使数据中心整体功耗大大降低。
在备受关注的降本增效领域,腾讯云不断基于自身海量业务上云实践,推出经过打磨的云原生技术和服务。以国内首个基于云原生技术的成本优化开源项目FinOps Crane来说,能够为云原生用户提供云成本优化一站式解决方案。
孟凡杰表示:“FinOps Crane平台是腾讯内部云资源优化流程方法和工具的系统性输出,为云原生用户提供云成本优化一站式解决方案,拥有一键部署、控制台简单易用可视化、开箱即用的巡检能力、即时迅速的弹性能力等多重特性。业务人员可以通过FinOps Crane,基于业务时序变动数据得出推荐资源和弹性配置的最优解,在确保业务稳定性的基础上,做到真正的极致降本。”
云原生技术+FinOps理念 节能减排最佳实践路径
很多人熟悉DevOps,而FinOps是“Finance”和“DevOps”的综合体,被称为“云财务管理”、“云财务工程”、“云成本管理”、“云优化”或“云财务优化”。FinOps基金会是Linux基金会发起的项目,致力于通过最佳实践、培训和标准来推动实践云成本管理学科。
2021年11月24日,腾讯云正式宣布加入FinOps基金会,作为国内首家FinOps基金会顶级会员,腾讯云联合FinOps基金会,全面推进对FinOps标准和最佳实践的贡献,腾讯云遵循FinOps标准,推出了国内首个基于云原生技术的成本优化开源项目——Crane(Cloud Resource Analytics and Economics)。
腾讯云原生团队服务腾讯内部和外部客户,针对海量应用进行了云资源优化,在大量经验的基础上制定了一系列资源优化标准及最佳实践指南。据孟凡杰介绍,FinOps Crane已经在腾讯内部自研业务实现了大规模落地,部署数百个Kubernetes集群、管控CPU达数百万核心,在降本增效方面取得了阶段性成果。
以腾讯内部部门集群优化为例,通过使用FinOps Crane,该部门在保障业务稳定的情况下,资源利用率提升了3倍;腾讯另一自研业务落地FinOps后,在一个月内实现了总CPU规模40万核的节省量,相当于每月成本节约超千万元。
在服务外部客户方面,一家电商公司应用了FinOps Crane以后,只利用Crane的Request推荐等基本能力,设备资源利用率从原来的不到10%提升了现在的16.6%,从而使得成本整体降低了30%。
2022年,腾讯云联合中国信通院、中国电子节能技术协会一同编写了《云成本优化节能减排白皮书》。据腾讯云标准专家郑剑锋介绍白皮书从碳中和的角度出发,聚焦数字产业自身节能减排,在国内首次系统性提出云计算平台碳排放模型和计算方法的理论体系,系统性呈现云原生成本优化方法论和最佳实践路径。同时腾讯云通过腾讯内部实践案例Crane及内外部建设效果的总结,为国内企业真正降本增效提供助力。
用云原生FinOps能力成熟度模型 构建节能减排技术体系
很多人认为云原生与节能减排是两个不搭边的团队,二者联系起来似乎有些牵强,但实际上,任何一位技术人员需要具备“降本增效”思维。为此,腾讯云推出云原生成熟度评估模型,结合弹性、混部等云原生技术对业务进行改造,在保障业务稳定性的前提下,最终实现了资源利用率达到60%~70%的目标。
具体在产品层面,腾讯云原生FinOp Crane平台从成本洞察、成本优化、成本运营三个层面来协助企业做更好的成本管理,助力多个企业实现降本增效。
从成本洞察角度,腾讯云通过这套模型中的成本分析工具帮助企业理解成本分配以及浪费组成,定位浪费来源和识别:比如云成本组成中,最核心的资源是什么?CPU/GPU还是内或者磁盘还是网络?浪费最严重的部门、业务是什么?
在成本优化层面,腾讯云通过不同的手段来优化成本,并对每种优化手段所能带来的收益进行预测,从业务侧和平台侧不同角度优化内部云资源。
- 从业务层面,可以通过理解Kubernetes中的资源配置语义以及最佳实践,拥抱新理念,通过调节Request/Limit实现灵活的超卖策略;借助Kubernetes中的HPA / VPA等技术实现动态规格以及副本数调整;借助Crane来扫描集群,检查浪费以及不合理配置,获取业务优化建议,总之可以从弹性推荐、定时弹性和预测弹性等维度,腾讯云让企业拥有多种方便可信的优化能力。
- 从平台优化层面,可借助Crane提供的负载感知调度、拓扑感知调度、重调度、混布等能力实现装箱率提升和稳定性提升。
从成本运营角度来看,孟凡杰表示,成本优化是一个持续运营的过程,腾讯云从预算到配额管理再到资源运营(采购、投放、余量规划、资源腾挪)等持续优化和跟进,通过成熟度模型可以实现量化成果和绩效。
除了腾讯云内部的实践外,作业帮在采取弹性和全构混部等成本优化技术后作业帮基于云原生进行了一系列改造,最终实现了降本增效,整体的降本服务度已达到40%,来会继续探索更具性价比的降本增效方式。(数据来源:最佳实践|作业帮云原生降本增效实践之路 )
越来越多的企业开始拥抱云计算,但随着越来越多的业务迁移到云上,云资源浪费的问题也变得越发明显,如同腾讯云容器技术专家FinOps产品研发负责人孟凡杰在总结所建议:任何一家企业在上云的第一天,就应该考虑成本优化;优化是贯穿组织转向云原生的整个生命周期的,要立刻行动,不要等“一切就绪”后才开始优化,因为“一切就绪”这一刻不存在。成本优化越晚,意味着后期改造成本越大,优化本身造成的人力成本浪费也需要被纳入考虑范围。
而针对资源配置策略设置不合理、计量方式不够灵活等问题,腾讯云通过助力企业高效管理、优化和使用云原生服务,用云原生FinOps能力成熟度模型构建节能减排技术体系,在帮助企业数字化升级的同时,提升资源利用率,实现降本增效,呈现一条节能减排的新路径。
腾讯云原生FinOps Crane产品已经开源,该开源项目技术中立,无厂商绑定,欢迎点击https://github.com/gocrane/crane/查看地址。