亚马逊云科技:在云原生数据库的变革中持续创新
随着云服务的发展,传统数据库企业的地位受到了挑战,云数据库尤其是云原生数据库成为整个数据库市场的主要增长点。根据Gartner数据,亚马逊云科技在2022年数据库营收同比增长19.6%,达到230亿美元,已经问鼎全球数据库市场。
从2013年首次出现在Gartner数据库市场份额图以来,亚马逊云科技的排名就在逐年上升,且是头部数据库巨头中上升态势最明显的云厂商。亚马逊云科技于2020年超越甲骨文,并于2022年超过微软,目前已占据2022年全球数据库市场25.3%的份额。
某种意义上,亚马逊云科技的胜利,代表了云原生数据库的胜利。因此,我们可以从亚马逊云科技的发展情况,来看云原生数据库替代传统数据库的必然性,以及云原生数据库的未来发展趋势。
直面数据洪流,云原生数据库构建坚实的数据底座
随着互联网、移动互联网、物联网的发展,人类正进入数据爆炸的时代。依据IDC Global DataSphere的数据,2021年,全球数据总量达到了84.5ZB,预计到2026年,全球结构化与非结构化数据总量将达到221.2ZB。
除了数据规模快速扩张,数据市场还呈现出一些新特点:许多应用(如金融交易,社交媒体,物联网)需要实时或近实时处理数据,对数据的实时处理能力的要求越来越高;复杂的业务需求,需要提升数据库系统的复杂查询性能;数据安全性和隐私性的问题也越来越突出,需要实现对数据访问的细粒度控制,保证数据库系统的合规性;在处理多个来源、多样化的数据时,依然要保证数据的一致性和数据质量;在全球范围内高效、安全地管理和低延迟访问数据等。
面对呼啸而来的数据海啸,传统的数据库已经越来越难以应对。在这种情况下,云原生数据库显现出多方面的优势。云原生数据库被设计为能够在全球范围内工作,可以处理分布在世界各地的数据,确保数据的高可用性和一致性。对于需要全球运营的企业,这是一项关键优势;云原生数据库提供了强大的多租户支持和资源隔离机制,在一个数据库系统中,可以同时为多个用户或应用提供服务,而每个用户的数据和操作不会影响其他用户;云原生数据库通常提供自动化的资源管理功能,能够根据需要自动扩展或收缩资源;云原生数据库支持分布式架构,可以容易地进行水平扩展、处理大规模数据等。
由于云原生数据库具备上述优势,正好契合数字化时代对超大规模、多模态数据的处理需求,云原生数据库已经成为全球数据库市场的关键变革力量。亚马逊云科技的成功,就是这一行业趋势的一个证明。
罗马不是一天建成的
罗马不是一天建成的,对于科技企业而言,长期、巨量的研发投入是获得技术领先优势的必要基础。
根据数据猿整理的全球19家头部科技巨头近5年的研发费用数据(由于不同资本市场的年报报告期、会计准则、货币等有所差别,数据经过换算处理),各企业近年的研发投入如下表。
数据来源:各企业财报
数据来源:各公司财报
从上面的数据可以看出,在全球科技巨头中,亚马逊的研发投入一直处于顶尖水平,尤其是近三年超越谷歌、微软,成为全球研发投入最高的科技企业,并逐步拉开与其他企业的差距。2022财年,亚马逊云科技的研发投入超过700亿美元,大幅超过微软、谷歌等巨头。正是由于亚马逊坚持在研发上投入巨资,其持续引领全球技术创新,获得领先优势。
云计算是亚马逊研发投入的“重镇”,每年数百亿美元的研发资源有很大一部分就投入云计算技术产品研发,而云原生数据库又是其中一个重要领域。
云原生数据库是整个云计算有机整体的一部分,亚马逊云科技整体的技术优势,也对云数据库的发展大有裨益。可以说,亚马逊云科技在云原生数据库上的领先,是其整体云计算优势的一个“侧写”。
正是长期高强度的研发投入,让亚马逊云科技不断取得技术突破。接下来,我们从亚马逊云科技在不同时间节点发布的数据库产品,来分析其在云原生数据库领域的技术创新历程:
2006年,Amazon S3: 这虽然不是一个数据库产品,但S3的发布标志着亚马逊云科技开始进入云存储领域,为后续数据库产品的发展奠定了基础。
2009年,Amazon RDS: 这是亚马逊云科技发布的首个云数据库产品,支持多种关系数据库引擎,如MySQL、PostgreSQL等,这标志着亚马逊云科技开始推动数据库服务的云化。
2011年,Amazon ElastiCache: 这是一个完全管理的在内存中的数据存储,它优化了具有高吞吐量和低延迟的实时应用程序,在提高数据库性能和响应时间方面具有重要价值。
2012年,Amazon DynamoDB: 这是亚马逊云科技发布的首个NoSQL数据库产品,支持键值存储模型,满足大规模、低延迟的数据处理需求,这标志着亚马逊云科技开始探索非关系数据库领域,推动数据库服务的多样化。同年,亚马逊云科技还推出Amazon Redshift,这是亚马逊云科技发布的首个数据仓库产品,提供PB级的数据分析服务,这标志着亚马逊云科技开始进入大数据处理领域,推动数据库服务的扩展性和分析能力。
2014年,Amazon Aurora: 这是亚马逊云科技自主研发的关系数据库产品,兼容MySQL和PostgreSQL,但在性能和可用性上进行了优化,这标志着亚马逊云科技开始进行数据库引擎的创新,推动数据库服务的性能和可靠性。
2016年,Amazon Database Migration Service (DMS): DMS的发布意味着亚马逊云科技致力于提供更加全面的数据库迁移解决方案,进一步降低了用户从传统数据库向云原生数据库迁移的难度和复杂性。
2017年,Amazon DynamoDB Global Tables: 这是DynamoDB的一种全球化解决方案,它允许在多个地理区域之间自动复制数据,从而提供了快速的本地性能和全球数据的故障转移能力,这是亚马逊云科技在全球分布式数据管理方面的重要创新。
2018年,Amazon Aurora Serverless v1: 这是亚马逊云科技发布的首个无服务器数据库产品,根据实时负载自动调整数据库的计算能力,这标志着亚马逊云科技开始推动数据库服务的自动化和智能化。
2019年,Amazon DocumentDB:这是亚马逊云科技发布的兼容MongoDB API的文档数据库服务,体现了亚马逊云科技对开源数据库生态的重视和支持,以及其在提供更多样化的数据处理解决方案方面的持续创新。
2020年,Amazon Timestream: 这是亚马逊云科技发布的首个时序数据库产品,专门用于处理时间序列数据,这标志着亚马逊云科技开始针对特定数据类型和应用场景进行数据库产品的创新。
2021年,Babelfish for Aurora,使得用户可以更容易地将现有的SQL Server数据库迁移到Aurora PostgreSQL。
2022年,Amazon Aurora Serverless v2,进一步优化了无服务器数据库的性能和响应速度,这标志着亚马逊云科技在数据库服务的自动化、智能化上做出了更深入的创新。
从上面的时间节点来看,云原生数据库技术创新方面的发展历程,是一个从云化、多样化、大数据处理、性能优化、自动化和智能化、特定数据类型处理、全球化到进一步的自动化和智能化的过程。无论是关系数据库,还是非关系数据库,无论是数据仓库,还是时序数据库,无论是全球化的数据管理,还是无服务器的数据库模型,亚马逊云科技都在其中发挥了引领者和推动者的作用。
需要指出的是,技术本身并不产生价值,技术的价值来源于应用。在这方面,亚马逊自身在使用数据库方面的真实经历,具有典型借鉴价值。早在2019年,亚马逊就将存储在近7500个Oracle数据库中的75 PB内部数据,迁移到Amazon DynamoDB (工作流引擎/客户档案/促销折扣管理)、Amazon Aurora (库存管理服务IMS)、 Amazon Relational Database Service(Amazon RDS)、Amazon Redshift (分析型工作负载)、Amazon ElastiCache (缓存服务请求)等多项亚马逊云科技数据库中,涵盖了如复杂采购、目录管理、订单执行、会计系统、视频流工作负载等亚马逊全部的专有系统。并且,迁移过程无需停机。通过数据库迁移,成本降低了60%,间接费用降低了70%,性能却提升了40%。
实际上,不仅亚马逊可以通过应用云原生数据库来大幅提升效率、降低成本,其他企业也同样可以。并且,云原生数据库发展迅速,经过几年的发展,云原生数据库的价值除了降本增效外,还会为企业带来更多额外的业务收益。对于企业而言,可以通过采用先进的云原生数据库,来释放数据的业务价值。
接下来,我们就来深入分析一下云原生数据库的最新发展趋势,以及最新技术将给企业带来的技术红利。
云原生数据库的发展方向,与数据分析、AI服务的深度集成
云原生数据库的创新之路才刚刚开始,远未到终局。例如,针对不同业务场景构建数据库,这种“专库专用”的模式可以大大提高数据库的性能和效率,帮助客户更好地满足业务需求;基于Serverless Database技术实现极致弹性。未来,云原生数据库可能会更加无服务器化,支持更灵活的计费模式,如按请求计费、按数据量计费等;全球数据库是云原生数据库支持企业全球化业务的重要解决方案,全球数据库可以在全球范围内的多个数据中心部署数据库实例,提供数据复制,负载均衡,故障切换等功能,以实现全球的数据一致性和业务连续性。
除了上述优势外,尤其值得注意的是云原生数据库与大数据、AI以及整个云计算体系的深度集成,这将为释放企业的数据价值带来巨大的推力。
数据已经成为继土地、劳动力、资本、技术之后的第五种生产要素,如何通过应用来释放数据要素价值,成为整个数据产业需要回答的问题。云原生数据库作为整个数据智能大厦的基础,通过将数据库与上层大数据、AI服务集成,来更好赋能数据应用,将是云原生数据库的重要发展方向。
以亚马逊云科技为例,其基于云原生数据库,构建起涵盖数据存储、查询、数据分析、机器学习、商业智能、编目与治理的端到端的数据战略。
亚马逊云科技构建端到端的数据战略
亚马逊云科技作为全球领先的云厂商,其提供了一系列强大的云原生数据库、大数据和AI服务。这些服务之间紧密集成,提供了一站式的数据平台,支持各种复杂的数据应用。例如,Amazon Redshift提供全托管式 PB级别的数据仓库服务,允许用户在云上进行大规模的数据分析;Amazon S3与Redshift、EMR、Athena 等服务紧密集成,为大数据处理和分析提供了强大的支持;Amazon EMR支持批处理、交互查询、机器学习、流处理等各种大数据处理模式,并集成了 S3、Redshift、DynamoDB 等服务,用户可以在 EMR 中直接处理这些服务中的数据;SageMaker 是一种完全托管的机器学习服务,集成了亚马逊云科技 的大数据和数据库服务,用户可以直接处理这些服务中的数据,简化了机器学习流程;QuickSight 作为商业智能服务,集成了亚马逊云科技的数据库和大数据服务,用户可以在 QuickSight 中直接访问和分析这些服务中的数据,然后对数据进行可视化分析。
在云环境下,数据库、大数据和AI服务的集成显得尤为重要。它们并不是孤立存在的,而是在数据的生命周期中各司其职,互相配合,提供了从数据采集、存储、处理、分析到最终应用的全流程解决方案。
云原生数据库,除了其在扩展性、弹性、可靠性等技术特性方面的显著优越性外,更重要的在于它能快速整合云服务中的其他重要元素,形成一个完整的数据处理和分析的生态。在这个生态中,数据库、大数据和AI等服务相互补充,形成一个强大的“战斗集群”。
在这种情况下,提供全面、集成的云服务的公司显然具有更强的竞争力。他们能为客户提供一站式的解决方案,减少客户在技术选择和集成上的困扰,使客户能更专注于他们的业务,这是许多单一数据库公司难以复制的。
云原生数据库可以通过APIs和服务调用与同在云平台上的其他服务(例如大数据处理工具、AI和机器学习服务等)进行无缝交互。这种集成性能力使得开发者可以更容易地构建、部署和扩展复杂的应用。例如,数据可以从云原生数据库中读取,然后通过大数据服务进行处理,最后通过AI服务进行模型训练和预测。整个过程无需数据迁移,不仅提高了效率,也减少了数据丢失或泄露的风险。而传统的单一数据库公司,由于缺乏相应的大数据和AI等云服务,往往需要通过第三方服务进行集成,这就会涉及到诸如数据传输、安全性、性能优化、兼容性等问题,难度和成本都会相对较高。
此外,云服务提供商通常拥有丰富的服务体系,例如存储服务、计算服务、网络服务、安全服务等。这些服务可以与云原生数据库进行深度集成,形成一个完整的解决方案,满足用户的各种需求。而对于单一数据库公司,他们往往只能提供数据库服务,无法提供全面的解决方案,这就限制了他们在满足用户需求时的灵活性和全面性。
综上,云原生数据库已成为数据库发展的方向,这源于它对云计算的优势利用和对大规模、多样化、实时性数据的处理能力。云原生数据库不仅满足了传统的存储和查询需求,而且随着大数据和AI集成的趋势,已经成为数据驱动决策和智能应用的重要平台。
“云”已经成为一个内涵丰富的生态系统,能提供云原生数据库的综合云厂商在提供集成服务方面展现出显著优势,譬如推动云原生数据库与大数据、AI集成等。亚马逊云科技这类综合云厂商在此背景下能够取得超越市场平均水平的增长速度也就顺理成章了。