分布式+全闪,架构创新满足AI时代的高效存储渴望
随着 AI、大数据等各种应用的全面爆发,业界对高性能、大容量存储系统的需求日益强烈。全闪阵列是存储市场的主要增长点,向上会挤压直连式SSD的应用,向下会蚕食容量型存储的份额。但集中式全闪存阵列成本高昂,且容易造成数据和性能孤岛。而传统的分布式存储系统仍面临可靠性较低、性能服务水平不足和成本偏高的顽疾。
为了解决这些痛点,星辰天合(以下简称XSKY)通过存储架构创新降低全闪成本,提升客户应用体验。就在最近,XSKY发布了业界首个采用Shared-Everything架构的分布式全闪架构“星海”,以及基于该架构的星飞软件、星飞9000一体机产品,以更优的性能、更稳定的服务、更低的成本,促进全行业进入“全全闪(All Data on All Flash,全数据全闪存)时代”。
XSKY星辰天合 CEO 胥昕
架构变革推动存储创新
今天的新能源汽车,通过改变能源结构、驱动结构、控制器结构,甚至改变布局的结构,,改变了汽车的制造架构,从而大幅度降低了成本,让 0-100 加速低于 5 秒甚至低于 3 秒唾手可得。
在XSKY星辰天合 CEO 胥昕看来,这是研发创新的价值所在,通过架构的变革来推进创新,让昂贵的新技术,以更加合适的价格为更多客户服务,从而让更多人享受到科技的进步和可能性。
在存储行业,其实Shared Everything并不是新生事物,它已经有超过20年的历史。过去受限于网络性能,并不鼓励设备频繁互相访问,大规模存储解决方案中广泛应用的是Shared Nothing架构模型,每个节点拥有独立的HDD或SSD,具有物理资源隔离、易于扩展和管理的特点。节点内访问数据的性能良好,但跨节点的数据访问则受限于网络性能。随着数据规模增长,Shared Nothing架构模型的瓶颈愈发明显。
首先是性能扩展性的局限性。在Shared Nothing架构中,每个节点独立处理数据,而随着节点增多,为了维持分布式事务的一致性,带来了额外的软件复杂性和CPU消耗,并可能导致写放大。这样的开销限制了扩容的收益,在全闪存系统里,这种瓶颈更为明显。
其次是资源浪费。在Shared Nothing架构中,资源的独立性限制了灵活性,使得各节点资源无法统一利用。例如,在处理高负载时,每个节点必须配备足够的硬件资源,导致规划系统时需要进行提前预留,在大规模部署中,会造成更大的浪费。
服务质量也不好。在Shared Nothing架构中,故障检测和响应机制常常缺乏业务层面的敏感度。一旦发生故障,节点间需要进行复杂的一致性协商,导致故障切换时间过长。在系统出现亚健康状况时,这种机制会更加脆弱,故障处理过程难以迅速有效地进行。
最后是局部视角问题。Shared Nothing架构将每个节点划分为独立的单元,这种划分会导致无法实施大比例的EC纠删码,数据恢复和后台IO操作也难以全局优化。结果是,这些操作可能占用过多带宽,影响正常的客户端IO请求,进而影响整体业务的稳定性。
随着网络性能的普遍增长,25G、100G网络成为主流配置,Shared Nothing的思路已经不合时宜。此次XSKY发布“星海”架构的英文名为XSEA(eXtreme Shared-Everything Architecture,极速全共享架构),使用Shared Everything的设计来提升性能、资源效率和整体服务质量。
参考架构图,上方的BlockServer、FileServer和ChunkServer作为一组无状态容器分布在多个服务器集群中,它们通过共享内存直接交互,无需通过网络。下方的IO Server会将所有NVMe SSD通过NVMe-oF协议暴露出物理卷,使得任意ChunkServer在启动时,都可以挂载集群里的所有NVMe卷。这意味着不管是块设备还是文件系统,都可以直接获得任意位置的SSD数据。
这样的架构设计在可扩展性等方面具有明显的优势:
性能可扩展性强:随着集群的横向扩展,由于每个节点无需跟其他节点的服务进行通信,可以消除不必要的数据转发,实现了网络的线性扩展能力。
资源灵活:存储资源与CPU、内存资源解耦,为不同业务场景提供更高的灵活性和资源利用率。例如,在备份场景,可以使用较低的CPU和内存资源;在OLTP场景中,则可以部署更高频率的CPU以实现更低延迟的IO处理。
全局视角:Shared Everything架构设计赋予了每个节点全局数据读写能力。譬如可以实施大比例的EC纠删码,如20+4,大幅提升空间利用效率。也可以更好的进行全局流控,后台任务调度,并根据全局SSD的状态进行磨损均衡。
服务质量高:由于每个服务都可以访问到所有数据,而不用在故障时等待数据复制或状态同步,因此,Shared Everything架构显著提高了故障恢复能力。无论是节点、网络还是SSD故障,其他节点都能迅速接管,保证业务连续性。星海架构可以在100ms内实现故障切换,为存储提供高可靠性保证。★
实现三个“一百”壮举
XSKY星辰天合 CTO 王豪迈
“星海”架构的创新点在于采用Shared Everything模型来实现全共享数据存储,使得每个节点都能直接访问所有SSD,以提高数据访问速度和灵活性。采用单层闪存介质的设计,减少硬件配置复杂性。
由于不同存储介质存在数量级的性能和成本差异,因此分层存储是常见的模式。但星海架构放弃了常规的缓存加数据盘的组合,转而采用了单层闪存介质构建。XSKY星辰天合CTO王豪迈指出:从PCIe 3.0到4.0,再到如今的5.0,NVMe SSD在带宽吞吐方面取得了巨大飞跃,这意味着现在可以用更少的PCIe通道实现更高的数据传输速率,使得TLC型NVMe SSD具备最好的性价比。
基于对SSD 技术和传输标准演进的深入理解,星海架构采用单层TLC NVMe SSD来构建存储池,简化集群的存储硬件结构。在常规的混合读写业务场景中,相比分层缓存方式,单层闪存可以显著降低介质成本 20%以上。同时配合Shared Everything架构带来的全局EC和压缩功能,使得集群的得盘率超过了100%,进一步提升了成本优势。
性能方面,通过利用 Append Only方式将数据转为顺序写入,减少了写放大现象。并通过精心设计的空间布局,在单个SSD上实现了缓存和持久存储的双重功能。这些技术使得在没有专用缓存介质情况下,确保足够的性能稳定性。系统可以使用DWPD=1的主流NVMe SSD构建,而无需使用DWPD=3的面向读写密集的SSD,降低了硬件成本,提高了有效容量。
据星辰天合CTO王豪迈透露,未来也会适时将QLC SSD引入星海架构,用于非结构化对象存储产品。
星海架构全面采用了标准NVMe over Fabric协议进行构建,不论是存储访问方面,还是存储内部网络中。相比传统存储系统中常用的SCSI协议,NVMe协议有更高的并发性和较低的协议开销,且已经逐步获得主流操作系统内核的原生支持,可以充分发挥全闪系统的性能潜力,也避免了协议转换的额外开销。
在端到端的NVMe I/O路径上,星海架构采用了高效的Polling模式处理每个I/O请求,并通过NUMA绑定优化了不同服务的内存访问效率,实现低至100微秒的端到端延迟。
此外,星辰天合也正在与领先的智能网卡厂商合作,利用智能网卡来进行NVMe oF协议的硬件卸载,在存储设备上实现从计算节点到存储的高效数据传输。
通过Shared Everything架构、单层闪存介质和端到端NVMe,星海架构实现了三个“100”:1.在40%负载下实现100微秒的超低延迟;2.通过EC和数据压缩技术实现超过100%的存储系统得盘率;
3.在面对慢盘、亚健康网络问题时能在100毫秒内快速切换。★首款采用全共享架构的分布式主存储
星海架构的3 个“100”实现了更高的可靠性、更优异的性能服务水平,并有效控制成本,其载体是全新发布的星飞全闪存储系统(XINFINI 9000一体机)和星飞软件。
星飞9000一体机:星飞9000一体机包含星飞软件和经过验证的专属硬件,是业界首款采用全共享架构的分布式主存储,提供一流的全闪存储性能、集中式存储的可靠性和出众的空间效率,确保存储系统的良好体验。其定位是为虚拟化、私有云、OLTP、HPDA、AI/ML等场景提供支持,其中新兴数据库 如OceanBase、ClickHouse等都是典型应用目标。
星飞9000一体机的硬件采用英特尔第四代至强可扩展处理器,启用DSA和QAT加速引擎,并采用 DDR5 内存,配置两块 100Gb以太网卡(可选配 200Gb以上网卡)。在介质上,采用了领先的PCIe 5.0 SSD。单节点一体机可以提供至少 300万的IOPS,以及稳定的100微秒延迟,并支持灵活扩容。
根据星辰天合与英特尔的联合测试,通过QAT硬压缩,能够在不增加CPU占用率的前提下增加3倍的有效存储可用空间、提高1.29倍的写IOPS性能。相比于通过CPU实现的软件压缩,使用QAT硬压缩能够提高降低 47% 的写平均延迟,有2.14倍的写 IOPS 性能提升。
在OceanBase数据库性能测试中,三节点的星飞系统使用EC 2+1的冗余策略,启用QAT 压缩,1TB的数据库空间实际只占用880GB的容量,而采用RAID1的本地NVMe SSD方案则需要占用2TB的实际空间——相比而言,星飞系统只需要44%的本地 RAID1 方案的容量空间。性能方面,星飞分布式存储方案与本地RAID1方案的QPS和P95延迟指标相仿。综合考虑本地NVMe SSD的长期运维成本,星飞的图形化管理运维的便利性,及闪存全局均衡降低故障率,使用星飞一体机的实际TCO具有非常明显的优势。
星飞软件:星飞软件是一个高度集成和模块化的存储系统,基于星海架构,继承了XSKY SDS块和文件的成熟能力,提供了从基础设施到用户界面的全方位服务,能够满足多样化的存储需求,同时简化管理和维护工作。
在最底层(物理层),星飞软件支持x86、信创和公有云基础设施,确保了广泛的兼容性和性能标准。在数据持久化层,涵盖了副本和EC(纠删码)技术,端到端CRC保证了数据的完整性,通过硬件压缩提供了更好的空间效率。在数据服务和协议层面,提供了跟已有SDS V6类似的块和文件功能和协议,来确保存储体验一致性。
尤为值得一提的是,星飞软件可以部署在公有云上。云服务商的高性能云盘的价格较高,如果改为租用适合作为存储配置的虚拟机作为存储节点并部署星飞软件,在近似的IOPS下可以降低超过一半的成本。相比公有云网盘的可用性承诺,基于公有云的星飞产品可以提供更高的冗余度和可靠性保证,还可以利用低廉的快照成本和数据缩减能力进一步降低TCO。星飞的公有云部署能力有助于帮助用户实现多云化的 IT 架构,统一管理和运维技能。
结语
信息化革命以来,数据一直处于爆炸增长当中。面对容量的压力,“成本”是存储技术发展的重点,尤其是软件定义存储产品线,如何以更合理的成本去满足高可靠性、高服务性的要求。但人工智能的发展,企业保存的大量非结构化数据正在产生新的价值。如何更有效地发掘数据价值,对存储的性能提出了更高的要求。全闪是解决性能问题的必由之路,分布式存储是解决成本和弹性的理想方案。星辰天合推出星海分布式全闪架构,充分利用了处理器性能、网络带宽、存储接口的技术红利,能够帮助客户享受数据自由流动的价值。