
概览
分布式存储指基于分布式架构,通过软硬件协同,依托高效网络连接多个节点来实现存储功能的IT产品和服务。在传统存储面临拓展性有限、结构化/非结构化数据兼容性不佳、I/O性能与成本不经济、可靠性不高和面向新应用(如容器)支持能力有待提升、用户体验不佳等问题的背景下,分布式存储一定程度上与传统存储实现了较好配合。
相比传统的集中式存储,分布式存储在以下领域表现突出:
云原生:指“生在云上、长在云上”的政企业务场景,典型的有容器和微服务等
高性能计算(HPC):支撑每秒百亿亿次浮点计算(EFLOPS)场景的分布式存储
融媒体:指文件大且I/O延迟要求低的元宇宙、虚拟数字人和虚拟现实等场景
智能备份:指视频监控、医疗影像和智能制造等场景
从规模看,近三年中国分布式存储市场规模均保持30%以上的高速增长,2022年市场规模达104.2亿元
从结构看,2022年,文件存储占比最高,一体机、分布式混闪、虚拟化融合在各自领域占比较高
从场景看,HPC在2022年中国分布式存储主要场景市场中居于重要地位
从区域看,2022年华北、华东地区占据半壁江山,京津冀、长三角市场领跑
厘清概念,把握分布式存储的核心要点
一、分布式存储是什么
随着数字中国加速落地,数据作为数字经济的核心部分,具有基础战略资源和关键生产要素的双重作用,对于建设网络强国、科技强国、质量强国都具有重要意义。
在新一代信息技术不断迭代升级的背景下,全球数据量呈现爆发式增长。作为全球数据生产大国,中国数据量也面临急剧增长的态势。数据量的急剧扩展,愈发凸显了数据存储及管理的重要性。数据存储作为数据管理的必要手段,其发展迎来了新机遇。
传统存储面临拓展性有限、结构化/非结构化数据兼容性不佳、数据读写任务(I/O)性能与成本不经济、可靠性不高和面向新应用(如容器)支持能力有待提升等问题,用户体验不佳。在此背景下,分布式存储近年来迅速发展,一定程度上与传统存储实现了较好配合,满足了多个场景用户的个性化需求。
二、分布式存储的分类
根据场景特点和需求,2022年中国分布式存储产品共有四种主要的分类方式:
按存储对象,可分为分布式块存储、分布式文件存储、分布式对象存储、分布式统一存储;
按产品形态,可分为一体机、纯硬件和纯软件;
按存储介质,可分为分布式全闪存、分布式混闪;
按部署方式,可分为虚拟化融合方式、容器融合方式和分离方式。
(一)按存储对象分类
分布式块存储:指将各存储节点的硬盘、闪存盘等存储硬件资源通过划分逻辑卷(LVM)、创建独立冗余存储阵列(Raid)、逻辑分区等方式,由物理存储资源转化为面向需求的逻辑块,提高使用效率。
分布式文件存储:指基于文件系统对各存储节点的数据进行存储,形成目录、子目录、文件,常见的分布式文件存储应用有Ceph、HDFS、GFS、 FastDFS、GridFS、mogileFS、TFS等。
分布式对象存储:指各存储节点由标识符、数据和元数据的对象数据构成。其中标识符在该存储系统中唯一,用于区分不同存储区域;元数据将提取数据特征,便于快速检索。分布式对象存储相比块存储和文件存储,数据查找和提取的效率大大提升,适用于文本、音频、视频等非结构化数据。
分布式统一存储:指各存储节点同时支持块、文件和对象三大类型数据,满足虚拟化、云平台和容器平台等新兴存储需求,为用户提供服务典型应用和计算平台的统一存储资源池。
(二)按产品形态分类
一体机:从设备层面将各节点存储资源进行融合优化,同时软硬件为同一厂商生产、一体交付,适配度高,可有效缓解单个节点或设备短板导致整体系统功能受影响等问题。扩展能力较强,且可在线增加节点,对前段业务完全透明。不足之处是价格偏高。
纯硬件:指交付形态为磁盘阵列、闪存盘集群等硬件资源的分布式存储产品,适配的软件分为自研和开源二次开发两种路线。纯硬件交付模式成本高,但可靠性较高,适用于重要敏感数据存储场景。
纯软件:指交付形态为定制化应用软件、平台授权码等的分布式存储产品,一般应用于优化存储硬件的场景,如老旧数据中心改扩建等。纯软件交付定制化空间大、成本低、交付周期短,但扩容及存储硬件兼容性问题一定程度上也会影响运行效率。
(三)按存储介质分类
分布式全闪存:指各存储节点完全由固态硬盘(SSD)构成,主流的适配接口为NVNe,每秒读写次数(IOPS)可跃升至百万级别,相比传统的机械硬盘(HDD)提升了近千倍。缺点是价格高昂,且受限于系统总线协议和其他部件,分布式全闪存性能较难完全发挥。
分布式混闪:指各存储节点由SSD、HDD等构成。尽管性能不及分布式全闪存,但可针对场景需求进行个性化定制,从而最大程度上均衡成本和性能,是目前主流的分布式存储产品。
(四)按部署方式分类
虚拟化融合:指在分布式存储(块存储为主)的架构基础上,利用服务器虚拟化的隔离机制,实现存储和服务器虚拟化在同一硬件节点上的部署。这种架构的优势在于整体架构更为简单,并且节省了硬件成本,缺点是计算和存储需要同时扩展,不适用于计算和存储应用不均衡的场景。
容器融合:面对容器化持久化存储日益增长的需求和Kubernetes特有的管理架构,专门针对此类场景的分布式存储产品也开始涌现。容器融合的分布式存储产品对 K8s集群内的存储资源进行整合与管理,不仅可以通过与容器融合部署降低成本,简化系统架构,还可以无缝融入 K8s 原生的开发和运维体系,更加符合 K8s 运维团队的使用习惯。
分离:指各存储节点资源与应用分离,虽然架构更加复杂并需要更多的硬件节点,但方案更为灵活,并适用更多场景,尤其适合大容量的数据存储,以及从裸金属、虚拟化到容器的不同计算节点的混合资源池。
三、分布式存储的优势
高可靠性:分布式存储的数据采取存放在多个存储节点中的全冗余部署,通过多时间点快照、周期增量复制两大核心技术,可实现在一定时间间隔内,对各版本数据的保存,并且同时进行恢复,可帮助分析和研究,避免类似灾难的再次发生。
高效作业:面对可划分为若干个并行运行的子任务的存储任务,分布式存储可将这些子任务分散到不同的存储节点上,使其同时运行作业,从而提高效率。另外,分布式存储系统具有任务负载平衡功能,如果某个存储节点的负载过重,则可把其中一些作业迁移到其他节点去执行,从而减轻该节点的负载,实现整体效率的提升。
高可扩展性:分布式存储横向连接了多个存储节点,可按存储容量和性能的需要,灵活横向拓展(Scale-out)新节点。新存储节点和原系统连接到同一个网络,同时业务的连续性基本不受影响,可基本实现分布式存储系统的总容量和性能无感线性扩展。新存储节点的资源将由分布式存储操作系统管理,进行分配或取消,原有数据可通过复制、镜像、同步等方式,实现在新节点的迁移。
高质量产业生态:分布式存储有开源和自研两种路线,前者是在开源系统基础上进行二次开发,自研则是厂商根据自身技术积累、主要客户群体需求自主研发的分布式存储系统。开源系统的优势在于便捷可用、成熟度高、成本可控,但在定制化服务上不及自研线路厂商。自研路线技术门槛普遍较高,服务能力强,并且自持技术专利可实现迭代,但有待更多案例实践加速其产品和服务的成熟。
量化研究,明确分布式存储的发展现状
一、 2020-2022年中国分布式存储市场规模
2020-2022年,受数据要素价值持续释放、分布式架构场景加快普及和疫情推动线上经济发展、丰富数字治理实践等因素影响,中国分布式存储市场规模快速发展。
比重快速提升:从市场规模来看,2020-2022年中国分布式存储的市场规模占比由24%增长到38.7%,尽管相比集中式存储仍有一定差距,但重要性进一步提升。
增速表现亮眼:从市场规模增速来看,分布式存储的市场规模增速远高于存储系统市场的平均水平,成为拉动市场增长的重要力量。2020-2022年分布式存储的市场规模增速远高于集中式存储。
二、 2020-2022年中国分布式存储市场结构
2020-2022年,分布式文件存储凭借其对各类应用的强大兼容性,优势地位逐渐明显。分布式块存储的稳定性较高,而分布式对象存储的成本偏高,有待进一步优化。
相比单一硬件和软件形态产品,分布式存储一体机的市场接受度更高,原因在于其交付及维护效率高、性能稳定和可靠性等优势突出, 2020-2022年的市场占比均超过85%。
2020-2022年,分布式混闪市场规模占比均较大,受限于成本偏高和适用场景较少等因素,分布式全闪存的比重较低。
2020-2022年,容器融合的分布式存储部署方式快速发展,成为与虚拟化融合部署互相配合、彼此互补的重要手段。分离部署方式将应用和存储资源隔开,虽然可以避免系统繁忙时负载不均衡,但一个节点存储需求骤升容易导致整个系统不稳定,存在一定的风险,实践中部署偏少。
三、 2022年中国分布式存储主要场景市场
整体上看,HPC在2022年中国分布式存储主要场景市场中居于重要地位。除了气象预测、基因测序、自动驾驶和AIGC外,HPC还有能源勘探、卫星遥感、各学科数值计算等领域,分布式存储的需求量大,增速保持较高水平。
除此之外,云原生是2022年增速最快的行业市场,原因是云原生企业依托分布式存储开展业务,而后续业务的拓展也将通过扩展分布式存储的存储节点实现,需求持续增加。随着云原生不断普及,对应的分布式存储需求将越来越大。
除图12提到的几大典型应用场景外,分布式存储还广泛应用在金融、保险、政务等领域,是应对大规模扩容、运营成本均衡、灾备冗余等难题的有力措施,未来有望保持高速增长态势。
四、 2022年中国分布式存储区域市场
从区域市场来看,2022年华北、华东地区占据中国分布式存储市场的半壁江山。一方面,华北、华东地区数字经济发展成果显著,对分布式存储需求量较大;另一方面,华北的京津冀、华东的长三角是分布式存储的重点地区市场,一定程度上对两地区市场的表现起到了带动作用。
瞄准企业,洞察分布式存储的厂商动态
一、 2022年中国分布式存储市场重大事件
2022年,分布式存储在处理高效海量数据的作用突出,成为“东数西算”工程正式全面启动的重要技术之一;同时保障业务稳定性的优势进一步被行业肯定,是应对突发事件的重要解决方案;随着IT厂商加快云原生实践步伐,以Ceph为代表的分布式存储开源社区的影响力越来越大,而部分厂商采用自研分布式存储产品以支持Kubernetes等工具的效果也较为显著。
二、 2022年中国分布式存储厂商竞争力情况
2022年中国分布式存储市场领导者有华为、 中科曙光、浪潮、新华三。
2022年中国分布式存储市场挑战者有XSKY、 SmartX、 NetApp、 Dell&EMC、焱融科技。
2022年中国分布式存储市场跟随者有同有、杉岩和中国电子云,可期待者有深信服和联想。
三、2022年中国分布式存储部分细分市场情况
教育科研市场对分布式存储的需求除了海量数据I/O和温冷热数据管理外,还要求支撑线上课程、教务系统、科研成果共享等多样化应用。2022年中国分布式存储教育科研市场中,中科曙光ParaStor存储系统通过全栈自主研发的NVMe全闪存优化、混合负载承载等技术,有效响应了教育科研用户需求,凭借26.1%的市场份额占据市场首位。华为、浪潮分列第二、三位。除此之外,中科曙光ParaStor在保障高端气象数值平台发挥作用上广受用户认可,占据2022年中国气象市场首位。
2022年中国分布式块存储金融市场用户较为看重产品稳定性、企业级存储特性、小I/O高并发和低延迟性能,SmartX的ZBS产品受到青睐,在稳定性、性能及开放性方面具备独特优势,并提供了多种的部署形态,2022年在分布式块存储金融市场占比达21.3%,市场份额最高。华为和新华三分别以19.1%和17%紧随其后。
谋篇布局,预测分布式存储的未来发展
一、 2023-2025年中国分布式存储市场规模预测
2023-2025年,数字中国建设进入重要时期,分布式存储的高扩展性、高效作业、高可靠性等优势将越发显著,市场规模持续增长,预计到2025年有望达到211.4亿元。
未来三年,分布式存储的主要应用场景需求个性化、高性能化要求显著。云原生场景中,持久化存储将成为容器化场景大规模落地的关键,Kubernetes等容器场景需要与之真正匹配的运维和管理模式的分布式存储产品;HPC的需求将主要体现为可扩展性,EB级数据的高效I/O和成本控制一定程度上决定了厂商的竞争力;融媒体场景的需求将随着元宇宙、虚拟数字人的落地和普及相应提升,低时延的特性将提振分布式全闪存产品的市场需求。与此同时,分布式存储也将拓展其在多元场景的应用。到2025年,云原生、HPC和融媒体的市场规模有望达到44.0亿元、 32.3亿元和23.7亿元,领跑中国分布式存储市场。
随着“东数西算”工程持续推进,东西部地区算力、存力协同发展态势将越发显著,东部地区保持市场优势地位的同时,西部地区支撑东部地区的效果有望提升,对分布式存储的需求也将相应提升。到2025年,预计西北、西南地区市场份额占比之和将接近30%。
从重点地区市场规模来看,京津冀、长三角和粤港澳大湾区将继续领跑,到2025年,分布式存储市场规模将分别达到61.6亿元、36.4亿元和27.4亿元。成渝地区作为西部地区数字经济发展重点区域,对分布式存储的需求较大,2025年有望达到19.5亿元。
完整版报告,点击下方小程序查看




