什么是分布式全闪,分布式全闪跟全闪存阵列具体有哪些区别?
华瑞指数云 于强:首先第一个就是软硬件解耦,我们是可以把分布式全闪装到通用的硬件服务器里,不再是像集中式全闪或者传统全闪阵列这种需要定制化的硬件。
另外一个分布式全闪聚焦到分布式本身,它是具备横向扩展性的,因为它装的是这种通用服务器,随着这个服务器横向的扩容,我们的容量跟性能都是可以线性扩展的,这个是分布式带来的一个概念,落到分布式全闪里面,可以横向扩展的性能就更高,这个可以后面我们再找机会深入的探讨。
再一点能够称之为分布式全闪本身最重要的概念就是全闪。以我们为例,华瑞指数云自研的分布式全闪存产品WDS,我们的端到端的IOPS可以达到单卷几百万级别,而时延一般是在百微秒级,百微秒或者是毫秒以内这样的时延才能够真正称得上是一个全闪。所谓的分布式全闪能具备这一点也是最重要的。
所以总结来说第一就是软硬解耦,第二就是横向扩展,第三就是具备数百万IOPS,百微秒级时延这样的性能,具备这些能力才能称之为分布式全闪存。
DOIT主编 宋家雨:于老师您说到软硬件分离,那你们的产品形态是纯软件的方式还是一个软硬结合的方式?
华瑞指数云 于强:我们是纯软,可以装在任何通用硬件上。
DOIT主编 宋家雨:你们对X86服务器也是有兼容认证吗?
华瑞指数云 于强:一般通用的服务器厂商都可以跟我们做轻量的适配。面对一些高性能场景,我们会为用户推荐,比如像100G的网卡,200G的网卡,有可能推荐RDMA等等,但是我不强绑定。如果客户需要更极致的性能,你可以选用更高性能的通用硬件。前提一定是通用硬件,这是我们的一个设计理念。我认为分布式全闪或者是软件定义全闪的概念,都应该具备这样的特点。
面对企业实际业务应用时,用户应当如何选型?什么情况下分布式全闪存,什么时候选集中式全闪存?
华瑞指数云 于强:华瑞指数云,包括我们今天提的分布式全闪存或者软件定义全闪的概念,大多数还是聚焦在企业用户。中小型客户,他们在选型方面不会像互联网大厂有那么大规模的云化环境,主要是自己的私有云场景。那么延伸一下这个话题,企业用户或者是政企用户一般都是哪些应用场景呢,我来跟大家分享一下,这个也是我们一段时间以来推广分布式全闪存所积累的一些经验和结论。
首先第一个是数据库场景,很多企业客户他会把集中式数据库对接到全闪存阵列里。现在很多客户是这样的,就是跑在全闪存阵列里的集中式数据库,比如国产的达梦等等,这些数据库跑在集中式全闪存上面,是用户长期以来默认的一个对接形态。当我们去跟用户交流的时候,用户其实是有很多痛点的,比如它的存储只能给数据库使用,这部分全闪阵列的性能是很高,但是只能给数据库使用。用户再有另外一套云化的场景,比如使用虚拟化或私有云对接Ceph,那这些数据库就没办法用到全闪的性能,所以这里面就有一个替换的需求,就是我们用分布式全闪对接到用户的云化场景里面。
分布式SDS对云是天然结合的一个组合。大多数我们所知道的云化场景,企业客户用的私有云,后面大多数接的类似像Ceph这样的,我们叫SDS1.0混闪的架构,这种架构上面是没办法跑高性能的业务,更别说高性能数据库的业务。华瑞指数云可以给企业客户解决的一个很大的痛点就是我们把分布式全闪接到云化架构里面,就可以满足高性能或者低时延的业务上云的需求。这个是数据库跟云结合的一个场景。
另外一个场景是容器化场景,这块跟集中式全闪阵列没什么关系,大多数云化和云原生场景我们对标的是本地磁盘,云原生场景的持久化存储有许多接的都是本地的SSD,因为它需要高性能,但是集中式全闪阵列又不能跟云原生结合去解决存算分离的需求,它没办法横向扩展,只能有一个集中式的单控或者多控的场景,所以分布式全闪和软件定义全闪的场景就很适合云原生的这种容器云场景。华瑞指数云也跟一些容器云化的客户交流过,我们给他推荐一些分布式的全闪方案来替代他的本地盘,性能不但能够提供接近甚至有的时候有小超越,因为我们的IOPS比本地盘还要大。同时我还可以给客户实现存算分离的这个架构。
另外还一个场景,华瑞指数云最近接触的一个很新的场景,就是AI训练。我们现在很热的一个话题是大模型训练,训练和AI的场景对存储的需求是很庞大的,它的性能要求也是极高的,是需要非常庞大的扩展能力,当然你用集中式全闪也能解决这种,现在你有很多的集中式阵列放在 AI训练后面,也能解决一些需求,但是成本就很高,维护成本也高,所以大模型和AI训练场景也是分布式全闪和软件定义全闪这种横向扩展能力的天然的场景。
我们已经进入到数据爆炸的时代了,客户对于存储本身的需求局限于集中式阵列所提供的那种几百万,1,000万IOPS,就觉得已经很高了。现在分布式全闪存包括华瑞的WDS,我们自己实测过,三节点已经到1,200万IOPS了。横向扩展到28个节点的话我们能到上亿的IOPS,而且还可以继续横向扩展下去,时延都能保证在几百微秒,这个就是当前的分布式全闪时代给大家带来的一个优势。分布式全闪存除了达到百微秒级别、横向扩展这些特性,还有哪些是分布式全闪存特有的标志?
华瑞指数云 于强:我们还有很多场景上的一些特殊优化,剩下的就是低时延,全闪存带来的几个优势,我们可以用两个维度去对比。一个是对比集中式全闪,前面我们一直在对比的就是集中式全闪阵列,还有一个要对比的就是第一代的分布式,可以理解成混闪架构,比如像Ceph这样的早期的混闪架构。
分布式全闪对比这一类主要是拥有一个高性能的软件栈,就像我刚才说的,要把这些硬件的能力发挥到极致,我们要深度的优化软件栈的每一层的时延跟性能。所以我们做自研分布式存储的时候,把每一层的时延优化到极致到微秒级别。我们现在实测的性能,相对于Ceph我们的时延是Ceph的大约1/10,而我们性能是它的几十倍。可能这样的优化程度,我们现在比集中式全闪的某些产品还要快还要及时,因为我们要面临的就是分布全市场要面临的是一个更大集群的扩展性,在更大集群的扩展性还要发挥更大的能力,所以对于整个的软件上的要求,包括可靠性,包括可用性的能力要求会更高。
全闪存分布式系统在跨服务器的过程当中,如何保证涉及到的区域性数据能够及时同步在各个服务器上,同步之后性能表现又如何?
华瑞指数云 于强:这个问题提的很专业。分布式跟集中式全闪存很多技术是相通的,我们未来也会提供这种同步复制异步复制的场景,但是有区别。比如说在同步复制的场景,可能会限制我们同步复制的距离,我要保证足够的时延,才能够保证分布式全闪的性能表现。不像传统的分布式混闪的场景,分布式混闪的场景可以接受距离100公里、毫秒级的这种时延,在分布式全闪还是集中式全闪阵列都是不能容忍的,因为同步复制需要两边写成功才返回。我们也会提供这种类似于分布式异步的这种方式,这种方式我们可以把IPO控制的非常小来解决客户容灾的场景。这种架构整个的原生管理在每个厂商都不一样,它需要一个很精细化的元数据管理。华瑞这边我们会提供一个比较优秀的元数据管理集群的方式,这种方式是未来在这种多云和多集群场景的一个非常有优势的能力。
为什么集中式高端全闪和其他分布式全闪几乎不提单卷IOPS一般提集群和单节点IOPS?
华瑞指数云 于强:一般性能我们都会从三个维度去看,单卷IOPS,单节点IOPS,有限节点数的集群IOPS。
第一个单卷IOPS反映的是客户在单卷场景的一个体验,决定了当客户只使用单个计算服务器时能够从存储端获得的性能体验,实际上大部分的传统企业应用包括集中式的数据库都可以称之为单体架构,是很依赖于单计算节点的性能的。第二单节点IOPS跟有限节点数,比如三节点的IOPS结合起来,可以看你整个存储软件的一个扩展能力,你是不是线性扩展的,你是不是增加每一个节点就能线性增加相应的性能。
有关分布式全闪存、集中式全闪阵列等话题,
点击下方视频回看更多精彩内容:

媒体报道 | 36氪专访华瑞指数云:SDS进入2.0时代,渐进式迭代以10年为周期


