大数跨境

数存连线丨第3期:AI大爆发下,数据存储的未来之路

数存连线丨第3期:AI大爆发下,数据存储的未来之路 ExponTech
2025-07-25
1

全文6977字,汇集多位数据存储行业专家高密干货,完整阅读约需10-15分钟。


AI正像洪水般冲击IT领域,被视为与互联网出现相当的变革性事件注1。大模型场景下,数据存储面临的挑战,将不仅仅是传统意义上容量增加、性能提升的线性挑战。

7月17日,数据存储专委会主办第3期数存连线沙龙,围绕“AI大爆发下,数据存储的未来之路”,邀请赛迪顾问电子信息产业研究中心副总经理袁钰、科大讯飞智算运维负责人徐恩松、华为AI存储解决方案首席架构师任祥贵、华为数据存储产业发展总监张震、华瑞指数云CTO曹羽中、焱融科技CTO 张文涛与专委会秘书长孙钢共同对话。

嘉宾聚焦AI下的存储需求、定义、新技术及标准,展开深入探讨与思考碰撞。

◀ 滑动查看更多照片 ▶

以下为本期沙龙的整理与摘录。

01.

AI对存储提出了哪些新需求?       

袁钰:前几天黄仁勋来中国“带货”H20芯片引起巨大关注,算力似乎已经上升到大国博弈,反观存储领域,几乎没有什么水花。我认为,这是由于算力的性能释放非常直观,而存储所发挥的支撑作用却不明显

当前存在的问题是,存储的架构和性能瓶颈实际上拉低了AI算力性能的上限。大模型训练在读取TB量级数据时,很多算力因为受到存储的制约而被浪费了。AI对存储最明确的需求依然在于高性能和高并发能力。

张震:AI场景下存储最核心的变化是对性能要求指数级的蹿升。过去,即便是对数据存储要求极高的金融核心生产系统,存储设备的IOPS、带宽依然是富余的。然而,当AI大模型中算力规模骤然增长到几十万卡甚至上百万卡时,也必然要求存储性能和网络带宽指数级的增长来与之匹配。

今年2月,Grok3发布,为了支持大模型的训练,xAI将数据中心训练集群翻了一倍。数据处理规模的大幅提升,对数据存下来的能力,以及存储与算力间的交互能力要求大大提高。

那么,到底是用算力、还是存储来解决这个问题?这可能将是长时间的博弈。业界最新观点是:相比于算力,存储更具性价比,也许将更多的数据处理卸载到存储,会是未来AI存储的发展方向。

张文涛:由于算力太贵太稀缺了,AI存储的核心就在于围绕GPU解决IOPS、带宽等性能问题,不让存储成为算力的短板。

此外还有一些方面值得关注:

首先,随着数据量指数级的增长,为了解决存储成本问题,热、温、冷的数据分级存储诉求也出现了。

其次,当算力平台共享一套存储时,还衍生出数据隔离和数据安全维度的需求。

再次,大模型推理在企业内落地时,如何将海量的私域的历史数据融入大模型,让其具备专业技能,存储也需要发挥纽带作用。

曹羽中:除了性能这个显而易见的基础需求外,我再补充两个方面。

第一,大模型训练推理过程中的数据融合。训练前有大量的数据准备工作,目前企业普遍把不同业务系统的数据用不同的存储方案孤岛式地存放,基于这个现状,企业如何做好数据融合、提炼数据集将是一个巨大挑战。

第二,存储卸载算力将成为一个新兴需求点。当前有一种说法,大模型和AI Agent都是无状态的,没有记忆能力的。其实我们完全可以把大量的重复运算卸载到存储,让模型具备记忆能力,让存力和算力并驾齐驱。

徐恩松:科大讯飞在训练场景下对存储的需求主要在于这几点。

第一,性能是基础门槛。如果存储性能不行,导致训练长时间的等待,浪费的将不仅是存储,更是昂贵的算力。目前,我们将存储介质替换成全闪后,存储方案基本可以保障训练的读写性能。

第二,高可靠性。在智算场景下,可靠性不足可能会引发任务中断、GPU节点负载高、系统恢复周期长等情况,高可靠性成为仅次于性能的强需求。

第三,数据生命周期的治理。训练场景的数据量非常大,但并不是所有数据都需要保存。对数据进行冷热识别与智能分级,及时清理不需要保留的过程数据,可以释放大量存储空间。大模型下的备份是一个重要场景,全量备份是对成本的巨大浪费,我们希望从海量数据中识别出具有备份价值的数据进行保存。

在推理场景下,也有两个特点。

第一是高并发。多机推理场景下需要使用文件存储来提供服务,我们曾经跑过1个500节点的多机推理任务,500个GPU节点会同时并发访问同一个文件,在这种场景下当时出现了存储性能瓶颈,并行加载数据过慢,任务等待超时后失败。这就要求从存储软件层优化高并发读场景的性能。

第二是成本问题。推理的数据量并不大,对存储性能要求高、但对容量的需求并不多。我们在做推理存储集群建设方案评估时,既要考虑满足推理时所需的高性能,又要考虑控制集群规模,提升单位存储密度下的性能,降低存储整体建设成本。

任祥贵:大模型时代带来了存储的一些变化。

首先,存储的容量需求变大。过去,生产数据一般保存几个月,冷数据则是存放在低成本、性能差的磁带库等介质中。而当数据成为AI的核心要素,过去沉睡的冷数据需要被激活,作为数据集随时被拿来训练。

第二是数据治理和数据流转的需求。在数据清洗、数据治理、数据安全流转方面,存储可以发挥很大作用,快速归集分布在不同系统的海量数据,尤其是一些读取效率不高的小文件,将其处理成高质量训练数据集。

第三是在推理场景下的推理加速,提升用户体验。AI推理加速场景对存储并发读的性能要求很高,将推理过程计算生成的KV Cache数据保存在存储,后续推理任务通过缓存的KV Cache加速,可以减少大量的重复计算,提升算力吞吐和推理并发。

02.

我们该如何定义“AI 存储”?         

曹羽中:未来应用形态不再是传统信息化,而是Agent这类,数据面向AI,因此AI存储一定有本质上的不同。

第一,AI存储的主体形态应该是分布式、可扩展的架构,而非孤岛式

第二,AI存储未来的容量需求会非常大。AI的智能是建立在数据的基础上的,需要尽可能多地把数据存储下来。另一个原因在于AI不能直接解析裸数据,而是需要把数据做向量化,原本1个token只占用几个byte,数据向量化后,变成了至少几百个byte,数据量将产生几十倍到几百倍的增长。

第三,向量化、可检索的存储能力。当前数据存储以结果数据为主,但在AI时代,Agent产生的大量过程数据都是有价值的,它可以指导AI强化学习,让其变得更高效更智能。通过向量化、可语义检索的存储能力,才能真正把杂乱无章的数据用起来。

第四,通过AI存储代替计算。暴力计算的过程是不可持续的,通过存储减少重复计算将是重要方向。

张文涛:未来的AI存储形态应该是GPU直接和数据打交道

为了能够跟GPU进行高速数据交互,近GPU侧的热数据需要存放在全闪存介质上,同时为了充分发挥全闪存的性能和达到GPU的高速数据吞吐要求,需要高速无损的网络配合。

因此,全闪存存储和RDMA技术,以及支持横向扩展的分布式架构是AI存储的标配。

张震:我心目中的AI形态,首先是新型的“分布式”存储。不同于我们现在谈的分布式存储,它的形态不一定是独立的,甚至可能长在服务器上,或者节点变得很小。例如DPU,它在服务器上,但需要从存储角度统一进行管理。它的形态还可能是盘,比如SanDisk的高带宽闪存HBF。有点类似于异构算力平台,把基于ARM、英伟达的芯片统一调度起来,未来存储可能是分布式存储、DPU、HBF,甚至边缘存储的统一融合。

其次,很多企业级推理场景并没有大用户访问量和高并发需求,它更多的需求是把企业私域数据和问答结合起来,减少AI幻觉,保证问答准确性。这种场景不需要大的算力,存储加上少量的推理卡,甚至使用CPU,就能解决推理问题。这也是一种边缘存储的形态。

第三,从数据管理上来说,存储要从存数据演变为用数据和管数据。这在海外已经走得比较快,Databricks、Snowflake、NetApp等厂商都在强调自己不是数据存储,而是数据平台。

数据标签、数据识别、数据备份、数据流动都是AI存储要解决的问题。在东数西算的场景里,用专线把几百T的数据从东部传到西部可能得一个月,如何识别出有价值的数据进行传递,以往是通过数据库和大数据做,未来通过存储来实现,效率将会更高。

袁钰:AI存储大家有各自的落地方法,很难给出明确的定义,但很多要点已经讨论出来了。

首先是智能化存储的技术应用问题。当大模型在各行各业完全普及,个人产生的数据都将是TB级,数据冷热温三类价值各不相同,智能化数据分层的技术非常重要。

第二个是数据量的问题。存储最关键的是能存得下,它的扩展性是核心点。从国家数据局发布的《全国数据资源调查报告》来看,我们存下来的数据量占比还很低。

徐恩松:从需求方的角度,我们希望AI存储能够做得更多。在推理场景下的KV Cache以存代算,通过记忆的方式减少算力消耗,就可以理解为存储在AI场景下提供的定制化能力。

未来AI存储的能力,我有两点畅想。

第一是对算力做感知。比如智能的数据调度和识别,感知训练需要使用什么数据,在分层存储的场景下提前做数据的预热加载,加快GPU读取数据的效率。

第二是数据的预处理能力。在大模型训练的场景里,数据预处理目前是一个独立阶段,未来是不是有可能把如特征提取、压缩打包等工作集成到存储方案中实现。

任祥贵:训练场景下,围绕GPU的效率提升,存储可以做这些事。一是数据直通,数据离GPU更近可以实现更高的读写效率,通过在存储上插算力卡集成计算,做算力卸载,在存储上做数据预处理,将处理后的数据传到GPU上直接使用。但它还面临一些挑战,尤其是对上层生态的依赖。

在推理方面,影响推理行业化落地的一个重要问题在于成本。一方面企业的私域知识不太可能拿给大模型厂商做训练,另外他也可能没有条件买很多卡做二次训练。

有一种思路是让普通存储变成RAG知识库存储,在推理过程中提供知识补充,消除推理幻觉,通过KV Cache以存强算,历史的记忆让推理更快、算力吞吐更高,同时大大减少推理成本,让更多的企业、行业推理落地。

孙钢:当我们还无法对AI存储精确定义的时候,可以尝试先去描述它。

存储做标准面临的问题是,存储生来长得不一样,这种情况下,我们可以描述它应该具备哪些能力,让大家用不同的方法去实现,再找客户来进行验证。

03.

AI场景下,存储有哪些技术新方向?

张文涛:可以从性能和成本两个维度去看。

从性能角度,一方面是硬件的,如SSD、PLC、QLC。和GPU高速互联方面,IB网络、基于以太网的RoCE网络都是比较成熟的技术。

另一方面是软件层面,AI存储更多是非结构化形态,分布式元数据技术基本是AI存储的标配;为了发挥硬件能力,软件层面的标配还有RDMA(注:Remote Direct Memory Access,远程直接内存访问)、GDS(注:GPU Direct Storage,英伟达开发的一种技术,它允许GPU直接访问存储设备),以及把 IP网络带宽聚合起来的Multi-Channel技术等等。

从成本角度也出现了一些新的解决方案,包括数据分层、多协议互通,为了满足训推一体化,还需要多套不同网络平面下的存储融合解决方案。

未来,我们需要关注推理存储方向——如何将GPU显存HBM产生的数据卸载到远端存储。从GPU显存到CPU内存,再到存储,在这个三层缓存架构里,分布式存储的带宽可以横向扩展,HBM本身的带宽也很高,但 CPU memory的带宽是个短板,CXL协议分布内存池的技术可以做高带宽共享,在推理存储中的价值正逐步显现。

曹羽中:硬件上,RDMA网络、SSD全闪已经非常成熟,但是在软件层面还有大量工作需要去做。

过去的分布式存储软件很难把大带宽和低时延都跑出来,我们在分布式存储软件里面使用了Bypass 操作系统内核、大规模并行无锁通道、内存零拷贝、RDMA网络通信等技术来加速IO处理的效率。

GPU直通存储也主要是软件层面的技术,通过软件IO调度策略把 GPU和存储通过RDMA网卡直连。还有一些更新的但没有成熟商用的技术,像多级KV Cache、 KV Cache的持久化等,非常有前景,业界都很关注。

徐恩松:在跨机房多集群的算力调度场景下,由于网络的延迟问题,我们无法在训练的过程中跨机房读取数据,数据跨机房拷贝流转效率也比较低,来回的拷贝会导致数据重复存储。

期望未来存储可以实现数据全局统一管理的技术能力,将跨机房的多个物理存储集群统一纳管,统一元数据管理,数据按需智能流动。

任祥贵:我再补充两点。

第一,新介质。大的数据量对功耗、机房空间产生新挑战,相同尺寸下,提升单盘容量密度可以节约机房空间和功耗电力。目前,QLC新介质30T的大盘已经商用,我们还在引入60T、120T大盘。

第二,长序列并发推理能力。企业AI推理业务在企业落地,一般会带企业RAG知识搜索,短序列变长序列,通过存储KV Cache的能力,解决长序列并发推理慢的问题,也是一个技术方向。

张震:安全方向也十分重要。AI场景下的分布式存储,在RoCE网络的暴露面大,存储层发生数据泄露的风险也在加大。从人工智能安全治理的角度,存储安全应该被重视。

然而,数据空间、联邦学习、隐私计算或者TEE(注:可信执行环境)的安全保障,似乎和存储没有太大关联,我认为存储技术应该发挥它的作用。从技术上看,在数据库、云或者应用程序上加密,难度比较高,但是存储加密比较容易,技术成熟且性价比很高。

孙钢:AI下的安全和传统安全区别很大。过去从机制上就能保证安全,在AI下,就像一个不出家门的孩子跑出去了,原来的安全能力也远远不够了。

04.

AI存储需要建立哪些标准?         

曹羽中:首先是GPU直接访问存储的标准。虽然业界有一套英伟达的GDS,但它绑定的是英伟达CUDA生态,国内有各种国产GPU,明确GPU访问存储的接口标准和方式非常重要。

另一个是接口标准。除了块、文件、对象的传统存储分类外,未来AI时代,还可能出现新的类型,需要定义新的接口来完成和算力、大模型以及推理框架的对接。将来可能会有这方面的需求,但现在很难立刻产生统一标准,因为上层也在动态变化中。

张文涛:GDS标准化的价值非常明显。GPU涉及到NVIDIA和国产化的生态,每家厂商都有自己的一套逻辑,通过GPU DIRECT标准化,存储只需要统一适配一套标准。

第二是KV cache。它的问题在于推理框架不统一,对于KV Cache的管理和使用方式也各有不同,导致存储需要提供对应的解决方案。

第三是数据识别的标准。大模型访问的是向量化数据,历史数据在向量化的过程中,有对象、NAS等各种格式,如何识别各种数据源,明确与向量数据库之间的关联,需要一套标准接口或协议。

袁钰:我们可以从非通用和通用两个角度来思考标准工作。

非通用方面,医疗、互联网、交通等不同应用场景下对存储性能需求各不相同,结合产品方案以及客户实践,标准的匹配度将更高,实用性更强。

通用标准主要在三个层面。第一是安全,通过加密存储控制访问安全,防止数据泄露或篡改,明确访问和追责方式;第二是兼容性,主流的标准协议,如SMB、S3、HDFS是兼容性标准的方向;第三是智能化,如数据分层的标准。

我们可以通过标准制定工作在行业里形成对话机制,让 AI存储在各行业各领域并非孤立。

张震:以往的存储标准更多是对设备或存储厂商向内去要求,但从AI存储的角度,需要的是面向用户的标准,以及兼容性、生态性的标准。

首先,我们不应该限定厂商AI存储的形态,而是要从用户的角度对性能、容量、电力等方面做规范。

第二是生态和兼容性的标准。例如,L3 缓存真正能用起来,是因为AWS把对外的兼容性和生态标准打通了。回到 AI场景,我们面临着英伟达以及国内各种GPU和推理框架,我们需要数据空间安全类的、推理方面基于KV Cache的各种标准,需要向外做生态。

徐恩松:底层数据存储格式还缺乏统一标准。各个厂商不同的数据存储格式无法相互兼容,多个集群间的数据流转和迁移,目前还是从文件上层读取。

如果在存储磁盘底层对数据格式进行统一规范,大规模文件迁移的效率将远比从文件层迁移高得多。

不过,让各个厂商遵循统一标准来研发文件系统,这个挑战还是比较大的。

任祥贵:AI存储遵循与传统存储不一样的标准。

第一,存储性能密度、容量以及绿色节能的标准。比如多少算力对应需要多少存储性能和容量,可以制定相关标准。

第二是生态标准。AI存储对接不同GPU,和各种AI平台、推理框架、RAG知识库对接,应该形成标准。

另外,还有数据处理和数据归集的多协议互通,可以大大提升数据搬移、数据访问的效率。

05.

如何推动 AI 存储从“共识”到“标准”?

曹羽中:我们需要重点关注AI存储与生态对接的一些标准,邀请芯片、算力调度平台、推理框架、训练框架等等厂商讨论,沟通GPU直通存储,AI存储与各类平台和框架对接的方式。

张文涛:可以为智能中心构建一套存储参考标准架构,让使用方、建设方参照标准方向去建设和使用。

孙钢:我很同意。把方案标准变成事实标准是产生标准的一种方式,需求和可行性都经过了论证。

张文涛:另外一个维度,我们可以参考国外类似ML Perf的AI存储评测标准,形成一套本土化评测工具,将国内外GPU厂商都纳入进来,测评存储是否能满足直接交互,和存储厂商做生态兼容。

孙钢:国内评测基本属于满足型、合规型,类似的评测严重欠缺。过去IT领域的标准大多追随海外,但在AI这个领域,咱们说不定可以争夺话语权

任祥贵:这是一场客户与厂商的双向奔赴,客户在使用过程中有哪些关键需求,设备厂商通过技术创新来满足这些需求。

张震:是的,我们需要像科大讯飞这种有明确实践的客户,将需求表述得非常清楚。

在传统存储里,客户想得特别清楚,比如金融行业有明确的磁盘阵列标准,厂商可以基于不同架构和方案去满足。

但在AI场景下,很多客户对存储是没有认知的,他认为也许服务器本地盘就可以解决存储问题。

孙钢:所以直到客户看到存储以存强算的能力,他才会真正产生认知,这需要整个存储产业联合起来,共同做引导和发声。

注1:2025年1月,Blocks and Files的创始人Chris Mellor撰文深入探讨了生成式人工智能、大语言模型和智能体如何深刻改变存储行业。文章指出:GenAI正像洪水般冲击整个IT领域,被视为与互联网出现相当的变革性事件。

END

关于【数存连线】

数据存储专委会主办的沙龙活动,面向数据存储企业、客户、专家及所有从业者,每期围绕一个大家所关心的数据存储产业核心话题开放对话。根据话题方向邀请业内专家,或是围坐一堂、品茶聊天、讨论碰撞,或是走进企业实地拜访、深入探查、展现观点,为行业提供独特视角与前沿之声。

欢迎各界同仁共享话题和观点,成为我们的讨论伙伴!

【声明】内容源于网络
0
0
ExponTech
帮助企业打造新一代数据架构,让未来更有数!
内容 78
粉丝 0
ExponTech 帮助企业打造新一代数据架构,让未来更有数!
总阅读37
粉丝0
内容78