大数跨境

藏在 AI 背后的隐秘战场:存储系统如何成为发展瓶颈与破局关键

藏在 AI 背后的隐秘战场:存储系统如何成为发展瓶颈与破局关键 元龙数字智能科技
2025-05-07
3





藏在 AI 背后的隐秘战场


存储系统如何成为发展瓶颈与破局关键


当我们享受着AI秘书们24小时在线的贴心服务,轻松获取各种答案时,很少有人意识到,在这些免费又智能的应用背后,存储系统正成为制约AI进一步发展的关键瓶颈。就像联合收割机需要高效的仓储系统来保障麦子不腐坏,AI训练与推理的整个数据生命周期,都依赖存储系统的强力支撑,而这个领域,恰恰是当前AI发展亟需突破的重要环节。

AI应用的免费背后,实则是厂商们在成本控制与性能提升间的激烈博弈。为了让自家AI模型“学”得又好又快又便宜,厂商们在算法、数据、GPU等方面投入巨大。可当大家把能优化的地方都尝试过后,却发现角落里的“图书馆”——企业级存储系统,竟成了提升AI“性价比”的关键。以训练万亿参数大语言模型为例,其需要消耗10PB语料,相当于220亿本纸质书,如此海量数据,对存储系统的读写能力提出了极高要求。

在AI训练过程中,存储系统面临着带宽与IOPS的双重重压。想象一万亿个“神经元葫芦娃”同时看书学习,可能上一秒需要调取500万册语文书,下一秒又要500万册英语书,这就要求存储系统具备超高的IOPS,即每秒能处理数百万次读写请求。同时,训练过程中为防止因计算错误导致前功尽弃,需要定时保存参数检查点,一个检查点文件最大可达5TB,若存储系统带宽不足,存完这个文件耗时过长,一旦出现问题,回滚损失巨大。比如,万卡集群每回滚一秒就是上百美元的损失,回滚一小时几十万美元就打了水漂。

除了带宽和IOPS,存储系统还面临数据格式与分层存储的挑战。AI训练的数据来源广泛,收集阶段多以“对象”形式存储,而训练时更适合“文件”格式,这就需要存储系统具备灵活转换数据格式的能力。此外,存储介质有闪存和机械硬盘之分,闪存速度快但成本高,机械硬盘则相反。为了在保障性能的同时降低成本,像曙光的S6000 “分层存储”混闪产品,采用冷热数据分层技术,训练时自动将数据推至闪存,训练后落回机械硬盘,实现了性能与成本的平衡。

在数据传输层面,GPU与CPU的协同优化也是难题。AI时代,GPU崛起成为计算主力,但数据通路仍由CPU主导,GPU查看内存或硬盘数据都需CPU“点头”,而CPU和内存的速度跟不上GPU,导致数据传输效率低下。为解决这一问题,曙光存储支持多种GPU直连协议,如XDS,让GPU能直接从存储系统拉数据到显存;还借鉴超算技术,引入Burst Buffer,在网络空闲时预加载数据至本地硬盘,减少网络传输对GPU性能的限制。

面对美国的技术封锁,中国存储企业如曙光和华为,走出了一条艰难却成果显著的突围之路。曙光团队为达到190GB/s带宽和500万IOPS的目标,突破常规,从头设计“存储专用服务器”。在硬件设计过程中,他们通过反复搭建测试环境,调整硬件布局和数据通路,解决了一个又一个瓶颈问题。为了让新设计方案通过,团队用详实的实验数据说服领导,甚至自担额外成本,推动工程技术部生产。最终推出的ParaStor F9000,不仅性能达到世界一流,还支持多种AI加速特性。

展望未来,存储系统的智能化与国产化将是发展方向。未来的存储系统要能自适应识别数据冷热状态,动态调整存储策略;要兼容多种数据格式和访问协议,满足不同应用需求;更要摆脱对国外技术的依赖,构建自主可控的存储生态。就像曙光存储团队已经领到新任务,着手定制新服务器和CPU,在国产技术栈上继续深耕。

存储系统虽不像算法、GPU那样备受瞩目,但它却是AI发展不可或缺的技术底座。中国存储企业在突破瓶颈的过程中,不仅提升了自身技术实力,也为AI产业的长远发展奠定了坚实基础。随着存储技术的不断创新,AI未来必将迎来更广阔的发展空间 。


 

元龙科技AIGC,365元畅学AI入门

福利一:年卡会员特惠来袭,365 元畅享整年知识福利,赠价值 1000 元的 AI 人工智能通识 3 天线下培训,专业讲师助您入门前沿技术。

福利二:4980 元拿下工信部 AIGC 专业级资格证,含 120 节精研课程包,覆盖知识要点,另赠千元 3 天线下培训,线上线下结合,助您抢占职业先机。


别犹豫啦,速来开启人工智能学习之旅!

培训地点 :

山西省运城市好课堂乐学广场4楼路演大厅

咨询电话:

4001188556/17703590976



  END  

【声明】内容源于网络
0
0
元龙数字智能科技
永做第一 使命第一 向善第一
内容 901
粉丝 0
元龙数字智能科技 永做第一 使命第一 向善第一
总阅读246
粉丝0
内容901