在FMS 2025上,Micron发布《Real-world AI workloads need fast, efficient storage》报告,揭示AI算力跃迁背后被忽视的关键瓶颈——存储性能滞后。随着GPU算力迅猛提升,传统存储架构已难以满足AI训练与推理的数据吞吐需求。
算力飞跃,存储跟不上,是AI基础设施真正的隐痛。
存储,正成为AI系统的新瓶颈
过去几年,GPU性能实现跨越式增长,从V100到B200算力提升达37.5倍。然而,支撑数据传输的PCIe带宽仅提升8倍,导致“算力增速远超数据供给能力”的结构性失衡。这一差距使得数据流通成为AI系统的制约因素,传统存储架构面临严峻挑战。
Micron的NVMe SSD组合:高性能、主流、超大容量
为应对多样化AI负载需求,Micron推出三大NVMe SSD产品线:
- 9000系列(高性能):支持PCIe Gen6,适用于对延迟敏感的AI混合负载;
- 7000系列(主流):面向通用AI推理与分析任务,强调能效比;
- 6000系列(高容量):单盘最高可达245TB,聚焦海量数据存储密度。
三大系列分别对应AI存储的核心维度——速度、能效与容量,满足不同场景的差异化需求。
不同AI场景需要不同“泳道”的SSD,通吃策略已难以为继。
GPU主动发起存储访问:IO架构的范式转移
现代AI加速卡拥有上万个并行核心,可并发产生上亿IOPS请求,远超单个CPU核心约百万级IOPS的能力。传统以CPU为中心的存储路径已无法承载如此高强度的IO压力。
为此,NVIDIA与Micron共同推动GPU主导的新型存储访问架构:
- GDS(GPU Direct Storage):数据直接从存储传至GPU内存,控制路径仍经由CPU;
- BAM(Big Accelerator Memory):数据与控制流均绕过CPU,实现GPU直连存储;
- SCADA(未来模型):引入客户端-服务器架构,进一步优化多节点协同效率。
上述架构的核心目标是打破CPU瓶颈,构建更高效、低延迟的存储-算力直通链路。
性能数据背后:Gen6已成刚需
Micron在H3平台上测试BAM架构下的表现:
- 使用20块Micron 9650 Gen6 SSD,实现高达8600万IOPS,预计可突破亿级;
- 单盘带宽线性扩展至107GB/s;
- 在NVIDIA SCADA架构下,小块随机读取接近理想线性扩展。
这些性能高度依赖PCIe Gen6提供的高带宽支持,印证了全链路升级的必要性。
GPU主导的存储访问,不仅需要更快的SSD,更需要全链路的带宽升级。
主流场景的能效战:Micron 7600的数据说话
在企业及边缘部署场景中,能效比至关重要。Micron 7600系列在典型AI负载中表现出色:
- ResNet50图像识别任务中,单位功耗带宽优于主要竞品;
- CosmoFlow和Unet3D等复杂模型任务中,实现更高吞吐与更低能耗。
主流SSD正在从“够用”向“高效”演进,成为降低AI落地成本的关键一环。
容量密度的极限突破:6600系列和122TB SSD
针对长期存储与大模型训练等高容量需求场景,Micron 6600系列采用E3.S规格实现122TB单盘容量:
- 相较传统U.2硬盘,容量提升67%;
- 36U机架内可部署高达88.5PB存储,密度为HDD方案的3倍以上。
更高的存储密度显著降低空间占用与总体拥有成本(TCO),尤其适用于视频分析、大模型预训练等数据密集型应用。
在AI时代,硬盘不是不够用,而是太占地方。
总结:AI时代的存储,不能再被低估
Micron通过9650、7600与6600三大系列产品,覆盖高性能、主流能效与超大容量三大AI存储需求,构建完整战略布局。
这份报告并非产品宣传,而是对AI基础设施的一次深刻提醒:
真正拖慢AI发展的,不是模型,不是算法,而是你还没升级的那一层存储架构。

