AI推理硬件正面临“内存墙”与“延迟墙”双重挑战
2017年图灵奖得主、RISC架构奠基人David Patterson与Google DeepMind高级工程师马晓宇,近期在IEEE Computer联合发表论文《关于大语言模型推理硬件的挑战与研究方向》,直指当前AI芯片设计与LLM推理实际需求严重错配。
(来源:arXiv)
LLM推理已陷入经济性危机
Patterson在论文开篇指出:当前AI芯片普遍追求满载算力、堆叠HBM、带宽优先互联的设计范式,并不匹配LLM推理的真实负载特征。这并非技术瓶颈,而是经济困局——头部科技公司发现,即便采用最先进GPU集群,LLM推理服务仍在持续吞噬利润。
据多方信源,微软、亚马逊、谷歌、Meta四大巨头2026年AI相关资本开支预计达6000亿美元,较2025年增长超50%。行业共识认为:推理成本飙升与需求爆炸式增长并存,正对AI商业化构成严峻考验。
(来源:UC Berkeley)
核心矛盾:Prefill与Decode阶段计算特性根本不同
论文指出,LLM推理分为Prefill(预填充)和Decode(解码)两个阶段,二者计算特性截然不同:
- Prefill阶段处理全部输入token,属计算密集型,现有GPU/TPU尚可胜任;
- Decode阶段为自回归生成,每步仅输出1个token,天然受内存带宽限制,而当前AI加速器均以训练为优化目标,推理实为“训练系统的缩小版”,导致高端芯片在推理中利用率极低。
六大新兴趋势加剧推理压力
论文归纳出加剧LLM推理负担的六大压力源:
- MoE架构兴起:如DeepSeek V3启用256专家路由,参数量达6710亿,虽降低训练成本,却显著提升推理内存占用与通信开销;
- 推理模型(Reasoning Models)流行:输出前生成大量思考token,拉长时延并加重KV Cache压力;
- 多模态扩展:图像、音频、视频数据使输入规模急剧膨胀;
- 长上下文需求增长:带来计算与内存双重压力;
- RAG引入外部知识库:增加检索与融合资源消耗;
- Diffusion模型应用扩展:虽不加剧内存压力,但进一步提升整体推理复杂度。
(来源:四家公司财报数据)
两堵高墙:内存墙与延迟墙
内存墙:HBM成本上升与DRAM增长放缓
硬件发展失衡是内存墙的根本原因:2012–2022年间,NVIDIA GPU浮点算力提升80倍,内存带宽仅增17倍,差距持续扩大。更严峻的是,HBM单位容量与带宽成本在2023–2025年间上涨约35%,而传统DDR DRAM同期成本下降近50%。
差异源于制造工艺:HBM需堆叠多层DRAM die,封装难度与良率压力随堆叠层数上升而剧增。与此同时,DRAM密度增长显著放缓——从8Gbit到32Gbit die耗时超10年,远长于此前3–6年的周期。
图 | HBM(上)和DDR(下)单位容量与单位带宽成本变化趋势(来源:论文)
图 | (a) HBM封装俯视图,(b) HBM侧视图(来源:论文)
延迟墙:实时响应要求倒逼网络重构
与数周级训练不同,LLM推理需毫秒至秒级端到端响应,用户关注两大指标:time-to-completion(完成时间)与time-to-first-token(首token时间)。长输出拖慢前者,长输入与RAG拖慢后者,推理模型则同时影响两者。
过去数据中心推理多在单芯片完成,互联网络重带宽轻延迟;而如今大模型迫使推理转向多芯片系统,软件分片导致高频小消息通信——在此场景下,“低延迟”比“高带宽”更具决定性。
四大硬件演进方向
方向一:高带宽闪存(HBF)
HBF通过堆叠闪存die实现接近HBM的带宽(>1600GB/s)与10倍容量(单堆栈512GB vs HBM4的48GB)。其写入耐久性有限、读取延迟较高(微秒级),故不适用于频繁更新场景,但极适配LLM推理中几乎静止的模型权重、网页语料库、代码库等只读或缓变数据。且闪存容量仍保持每三年翻倍,远超DRAM增速。
方向二:近内存计算(PNM)
区别于将计算逻辑集成于DRAM die内部的PIM(内存内计算),PNM将逻辑单元置于内存附近(独立die),通过3D堆叠或高速互联连接。该方案避免DRAM工艺对高性能逻辑的限制,分片粒度可达GB级(较PIM提升千倍),逻辑工艺可独立优化,更适配数据中心大规模LLM推理。论文亦指出,在移动端小模型场景中,PIM仍有探索价值。
方向三:3D计算-逻辑堆叠
利用TSV(硅通孔)实现垂直宽接口,可在更低功耗下获得更高内存带宽。路径包括:在HBM base die集成计算逻辑(复用现有设计,功耗降2–3倍);或定制化3D方案(突破HBM带宽上限)。主要挑战在于散热受限与内存-逻辑接口标准缺失。
方向四:低延迟互联
论文建议重构网络设计哲学,从带宽优先转向延迟优先,具体包括:
- 采用树形、蜻蜓或高维Torus等高连通拓扑,减少跳数;
- 引入网络内处理(Processing-in-Network),在交换机中加速all-reduce、MoE dispatch等常用通信原语;
- 优化芯片设计,使小包直接进入片上SRAM,或将计算引擎靠近网络接口;
- 在可靠性层面,部署本地备用节点降低故障迁移延迟,或在LLM容忍范围内以历史结果替代超时消息。
产业反思与现实意义
Patterson批评当前学术界与工业界严重脱节:1976年计算机架构会议40%论文来自工业界,而2025年ISCA该比例已跌破4%。他呼吁学界聚焦LLM推理这一“诱人研究目标”,并开发基于Roofline模型、融合TCO、功耗与碳排放等现代指标的性能模拟器,构建更实用的评估框架。
全球正面临因HBM产能挤占引发的DRAM供应危机。三星、SK Hynix加速转向高利润HBM产线,导致2026年消费级内存价格大幅上涨,短缺或持续至2027年甚至更久。在此背景下,HBF、PNM等替代路径不仅是技术探索,更是产业链寻找Plan B的现实需求。
论文强调,上述方向均非万能解法,需面对复杂权衡:HBF须解决软件层耐久性与延迟问题;PNM与3D堆叠依赖新分片策略与接口标准;低延迟互联可能牺牲部分带宽。但各方向具有高度互补性——更高带宽缩短Decode迭代延迟,更大单节点内存容量可减少系统规模与通信开销。
作为RISC与RAID的开创者,Patterson的职业生涯即是对范式的持续挑战。本次论文选择发表于面向广泛读者的IEEE Computer,行文如公开信;致谢名单涵盖Google AI基础设施核心架构师,凸显其跨产业共识基础。

