RISC之父向AI芯片泼冷水：AI推理不需要更强的GPU，需要另一种硬件- 大数跨境

首页

RISC之父向AI芯片泼冷水：AI推理不需要更强的GPU，需要另一种硬件

DeepTech深科技

2026-03-13

导读：近日，2017 年图灵奖得主 David Patterson 最近与 Google DeepMind 高级工程师马晓宇在 IEEE Computer 联合发表了一篇论文，“关于大语言模型推理硬件的挑战

AI推理硬件正面临“内存墙”与“延迟墙”双重挑战

2017年图灵奖得主、RISC架构奠基人David Patterson与Google DeepMind高级工程师马晓宇，近期在IEEE Computer联合发表论文《关于大语言模型推理硬件的挑战与研究方向》，直指当前AI芯片设计与LLM推理实际需求严重错配。

（来源：arXiv）

LLM推理已陷入经济性危机

Patterson在论文开篇指出：当前AI芯片普遍追求满载算力、堆叠HBM、带宽优先互联的设计范式，并不匹配LLM推理的真实负载特征。这并非技术瓶颈，而是经济困局——头部科技公司发现，即便采用最先进GPU集群，LLM推理服务仍在持续吞噬利润。

据多方信源，微软、亚马逊、谷歌、Meta四大巨头2026年AI相关资本开支预计达6000亿美元，较2025年增长超50%。行业共识认为：推理成本飙升与需求爆炸式增长并存，正对AI商业化构成严峻考验。

（来源：UC Berkeley）

核心矛盾：Prefill与Decode阶段计算特性根本不同

论文指出，LLM推理分为Prefill（预填充）和Decode（解码）两个阶段，二者计算特性截然不同：

Prefill阶段处理全部输入token，属计算密集型，现有GPU/TPU尚可胜任；
Decode阶段为自回归生成，每步仅输出1个token，天然受内存带宽限制，而当前AI加速器均以训练为优化目标，推理实为“训练系统的缩小版”，导致高端芯片在推理中利用率极低。

六大新兴趋势加剧推理压力

论文归纳出加剧LLM推理负担的六大压力源：

MoE架构兴起：如DeepSeek V3启用256专家路由，参数量达6710亿，虽降低训练成本，却显著提升推理内存占用与通信开销；
推理模型（Reasoning Models）流行：输出前生成大量思考token，拉长时延并加重KV Cache压力；
多模态扩展：图像、音频、视频数据使输入规模急剧膨胀；
长上下文需求增长：带来计算与内存双重压力；
RAG引入外部知识库：增加检索与融合资源消耗；
Diffusion模型应用扩展：虽不加剧内存压力，但进一步提升整体推理复杂度。

（来源：四家公司财报数据）

两堵高墙：内存墙与延迟墙

内存墙：HBM成本上升与DRAM增长放缓

硬件发展失衡是内存墙的根本原因：2012–2022年间，NVIDIA GPU浮点算力提升80倍，内存带宽仅增17倍，差距持续扩大。更严峻的是，HBM单位容量与带宽成本在2023–2025年间上涨约35%，而传统DDR DRAM同期成本下降近50%。

差异源于制造工艺：HBM需堆叠多层DRAM die，封装难度与良率压力随堆叠层数上升而剧增。与此同时，DRAM密度增长显著放缓——从8Gbit到32Gbit die耗时超10年，远长于此前3–6年的周期。

图 | HBM（上）和DDR（下）单位容量与单位带宽成本变化趋势（来源：论文）

图 | (a) HBM封装俯视图，(b) HBM侧视图（来源：论文）

延迟墙：实时响应要求倒逼网络重构

与数周级训练不同，LLM推理需毫秒至秒级端到端响应，用户关注两大指标：time-to-completion（完成时间）与time-to-first-token（首token时间）。长输出拖慢前者，长输入与RAG拖慢后者，推理模型则同时影响两者。

过去数据中心推理多在单芯片完成，互联网络重带宽轻延迟；而如今大模型迫使推理转向多芯片系统，软件分片导致高频小消息通信——在此场景下，“低延迟”比“高带宽”更具决定性。

四大硬件演进方向

方向一：高带宽闪存（HBF）

HBF通过堆叠闪存die实现接近HBM的带宽（＞1600GB/s）与10倍容量（单堆栈512GB vs HBM4的48GB）。其写入耐久性有限、读取延迟较高（微秒级），故不适用于频繁更新场景，但极适配LLM推理中几乎静止的模型权重、网页语料库、代码库等只读或缓变数据。且闪存容量仍保持每三年翻倍，远超DRAM增速。

方向二：近内存计算（PNM）

区别于将计算逻辑集成于DRAM die内部的PIM（内存内计算），PNM将逻辑单元置于内存附近（独立die），通过3D堆叠或高速互联连接。该方案避免DRAM工艺对高性能逻辑的限制，分片粒度可达GB级（较PIM提升千倍），逻辑工艺可独立优化，更适配数据中心大规模LLM推理。论文亦指出，在移动端小模型场景中，PIM仍有探索价值。

方向三：3D计算-逻辑堆叠

利用TSV（硅通孔）实现垂直宽接口，可在更低功耗下获得更高内存带宽。路径包括：在HBM base die集成计算逻辑（复用现有设计，功耗降2–3倍）；或定制化3D方案（突破HBM带宽上限）。主要挑战在于散热受限与内存-逻辑接口标准缺失。

方向四：低延迟互联

论文建议重构网络设计哲学，从带宽优先转向延迟优先，具体包括：

采用树形、蜻蜓或高维Torus等高连通拓扑，减少跳数；
引入网络内处理（Processing-in-Network），在交换机中加速all-reduce、MoE dispatch等常用通信原语；
优化芯片设计，使小包直接进入片上SRAM，或将计算引擎靠近网络接口；
在可靠性层面，部署本地备用节点降低故障迁移延迟，或在LLM容忍范围内以历史结果替代超时消息。

产业反思与现实意义

Patterson批评当前学术界与工业界严重脱节：1976年计算机架构会议40%论文来自工业界，而2025年ISCA该比例已跌破4%。他呼吁学界聚焦LLM推理这一“诱人研究目标”，并开发基于Roofline模型、融合TCO、功耗与碳排放等现代指标的性能模拟器，构建更实用的评估框架。

全球正面临因HBM产能挤占引发的DRAM供应危机。三星、SK Hynix加速转向高利润HBM产线，导致2026年消费级内存价格大幅上涨，短缺或持续至2027年甚至更久。在此背景下，HBF、PNM等替代路径不仅是技术探索，更是产业链寻找Plan B的现实需求。

论文强调，上述方向均非万能解法，需面对复杂权衡：HBF须解决软件层耐久性与延迟问题；PNM与3D堆叠依赖新分片策略与接口标准；低延迟互联可能牺牲部分带宽。但各方向具有高度互补性——更高带宽缩短Decode迭代延迟，更大单节点内存容量可减少系统规模与通信开销。

作为RISC与RAID的开创者，Patterson的职业生涯即是对范式的持续挑战。本次论文选择发表于面向广泛读者的IEEE Computer，行文如公开信；致谢名单涵盖Google AI基础设施核心架构师，凸显其跨产业共识基础。

【声明】内容源于网络

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

内容 5014

粉丝 0

DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

总阅读41.4k

粉丝0

内容5.0k