大数跨境

RISC之父向AI芯片泼冷水:AI推理不需要更强的GPU,需要另一种硬件

RISC之父向AI芯片泼冷水:AI推理不需要更强的GPU,需要另一种硬件 DeepTech深科技
2026-03-13
10
导读:近日,2017 年图灵奖得主 David Patterson 最近与 Google DeepMind 高级工程师马晓宇在 IEEE Computer 联合发表了一篇论文,“关于大语言模型推理硬件的挑战

AI推理硬件正面临“内存墙”与“延迟墙”双重挑战

2017年图灵奖得主、RISC架构奠基人David Patterson与Google DeepMind高级工程师马晓宇,近期在IEEE Computer联合发表论文《关于大语言模型推理硬件的挑战与研究方向》,直指当前AI芯片设计与LLM推理实际需求严重错配。

(来源:arXiv)

LLM推理已陷入经济性危机

Patterson在论文开篇指出:当前AI芯片普遍追求满载算力、堆叠HBM、带宽优先互联的设计范式,并不匹配LLM推理的真实负载特征。这并非技术瓶颈,而是经济困局——头部科技公司发现,即便采用最先进GPU集群,LLM推理服务仍在持续吞噬利润。

据多方信源,微软、亚马逊、谷歌、Meta四大巨头2026年AI相关资本开支预计达6000亿美元,较2025年增长超50%。行业共识认为:推理成本飙升与需求爆炸式增长并存,正对AI商业化构成严峻考验。

(来源:UC Berkeley)

核心矛盾:Prefill与Decode阶段计算特性根本不同

论文指出,LLM推理分为Prefill(预填充)和Decode(解码)两个阶段,二者计算特性截然不同:

  • Prefill阶段处理全部输入token,属计算密集型,现有GPU/TPU尚可胜任;
  • Decode阶段为自回归生成,每步仅输出1个token,天然受内存带宽限制,而当前AI加速器均以训练为优化目标,推理实为“训练系统的缩小版”,导致高端芯片在推理中利用率极低。

六大新兴趋势加剧推理压力

论文归纳出加剧LLM推理负担的六大压力源:

  • MoE架构兴起:如DeepSeek V3启用256专家路由,参数量达6710亿,虽降低训练成本,却显著提升推理内存占用与通信开销;
  • 推理模型(Reasoning Models)流行:输出前生成大量思考token,拉长时延并加重KV Cache压力;
  • 多模态扩展:图像、音频、视频数据使输入规模急剧膨胀;
  • 长上下文需求增长:带来计算与内存双重压力;
  • RAG引入外部知识库:增加检索与融合资源消耗;
  • Diffusion模型应用扩展:虽不加剧内存压力,但进一步提升整体推理复杂度。

(来源:四家公司财报数据)

两堵高墙:内存墙与延迟墙

内存墙:HBM成本上升与DRAM增长放缓

硬件发展失衡是内存墙的根本原因:2012–2022年间,NVIDIA GPU浮点算力提升80倍,内存带宽仅增17倍,差距持续扩大。更严峻的是,HBM单位容量与带宽成本在2023–2025年间上涨约35%,而传统DDR DRAM同期成本下降近50%。

差异源于制造工艺:HBM需堆叠多层DRAM die,封装难度与良率压力随堆叠层数上升而剧增。与此同时,DRAM密度增长显著放缓——从8Gbit到32Gbit die耗时超10年,远长于此前3–6年的周期。

图 | HBM(上)和DDR(下)单位容量与单位带宽成本变化趋势(来源:论文)

图 | (a) HBM封装俯视图,(b) HBM侧视图(来源:论文)

延迟墙:实时响应要求倒逼网络重构

与数周级训练不同,LLM推理需毫秒至秒级端到端响应,用户关注两大指标:time-to-completion(完成时间)与time-to-first-token(首token时间)。长输出拖慢前者,长输入与RAG拖慢后者,推理模型则同时影响两者。

过去数据中心推理多在单芯片完成,互联网络重带宽轻延迟;而如今大模型迫使推理转向多芯片系统,软件分片导致高频小消息通信——在此场景下,“低延迟”比“高带宽”更具决定性。

四大硬件演进方向

方向一:高带宽闪存(HBF)

HBF通过堆叠闪存die实现接近HBM的带宽(>1600GB/s)与10倍容量(单堆栈512GB vs HBM4的48GB)。其写入耐久性有限、读取延迟较高(微秒级),故不适用于频繁更新场景,但极适配LLM推理中几乎静止的模型权重、网页语料库、代码库等只读或缓变数据。且闪存容量仍保持每三年翻倍,远超DRAM增速。

方向二:近内存计算(PNM)

区别于将计算逻辑集成于DRAM die内部的PIM(内存内计算),PNM将逻辑单元置于内存附近(独立die),通过3D堆叠或高速互联连接。该方案避免DRAM工艺对高性能逻辑的限制,分片粒度可达GB级(较PIM提升千倍),逻辑工艺可独立优化,更适配数据中心大规模LLM推理。论文亦指出,在移动端小模型场景中,PIM仍有探索价值。

方向三:3D计算-逻辑堆叠

利用TSV(硅通孔)实现垂直宽接口,可在更低功耗下获得更高内存带宽。路径包括:在HBM base die集成计算逻辑(复用现有设计,功耗降2–3倍);或定制化3D方案(突破HBM带宽上限)。主要挑战在于散热受限与内存-逻辑接口标准缺失。

方向四:低延迟互联

论文建议重构网络设计哲学,从带宽优先转向延迟优先,具体包括:

  • 采用树形、蜻蜓或高维Torus等高连通拓扑,减少跳数;
  • 引入网络内处理(Processing-in-Network),在交换机中加速all-reduce、MoE dispatch等常用通信原语;
  • 优化芯片设计,使小包直接进入片上SRAM,或将计算引擎靠近网络接口;
  • 在可靠性层面,部署本地备用节点降低故障迁移延迟,或在LLM容忍范围内以历史结果替代超时消息。

产业反思与现实意义

Patterson批评当前学术界与工业界严重脱节:1976年计算机架构会议40%论文来自工业界,而2025年ISCA该比例已跌破4%。他呼吁学界聚焦LLM推理这一“诱人研究目标”,并开发基于Roofline模型、融合TCO、功耗与碳排放等现代指标的性能模拟器,构建更实用的评估框架。

全球正面临因HBM产能挤占引发的DRAM供应危机。三星、SK Hynix加速转向高利润HBM产线,导致2026年消费级内存价格大幅上涨,短缺或持续至2027年甚至更久。在此背景下,HBF、PNM等替代路径不仅是技术探索,更是产业链寻找Plan B的现实需求。

论文强调,上述方向均非万能解法,需面对复杂权衡:HBF须解决软件层耐久性与延迟问题;PNM与3D堆叠依赖新分片策略与接口标准;低延迟互联可能牺牲部分带宽。但各方向具有高度互补性——更高带宽缩短Decode迭代延迟,更大单节点内存容量可减少系统规模与通信开销。

作为RISC与RAID的开创者,Patterson的职业生涯即是对范式的持续挑战。本次论文选择发表于面向广泛读者的IEEE Computer,行文如公开信;致谢名单涵盖Google AI基础设施核心架构师,凸显其跨产业共识基础。

【声明】内容源于网络
0
0
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
内容 5014
粉丝 0
DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
总阅读41.4k
粉丝0
内容5.0k