计算所严明玉团队新作： Attention 并非永远是瓶颈，多 GPU 并不一定更快



计算所严明玉团队新作： Attention 并非永远是瓶颈，多 GPU 并不一定更快

AI科技评论

2025-12-21

导读：系统实验表明，模型推理分为计算受限的 Prefill 与内存受限的 Decode。

大模型推理性能的系统性拆解

随着大语言模型走向真实应用，推理阶段的延迟、吞吐与能耗已成为制约落地的核心挑战。模型规模扩大、上下文拉长，叠加RAG、MoE等新范式，使性能优化不再仅靠参数调整，而需深入系统与硬件协同层面。

中国科学院计算技术研究所严明玉团队联合中国电信云计算研究院、浙江实验室和北京大学，在论文《A Systematic Characterization of LLM Inference on GPUs》中，首次对GPU上大模型推理行为开展系统性实证研究。该工作未止步于局部优化，而是构建统一、可解释的性能认知框架，将推理明确划分为两个本质不同的阶段：计算密集型的Prefill与内存受限型的Decode，并在多模型规模、多硬件平台及MoE/RAG等新型范式下完成验证。

论文链接：https://arxiv.org/pdf/2512.01644v1

Prefill 与 Decode：阶段差异决定性能瓶颈

Prefill阶段一次性处理输入prompt，依赖大规模矩阵乘法，计算密集、GPU算力利用率高，属计算受限；Decode阶段逐token生成输出，频繁访问KV Cache，计算量小但内存带宽与延迟压力大，属内存受限。

性能主导阶段随工作负载动态变化：短输入+长输出时，Decode耗时占比高；长输入下，Prefill因计算量呈超线性增长，反成延迟主因——瓶颈由负载决定，而非模型固有属性。

算子级瓶颈具有情境依赖性

在Prefill中，常规上下文长度下FFN耗时最多；但当上下文极长时，Attention复杂度上升更快，成为新瓶颈。Decode阶段亦呈模型规模相关性：小模型中Attention因高频KV访问成瓶颈；大模型中FFN权重加载带来的内存压力更突出。因此，“Attention是瓶颈”或“FFN是瓶颈”的笼统判断均不准确，必须结合阶段、上下文长度与模型规模综合研判。

性能可预测性与能耗特征

Prefill执行时间与输入token数呈高度稳定线性关系，具备强可预测性，利于系统调度与资源规划；Decode因串行依赖、采样随机性等因素，波动大、难预测。

能耗分析显示：总能耗几乎全部来自Decode阶段；输入长度影响微弱，输出token数量直接决定能耗总量；模型参数越多，总能耗越高。因此，在真实系统中，限制输出长度比优化Prefill更能有效降低能耗。

多GPU扩展与新型推理范式的启示

Prefill因计算量大，多GPU并行通常增益显著；Decode每步计算微小，通信与同步开销易抵消算力优势，甚至导致性能下降——Decode主导场景下，单GPU或轻量流水并行更优，打破“GPU越多越快”的直觉。

MoE模型推理速度取决于每步激活的专家参数量，非总参数量，具性能优势；但Decode阶段新增专家路由与调度开销，使性能更复杂。RAG工作流随外部知识库增大，瓶颈逐步从GPU推理转向CPU侧检索与内存访问，但Prefill/Decode的根本差异依然成立，仍是理解整体行为的关键。

面向系统理解的大模型推理实验框架

研究采用“现象—机制—验证”三层递进方法：先观察端到端性能表现，再深入GPU执行与存储行为，最终回归真实系统与新兴范式验证规律普适性 [2] 。

跨平台、多模型、多样化工作负载设计

实验覆盖数据中心级A100与边缘级Jetson AGX Orin GPU，验证结论在不同算力/内存约束下的适用性 [2] 。模型涵盖7B–32B dense架构及代表性MoE模型，所有实验在统一推理框架与精度设置下运行，控制实现变量干扰 [2] 。

工作负载设计覆盖短输入/长输出、长输入/短输出、真实对话与可控合成数据，主动构造Prefill主导与Decode主导场景，系统检验两阶段性能差异的鲁棒性 [2] 。

分层性能剖析与精准能耗测量

性能分析采用分层路径：整体层（延迟、吞吐、能耗）→阶段与算子层（Prefill/Decode占比、FFN/Attention耗时）→硬件层（Roofline建模、warp停顿、缓存命中率、内存带宽） [2] 。能耗通过高频功率采样并扣除空闲功耗确保准确性；RAG实验额外引入CPU侧分析工具定位检索瓶颈 [2] 。该方法保障每个宏观现象均有底层执行机制支撑，避免经验性误判 [2] 。

当问题被看清，优化才有方向

本研究的核心价值在于建立首个统一、可解释的大模型推理性能认知框架，将Prefill与Decode的阶段性差异升维为系统级基本规律，并证实其在不同模型规模、硬件平台与新兴范式下的普适性 [3] 。

工程层面，研究纠正了多项长期直觉误区：如“Attention永远是瓶颈”“多GPU一定加速”“Prefill是主要能耗来源”，并提供机制性反例与解释，直接指导推理服务部署、资源配置与成本控制 [3] 。

系统研究层面，明确区分Prefill与Decode的优化路径：前者聚焦算力释放与计算效率，后者侧重内存局部性、KV Cache管理与低开销并行策略，为调度器设计、新硬件特性利用提供理论锚点 [3] 。

面向未来，研究揭示MoE与RAG如何重塑瓶颈分布：MoE需关注路由开销与专家内存局部性；RAG需强化CPU–GPU协同与检索–推理流水耦合。模型与系统协同设计必须超越单纯扩大算力的思路 [3] 。

总体而言，这是一篇以实证为基础、以解释为目标、以系统认知为落脚点的研究，回答的是“为什么LLM推理会这样表现”，而非仅提供“如何让它更快一点”的技巧性方案 [3] 。

工作背后的研究者

本文通讯作者为中国科学院计算技术研究所严明玉教授，主要从事计算机体系结构研究，聚焦图机器学习、设计空间探索与复杂计算系统性能分析 [4] 。

个人主页：https://mingyuyan-ict.github.io/MingyuYan-ICT/

严明玉教授已在MICRO、HPCA、DAC、ICCAD、IJCAI、IEEE TC、IEEE TPDS等顶级会议与期刊发表近20篇论文，担任HPCA、ISCA、MICRO、ISPASS等会议程序委员会委员，入选中国科学院青年创新促进会、北京市科技新星计划，博士论文获CCF优秀博士论文奖 [4] 。其研究强调从系统视角解析计算负载在硬件上的执行机理，兼具理论深度与工程实践价值 [4] 。

【声明】内容源于网络

AI科技评论

聚焦AI前沿研究，关注AI工程落地。

内容 8420

粉丝 0

AI科技评论聚焦AI前沿研究，关注AI工程落地。

总阅读56.8k

粉丝0

内容8.4k