大数跨境
0
0

计算所严明玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不一定更快

计算所严明玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不一定更快 AI科技评论
2025-12-21
2
导读:系统实验表明,模型推理分为计算受限的 Prefill 与内存受限的 Decode。

大模型推理性能的系统性拆解

随着大语言模型走向真实应用,推理阶段的延迟、吞吐与能耗已成为制约落地的核心挑战。模型规模扩大、上下文拉长,叠加RAG、MoE等新范式,使性能优化不再仅靠参数调整,而需深入系统与硬件协同层面。

中国科学院计算技术研究所严明玉团队联合中国电信云计算研究院、浙江实验室和北京大学,在论文《A Systematic Characterization of LLM Inference on GPUs》中,首次对GPU上大模型推理行为开展系统性实证研究。该工作未止步于局部优化,而是构建统一、可解释的性能认知框架,将推理明确划分为两个本质不同的阶段:计算密集型的Prefill与内存受限型的Decode,并在多模型规模、多硬件平台及MoE/RAG等新型范式下完成验证。

论文链接:https://arxiv.org/pdf/2512.01644v1

Prefill 与 Decode:阶段差异决定性能瓶颈

Prefill阶段一次性处理输入prompt,依赖大规模矩阵乘法,计算密集、GPU算力利用率高,属计算受限;Decode阶段逐token生成输出,频繁访问KV Cache,计算量小但内存带宽与延迟压力大,属内存受限

性能主导阶段随工作负载动态变化:短输入+长输出时,Decode耗时占比高;长输入下,Prefill因计算量呈超线性增长,反成延迟主因——瓶颈由负载决定,而非模型固有属性。

算子级瓶颈具有情境依赖性

在Prefill中,常规上下文长度下FFN耗时最多;但当上下文极长时,Attention复杂度上升更快,成为新瓶颈。Decode阶段亦呈模型规模相关性:小模型中Attention因高频KV访问成瓶颈;大模型中FFN权重加载带来的内存压力更突出。因此,“Attention是瓶颈”或“FFN是瓶颈”的笼统判断均不准确,必须结合阶段、上下文长度与模型规模综合研判。

性能可预测性与能耗特征

Prefill执行时间与输入token数呈高度稳定线性关系,具备强可预测性,利于系统调度与资源规划;Decode因串行依赖、采样随机性等因素,波动大、难预测。

能耗分析显示:总能耗几乎全部来自Decode阶段;输入长度影响微弱,输出token数量直接决定能耗总量;模型参数越多,总能耗越高。因此,在真实系统中,限制输出长度比优化Prefill更能有效降低能耗。

多GPU扩展与新型推理范式的启示

Prefill因计算量大,多GPU并行通常增益显著;Decode每步计算微小,通信与同步开销易抵消算力优势,甚至导致性能下降——Decode主导场景下,单GPU或轻量流水并行更优,打破“GPU越多越快”的直觉。

MoE模型推理速度取决于每步激活的专家参数量,非总参数量,具性能优势;但Decode阶段新增专家路由与调度开销,使性能更复杂。RAG工作流随外部知识库增大,瓶颈逐步从GPU推理转向CPU侧检索与内存访问,但Prefill/Decode的根本差异依然成立,仍是理解整体行为的关键。

面向系统理解的大模型推理实验框架

研究采用“现象—机制—验证”三层递进方法:先观察端到端性能表现,再深入GPU执行与存储行为,最终回归真实系统与新兴范式验证规律普适性 [2]

跨平台、多模型、多样化工作负载设计

实验覆盖数据中心级A100与边缘级Jetson AGX Orin GPU,验证结论在不同算力/内存约束下的适用性 [2] 。模型涵盖7B–32B dense架构及代表性MoE模型,所有实验在统一推理框架与精度设置下运行,控制实现变量干扰 [2]

工作负载设计覆盖短输入/长输出、长输入/短输出、真实对话与可控合成数据,主动构造Prefill主导与Decode主导场景,系统检验两阶段性能差异的鲁棒性 [2]

分层性能剖析与精准能耗测量

性能分析采用分层路径:整体层(延迟、吞吐、能耗)→阶段与算子层(Prefill/Decode占比、FFN/Attention耗时)→硬件层(Roofline建模、warp停顿、缓存命中率、内存带宽) [2] 。能耗通过高频功率采样并扣除空闲功耗确保准确性;RAG实验额外引入CPU侧分析工具定位检索瓶颈 [2] 。该方法保障每个宏观现象均有底层执行机制支撑,避免经验性误判 [2]

当问题被看清,优化才有方向

本研究的核心价值在于建立首个统一、可解释的大模型推理性能认知框架,将Prefill与Decode的阶段性差异升维为系统级基本规律,并证实其在不同模型规模、硬件平台与新兴范式下的普适性 [3]

工程层面,研究纠正了多项长期直觉误区:如“Attention永远是瓶颈”“多GPU一定加速”“Prefill是主要能耗来源”,并提供机制性反例与解释,直接指导推理服务部署、资源配置与成本控制 [3]

系统研究层面,明确区分Prefill与Decode的优化路径:前者聚焦算力释放与计算效率,后者侧重内存局部性、KV Cache管理与低开销并行策略,为调度器设计、新硬件特性利用提供理论锚点 [3]

面向未来,研究揭示MoE与RAG如何重塑瓶颈分布:MoE需关注路由开销与专家内存局部性;RAG需强化CPU–GPU协同与检索–推理流水耦合。模型与系统协同设计必须超越单纯扩大算力的思路 [3]

总体而言,这是一篇以实证为基础、以解释为目标、以系统认知为落脚点的研究,回答的是“为什么LLM推理会这样表现”,而非仅提供“如何让它更快一点”的技巧性方案 [3]

工作背后的研究者

本文通讯作者为中国科学院计算技术研究所严明玉教授,主要从事计算机体系结构研究,聚焦图机器学习、设计空间探索与复杂计算系统性能分析 [4]

个人主页:https://mingyuyan-ict.github.io/MingyuYan-ICT/

严明玉教授已在MICRO、HPCA、DAC、ICCAD、IJCAI、IEEE TC、IEEE TPDS等顶级会议与期刊发表近20篇论文,担任HPCA、ISCA、MICRO、ISPASS等会议程序委员会委员,入选中国科学院青年创新促进会、北京市科技新星计划,博士论文获CCF优秀博士论文奖 [4] 。其研究强调从系统视角解析计算负载在硬件上的执行机理,兼具理论深度与工程实践价值 [4]

【声明】内容源于网络
0
0
AI科技评论
聚焦AI前沿研究,关注AI工程落地。
内容 8420
粉丝 0
AI科技评论 聚焦AI前沿研究,关注AI工程落地。
总阅读56.8k
粉丝0
内容8.4k