大数跨境

超越MLA!新架构MLRA百万token,解码最高2.8倍速 | ICLR'26

超越MLA!新架构MLRA百万token,解码最高2.8倍速 | ICLR'26 新智元
2026-03-19
4


新智元报道

编辑:LRST
【新智元导读】MLRA通过将KV缓存拆分为四个并行分支,在保持模型质量前提下显著降低显存占用,支持4路张量并行。推理速度较MLA最高提升2.8倍,原生适配百万级上下文,无需牺牲性能即可高效扩展长文本处理能力。

随着大语言模型(LLM)在检索增强生成(RAG)、多步思维链(CoT)及超长对话等任务中广泛应用,解码阶段需处理的token数量大幅增加。其核心瓶颈在于:自回归生成受显存带宽限制(Memory-bound),而非算力限制(Compute-bound)。

每个解码步均需将完整Key-Value(KV)缓存从片外存储(如HBM)加载至片内缓存(如SRAM),数据搬运主导推理延迟,导致GPU利用率低下。

在标准多头注意力(MHA)机制下,KV缓存规模随头数、头维度与序列长度线性增长;当上下文超过10万token时,即成为显著性能瓶颈。

为缓解该问题,业界已提出多种方案:

  • 分组查询注意力(GQA):通过多组查询头共享KV,成比例减少缓存量;
  • 多查询注意力(MQA):所有查询头共享单组KV,但常以牺牲模型质量为代价;
  • 多头潜在注意力(MLA):由DeepSeek-V2提出,将KV压缩至单一低维“潜在头”,在保障质量的同时大幅节省缓存。

MLA通过低秩映射将隐藏状态投射为一个潜在向量,并仅缓存该向量;解码时将Key的上投影矩阵吸收进Query中,避免显式生成全部KV,从而降低显存压力。

MLA的两大局限

尽管高效,MLA存在两个关键工程瓶颈:

  • 张量并行受限:因采用单一潜在向量结构,KV缓存无法切分,导致SGLang等框架只能使用数据并行(DP),造成模型权重冗余,无法实现高效张量并行(TP)解码;
  • 可扩展性受限:矩阵吸收后,其解码逻辑等效于超高维MQA(如576维)。受限于GPU片上资源(如SRAM),难以进一步扩大潜在维度,致使FlashMLA等高性能Kernel目前仅适配NVIDIA Hopper架构(H100/H200)。

MLRA:多头低秩注意力

宾夕法尼亚州立大学、康涅狄格大学、卡内基梅隆大学、加州大学洛杉矶分校联合提出MLRA(Multi-Head Low-Rank Attention),从代数视角重构计算流程:将原本的大矩阵运算拆解为四个独立子块并行运算。

块分解视角(The Block Decomposition)

将原4倍维度的KV潜在向量逻辑划分为四个相等子块,对应权重矩阵亦垂直切分为四块;物理含义是:当前Key/Value为四个子块投影结果的累加和。

求和顺序外移(Moving the Sum Outside)

这是MLRA的核心改进:

  • MLA逻辑:先对四个子块分别投影并求和,再执行Softmax注意力;
  • MLRA逻辑:利用线性可加性,对每个子块独立完成投影与注意力计算,最后汇总四路输出。

该设计带来三大工程优势:

  1. 完美支持4路张量并行:每张GPU仅处理一个子块,四卡完全解耦、并行无等待;
  2. 显存占用降至约1/4:单卡只需缓存对应子块维度,大幅缓解KV Cache压力;
  3. 计算流水线优化:将“求和”移出注意力核心,消除同步等待,显著提升大规模推理吞吐量。

实验结果

研究人员在Llama-3架构下,基于FineWeb-Edu 983亿token,从零训练了29亿参数(2.9B)模型,对比MHA、MQA、GQA、MLA、MFA、TPA、GLA-2/4、GTA等主流注意力变体。所有模型通过调整FFN中间维度确保参数量一致。

验证集困惑度(Validation Perplexity)

在Wikipedia、C4、Pile、RefinedWeb、Cosmopedia、FineWeb、FineWeb-Edu共7个数据集上评估:

  • MLRA-4取得最低平均困惑度13.672,优于MLA(13.727)及其他所有基线;
  • 在6/7个数据集上排名第一(Pile除外);
  • MLRA-4持续优于MLRA-2,表明分支数量增加有利于模型性能;
  • 关键结论:4路张量并行下,MLRA-4将单设备KV缓存读取量降至1.5dh,仅为MLA的1/3,同时实现更优模型质量。

常识推理能力

在ARC-E/C、OpenBookQA、BoolQ、HellaSwag、Winogrande、PIQA共7项零样本常识推理任务中,MLRA-4同样取得最高平均准确率,与困惑度结果高度一致。

解码速度(Decoding Speed)

在单块NVIDIA H100 80GB GPU上,测试128K–2M上下文长度的单序列解码延迟(MLRA-4基于FlashAttention-3,MLA采用官方FlashMLA):

  • MLRA-4在所有长度下均领先全部基线;
  • 相比GQA加速1.05–1.26倍,且加速比随序列增长而提升;
  • 相比MLA稳定加速2.8倍,验证了减少单设备KV读取可直接转化为更高解码速度。

解码吞吐量(Decoding Throughput)

在8块H100 GPU上评估批量解码吞吐量(隐藏层维度7168,参考DeepSeek-V3设置):MLA(DP=8)、GLA-2(TP=2/DP=4)、MLRA-4(TP=4/DP=2)、GQA(TP=8):

  • MLRA-4在所有序列长度下均达成最高吞吐;
  • 短序列中受益于更少的Q/K/V参数量;
  • 长序列中因无需重复加载KV缓存,4路TP显著提升显存效率——即使GQA启用TP=8,仍落后于MLRA-4。

可扩展性与开源支持

MLRA具备优异可扩展性:MLA增大潜在头维度易导致Kernel部署困难;而MLRA的多分支低秩结构可在固定参数/激活预算下支持更多头数,同时保持对张量并行的友好性与内核执行效率。

研究人员已开源完整训练代码、预训练权重、数据集及基于FlashAttention-3的高性能解码Kernel,便于复现与工业部署。

论文:https://arxiv.org/pdf/2603.02188
博客:https://SongtaoLiu0823.github.io/mlra
代码:https://github.com/SongtaoLiu0823/MLRA
数据与权重:https://huggingface.co/Soughing/MLRA

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 15045
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读143.5k
粉丝0
内容15.0k