大数跨境

Kimi团队新作:大模型告别“死板相加”,Attention Residuals如何重新定义残差连接?

Kimi团队新作:大模型告别“死板相加”,Attention Residuals如何重新定义残差连接? AI前沿速递
2026-03-23
15
导读:Kimi团队新作:大模型告别“死板相加”,Attention Residuals如何重新定义残差连接?

 

在深度学习的世界里,残差连接(Residual Connections)自 ResNet 诞生以来就被视为不可撼动的“标准答案”。

然而,Kimi 团队(Moonshot AI)近日发布的论文《Attention Residuals》挑战了这一传统:如果每一层的输出不再是简单的“无脑相加”,而是通过“注意力机制”有选择地融合,模型会发生什么进化?


  • • 论文标题Attention Residuals
  • • 团队:Kimi Team (Moonshot AI)
  • • 开源代码:https://github.com/MoonshotAI/Attention-Residuals


扫码添加小助手,发送关键词【C306】
免费领取《注意力残差网络2026 前沿论文合集》


1. 痛点:被“稀释”的深层信息

在目前的 Transformer 架构中,每一层的更新公式极其简单:

这意味着,第   层的输入实际上是前面所有层输出的等权重累加

这会带来什么问题?

  • • 信息稀释(Dilution):随着网络变深,隐藏层的数值(Magnitude)会线性增长。越往后的层,新产生的信息相对于已经积累的庞大“背景板”就显得越微不足道。
  • • 训练不稳定:为了让深层产生影响力,模型不得不输出极大的数值,这在 PreNorm 结构下会导致严重的数值波动。

2. 核心创新:让残差也拥有“注意力”

Kimi 团队提出,既然横向(序列维度)可以用 Attention 捕捉关联,纵向(深度维度)为什么不行?

2.1 Full AttnRes(完全注意力残差)

研究团队将传统的“加法”替换为带有学习权重的 Softmax 注意力聚合

  • • (a) Standard Residuals:展示了传统的层级累加,权重固定为 1。
  • • (b) Full Attention Residuals:展示了当前层如何通过一个可学习的“伪查询向量(Pseudo-query)”去动态“点菜”,决定吸收之前哪些层的信息。

2.2 Block AttnRes(块级注意力残差)——工程落地之魂

在千亿级参数模型中,层层之间全连接会带来巨大的内存和通信开销。为此,论文提出了 Block AttnRes

  • • 将模型划分为   个块(Blocks)。
  • • 块内:保持传统残差相加。
  • • 块间:使用 Attention 机制进行动态聚合。
  • • 展示了 Block 化的结构,这种设计将通信复杂度从   降低到了  ,使得大规模分布式训练成为可能。

3. 黑科技:几乎为零的额外开销

为了不让这种新架构拖慢训练和推理速度,Kimi 团队设计了两套硬核优化方案:

  1. 1. 训练端:缓存通信机制
    在流水线并行(Pipeline Parallelism)中,每一阶段不再重复发送冗余数据,而是只发送“增量”块并利用本地缓存。

生动展示了如何在虚拟阶段之间高效传输增量信息。

  1. 2. 推理端:两阶段 I/O 优化
    通过将计算分为“跨块聚合”和“块内顺序计算”,推理延迟的增加被控制在 2% 以内,几乎可以忽略不计。

4. 实验结果:全方位降维打击

Kimi 团队在 48B 参数(激活 3B)的模型上进行了验证,结果令人振奋:

突破 Scaling Laws(缩放定律)

实验显示,使用 Block AttnRes 训练的模型,其性能提升相当于传统模型多消耗了 25% 的算力(1.25x Compute Effeciency)

完美的数值稳定性

  • • 图5(b):传统模型的隐藏状态随深度疯狂膨胀(蓝线),而 AttnRes 模型(红线)的数值始终稳定在一个极小的健康区间内,呈现出优美的周期性。
  • • 图5(c):展示了更均匀的梯度分布,这意味着模型更易训练,不容易崩溃。

任务表现

在 MATH (数学)HumanEval (代码) 和 MMLU (通用知识) 等主流榜单上,AttnRes 架构均显著优于传统的残差架构。


总结

《Attention Residuals》告诉我们,大模型的结构依然有巨大的优化空间。通过将“死板”的加法改为“灵活”的选择,模型不仅变得更稳定,还获得了更强的表达能力。

一句话总结

如果说传统的残差连接是“把所有菜倒进锅里乱炖”,那么 Attention Residuals 就是“根据口味精准调配每一道食材”。

 




扫码添加小助手,发送关键词【C306】
免费领取《注意力残差网络2026 前沿论文合集》

【声明】内容源于网络
0
0
AI前沿速递
AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
内容 1909
粉丝 0
AI前沿速递 AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
总阅读4.5k
粉丝0
内容1.9k