在深度学习的世界里,残差连接(Residual Connections)自 ResNet 诞生以来就被视为不可撼动的“标准答案”。
然而,Kimi 团队(Moonshot AI)近日发布的论文《Attention Residuals》挑战了这一传统:如果每一层的输出不再是简单的“无脑相加”,而是通过“注意力机制”有选择地融合,模型会发生什么进化?
• 论文标题:Attention Residuals • 团队:Kimi Team (Moonshot AI) • 开源代码:https://github.com/MoonshotAI/Attention-Residuals
1. 痛点:被“稀释”的深层信息
在目前的 Transformer 架构中,每一层的更新公式极其简单:
这意味着,第 层的输入实际上是前面所有层输出的等权重累加。
这会带来什么问题?
-
• 信息稀释(Dilution):随着网络变深,隐藏层的数值(Magnitude)会线性增长。越往后的层,新产生的信息相对于已经积累的庞大“背景板”就显得越微不足道。 -
• 训练不稳定:为了让深层产生影响力,模型不得不输出极大的数值,这在 PreNorm 结构下会导致严重的数值波动。
2. 核心创新:让残差也拥有“注意力”
Kimi 团队提出,既然横向(序列维度)可以用 Attention 捕捉关联,纵向(深度维度)为什么不行?
2.1 Full AttnRes(完全注意力残差)
研究团队将传统的“加法”替换为带有学习权重的 Softmax 注意力聚合:
• (a) Standard Residuals:展示了传统的层级累加,权重固定为 1。 • (b) Full Attention Residuals:展示了当前层如何通过一个可学习的“伪查询向量(Pseudo-query)”去动态“点菜”,决定吸收之前哪些层的信息。
2.2 Block AttnRes(块级注意力残差)——工程落地之魂
在千亿级参数模型中,层层之间全连接会带来巨大的内存和通信开销。为此,论文提出了 Block AttnRes:
-
• 将模型划分为 个块(Blocks)。 -
• 块内:保持传统残差相加。 -
• 块间:使用 Attention 机制进行动态聚合。
• 展示了 Block 化的结构,这种设计将通信复杂度从 降低到了 ,使得大规模分布式训练成为可能。
3. 黑科技:几乎为零的额外开销
为了不让这种新架构拖慢训练和推理速度,Kimi 团队设计了两套硬核优化方案:
-
1. 训练端:缓存通信机制
在流水线并行(Pipeline Parallelism)中,每一阶段不再重复发送冗余数据,而是只发送“增量”块并利用本地缓存。
生动展示了如何在虚拟阶段之间高效传输增量信息。
-
2. 推理端:两阶段 I/O 优化
通过将计算分为“跨块聚合”和“块内顺序计算”,推理延迟的增加被控制在 2% 以内,几乎可以忽略不计。
4. 实验结果:全方位降维打击
Kimi 团队在 48B 参数(激活 3B)的模型上进行了验证,结果令人振奋:
突破 Scaling Laws(缩放定律)
实验显示,使用 Block AttnRes 训练的模型,其性能提升相当于传统模型多消耗了 25% 的算力(1.25x Compute Effeciency)。
完美的数值稳定性
• 图5(b):传统模型的隐藏状态随深度疯狂膨胀(蓝线),而 AttnRes 模型(红线)的数值始终稳定在一个极小的健康区间内,呈现出优美的周期性。 • 图5(c):展示了更均匀的梯度分布,这意味着模型更易训练,不容易崩溃。
任务表现
在 MATH (数学)、HumanEval (代码) 和 MMLU (通用知识) 等主流榜单上,AttnRes 架构均显著优于传统的残差架构。
总结
《Attention Residuals》告诉我们,大模型的结构依然有巨大的优化空间。通过将“死板”的加法改为“灵活”的选择,模型不仅变得更稳定,还获得了更强的表达能力。
一句话总结:
如果说传统的残差连接是“把所有菜倒进锅里乱炖”,那么 Attention Residuals 就是“根据口味精准调配每一道食材”。

