Kimi团队新作：大模型告别“死板相加”，Attention Residuals如何重新定义残差连接？- 大数跨境

首页

Kimi团队新作：大模型告别“死板相加”，Attention Residuals如何重新定义残差连接？

AI前沿速递

2026-03-23

导读：Kimi团队新作：大模型告别“死板相加”，Attention Residuals如何重新定义残差连接？

在深度学习的世界里，残差连接（Residual Connections）自 ResNet 诞生以来就被视为不可撼动的“标准答案”。

然而，Kimi 团队（Moonshot AI）近日发布的论文《Attention Residuals》挑战了这一传统：如果每一层的输出不再是简单的“无脑相加”，而是通过“注意力机制”有选择地融合，模型会发生什么进化？

• 论文标题：Attention Residuals

• 团队：Kimi Team (Moonshot AI)

• 开源代码：https://github.com/MoonshotAI/Attention-Residuals

扫码添加小助手，发送关键词【C306】

免费领取《注意力残差网络2026 前沿论文合集》

1. 痛点：被“稀释”的深层信息

在目前的 Transformer 架构中，每一层的更新公式极其简单：

这意味着，第层的输入实际上是前面所有层输出的等权重累加。

这会带来什么问题？

• 信息稀释（Dilution）：随着网络变深，隐藏层的数值（Magnitude）会线性增长。越往后的层，新产生的信息相对于已经积累的庞大“背景板”就显得越微不足道。
• 训练不稳定：为了让深层产生影响力，模型不得不输出极大的数值，这在 PreNorm 结构下会导致严重的数值波动。

2. 核心创新：让残差也拥有“注意力”

Kimi 团队提出，既然横向（序列维度）可以用 Attention 捕捉关联，纵向（深度维度）为什么不行？

2.1 Full AttnRes（完全注意力残差）

研究团队将传统的“加法”替换为带有学习权重的 Softmax 注意力聚合：

• (a) Standard Residuals：展示了传统的层级累加，权重固定为 1。

• (b) Full Attention Residuals：展示了当前层如何通过一个可学习的“伪查询向量（Pseudo-query）”去动态“点菜”，决定吸收之前哪些层的信息。

2.2 Block AttnRes（块级注意力残差）——工程落地之魂

在千亿级参数模型中，层层之间全连接会带来巨大的内存和通信开销。为此，论文提出了 Block AttnRes：

• 将模型划分为个块（Blocks）。
• 块内：保持传统残差相加。
• 块间：使用 Attention 机制进行动态聚合。

• 展示了 Block 化的结构，这种设计将通信复杂度从降低到了，使得大规模分布式训练成为可能。

3. 黑科技：几乎为零的额外开销

为了不让这种新架构拖慢训练和推理速度，Kimi 团队设计了两套硬核优化方案：

1. 训练端：缓存通信机制
在流水线并行（Pipeline Parallelism）中，每一阶段不再重复发送冗余数据，而是只发送“增量”块并利用本地缓存。

生动展示了如何在虚拟阶段之间高效传输增量信息。

2. 推理端：两阶段 I/O 优化
通过将计算分为“跨块聚合”和“块内顺序计算”，推理延迟的增加被控制在 2% 以内，几乎可以忽略不计。

4. 实验结果：全方位降维打击

Kimi 团队在 48B 参数（激活 3B）的模型上进行了验证，结果令人振奋：

突破 Scaling Laws（缩放定律）

实验显示，使用 Block AttnRes 训练的模型，其性能提升相当于传统模型多消耗了 25% 的算力（1.25x Compute Effeciency）。

完美的数值稳定性

• 图5(b)：传统模型的隐藏状态随深度疯狂膨胀（蓝线），而 AttnRes 模型（红线）的数值始终稳定在一个极小的健康区间内，呈现出优美的周期性。

• 图5(c)：展示了更均匀的梯度分布，这意味着模型更易训练，不容易崩溃。

任务表现

在 MATH (数学)、HumanEval (代码) 和 MMLU (通用知识) 等主流榜单上，AttnRes 架构均显著优于传统的残差架构。

总结

《Attention Residuals》告诉我们，大模型的结构依然有巨大的优化空间。通过将“死板”的加法改为“灵活”的选择，模型不仅变得更稳定，还获得了更强的表达能力。

一句话总结：

如果说传统的残差连接是“把所有菜倒进锅里乱炖”，那么 Attention Residuals 就是“根据口味精准调配每一道食材”。

扫码添加小助手，发送关键词【C306】

免费领取《注意力残差网络2026 前沿论文合集》

【声明】内容源于网络

AI前沿速递

AI前沿速递聚焦人工智能最新科研成果与技术动态，专注前沿论文解读、行业资讯分享与高校招生信息推送，助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容，让全球优秀研究被更多人看见。关注我们，探索AI无限可能！

内容 1909

粉丝 0

AI前沿速递 AI前沿速递聚焦人工智能最新科研成果与技术动态，专注前沿论文解读、行业资讯分享与高校招生信息推送，助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容，让全球优秀研究被更多人看见。关注我们，探索AI无限可能！

总阅读4.5k

粉丝0

内容1.9k