17岁高中生陈广宇以共同一作身份,参与Kimi团队提出的新技术——Attention Residuals,将Ilya关于“时间轴与深度轴对偶性”的设想落地为实际模型架构。
Ilya曾指出:将按时间顺序处理信息的LSTM“旋转90度”,即把时间维度替换为网络深度维度,就可导出残差连接。Kimi团队进一步推演:既然LSTM对应残差,那么取代LSTM的注意力机制,也应在深度维度上实现“旋转”。
由此诞生的Attention Residuals,使模型在计算当前层时,能动态、有选择地回溯并聚合前面任意层的信息,而非简单等权累加。
该成果引发广泛关注:马斯克评价其“令人印象深刻”;AI领域专家Karpathy表示,这促使人们重新思考《Attention is All You Need》的核心范式。
在Kimi Linear 48B大模型(3B激活参数)上的实测显示:训练效率提升25%,推理延迟仅增加不到2%。
残差连接的“记忆负担”
传统PreNorm残差连接中,第N层输出 = 当前层计算结果 + 第N−1层输出,逐层线性累加。这种等权叠加导致早期层信息被稀释,形成“PreNorm dilution problem”;同时隐藏状态范数随深度无界增长,影响训练稳定性。
Kimi团队提出新思路:放弃无差别累加,让网络自主决定“回忆哪些层”。
用注意力实现“选择性回忆”
研究发现,网络深度维度与序列时间维度具有结构同构性。Transformer在时间维度用注意力选择性关注历史位置;同理,可在深度维度让当前层通过注意力机制,选择性聚合前序层输出。
Attention Residuals具体实现方式如下:
- 当前层生成可学习伪查询向量(learnable pseudo-query)作为query
- 所有前序层输出作为key和value
- 通过注意力机制加权聚合,实现动态权重分配
该机制使模型自动识别关键层贡献,抑制冗余信息。但全层注意力复杂度为O(L²),难以扩展至百层以上模型。
Block AttnRes:分块压缩降复杂度
论文提出Block AttnRes方案:将连续多层打包为block,每block内压缩生成一个摘要向量,后续层仅需关注block级表征与当前层实时输出。
具体操作包括:
- 将L层网络划分为B个block(B通常设为8–16)
- 每个block末尾压缩内部各层输出为单一向量
- 后续层注意力作用于B个block摘要 + 当前block内实时层输出
复杂度由O(L²)降至O(L·B)。团队还配套优化了缓存式流水线通信、序列分片预填充、KV缓存粒度等工程细节。
Kimi Linear验证:训练效率提升25%
在Kimi Linear 48B(MoE架构,3B激活参数)上验证表明:同等算力预算下,Attention Residuals显著提升下游任务性能;达到相同效果所需训练计算量减少约20%,即效率提升1.25倍。
数学推理(MATH、GSM8K)、代码生成(HumanEval、MBPP)表现持平或略优,多语言理解一致性亦有改善。
Attention Residuals为即插即用型模块,无需改动模型其余结构,可直接替代标准残差连接。
团队将该工作定义为“时间-深度对偶性”(time-depth duality)的实践延伸:深度神经网络的“层”与RNN的“时间步”本质均为迭代式信息处理单元;Transformer以attention替代RNN的固定循环,那么在深度维度,也应以attention替代固定的残差连接。
17岁高中生入列共同一作
本论文共同一作包括17岁高中生陈广宇(Nathan)、RoPE(旋转位置编码)提出者苏剑林(苏神)、Kimi Linear第一作者张宇。
陈广宇一年前尚不了解大模型,从北京一场中学生黑客松起步,凭借“ThirdArm”机械辅助手项目结识奇绩创坛创始成员董科含,并在其指导下系统研读论文、追踪开源项目、借助Gemini辅助理解技术原理。
他在X平台分享技术思考后获原作者回应,进而引起一家硅谷AI初创公司CEO关注。该公司于2024年底成立,2025年初完成800万美元种子轮融资,资方涵盖OpenAI与Anthropic背景机构。陈广宇通过限时通宵实验测试后获录用,赴旧金山实习七周,主导涉及144张H100显卡的探索性项目,并参与招聘系统搭建、技术内容输出及融资策略讨论。
实习结束后,他于2024年11月加入月之暗面。吸引他的正是Kimi在Flash Linear Attention等高效注意力机制上的持续突破——而GitHub上的FLA项目,正是他深入大模型底层技术的起点。此后他逐步钻研Triton kernel、attention重写逻辑与加速原理,最终参与到最核心的架构创新工作中。
陈广宇的成长路径并非天赋开挂,而是被前沿技术激发兴趣,再以系统性学习与高强度实践将其转化为真实研发能力,最终进入大模型研发一线。
论文地址:
https://github.com/MoonshotAI/Attention-Residuals/
【免责声明】转载出于非商业性的教育和科研目的,只为学术新闻信息的传播,版权归原作者所有,如有侵权请立即与我们联系,我们将及时删除。

