热点关注丨Kimi新架构让马斯克叹服！17岁高中生作者一战成名- 大数跨境

首页

热点关注丨Kimi新架构让马斯克叹服！17岁高中生作者一战成名

中国人工智能学会

2026-03-18

转自量子位

17岁高中生陈广宇以共同一作身份，参与Kimi团队提出的新技术——Attention Residuals，将Ilya关于“时间轴与深度轴对偶性”的设想落地为实际模型架构。

Ilya曾指出：将按时间顺序处理信息的LSTM“旋转90度”，即把时间维度替换为网络深度维度，就可导出残差连接。Kimi团队进一步推演：既然LSTM对应残差，那么取代LSTM的注意力机制，也应在深度维度上实现“旋转”。

由此诞生的Attention Residuals，使模型在计算当前层时，能动态、有选择地回溯并聚合前面任意层的信息，而非简单等权累加。

该成果引发广泛关注：马斯克评价其“令人印象深刻”；AI领域专家Karpathy表示，这促使人们重新思考《Attention is All You Need》的核心范式。

在Kimi Linear 48B大模型（3B激活参数）上的实测显示：训练效率提升25%，推理延迟仅增加不到2%。

残差连接的“记忆负担”

传统PreNorm残差连接中，第N层输出 = 当前层计算结果 + 第N−1层输出，逐层线性累加。这种等权叠加导致早期层信息被稀释，形成“PreNorm dilution problem”；同时隐藏状态范数随深度无界增长，影响训练稳定性。

Kimi团队提出新思路：放弃无差别累加，让网络自主决定“回忆哪些层”。

用注意力实现“选择性回忆”

研究发现，网络深度维度与序列时间维度具有结构同构性。Transformer在时间维度用注意力选择性关注历史位置；同理，可在深度维度让当前层通过注意力机制，选择性聚合前序层输出。

Attention Residuals具体实现方式如下：

当前层生成可学习伪查询向量（learnable pseudo-query）作为query
所有前序层输出作为key和value
通过注意力机制加权聚合，实现动态权重分配

该机制使模型自动识别关键层贡献，抑制冗余信息。但全层注意力复杂度为O(L²)，难以扩展至百层以上模型。

Block AttnRes：分块压缩降复杂度

论文提出Block AttnRes方案：将连续多层打包为block，每block内压缩生成一个摘要向量，后续层仅需关注block级表征与当前层实时输出。

具体操作包括：

将L层网络划分为B个block（B通常设为8–16）
每个block末尾压缩内部各层输出为单一向量
后续层注意力作用于B个block摘要 + 当前block内实时层输出

复杂度由O(L²)降至O(L·B)。团队还配套优化了缓存式流水线通信、序列分片预填充、KV缓存粒度等工程细节。

Kimi Linear验证：训练效率提升25%

在Kimi Linear 48B（MoE架构，3B激活参数）上验证表明：同等算力预算下，Attention Residuals显著提升下游任务性能；达到相同效果所需训练计算量减少约20%，即效率提升1.25倍。

数学推理（MATH、GSM8K）、代码生成（HumanEval、MBPP）表现持平或略优，多语言理解一致性亦有改善。

Attention Residuals为即插即用型模块，无需改动模型其余结构，可直接替代标准残差连接。

团队将该工作定义为“时间-深度对偶性”（time-depth duality）的实践延伸：深度神经网络的“层”与RNN的“时间步”本质均为迭代式信息处理单元；Transformer以attention替代RNN的固定循环，那么在深度维度，也应以attention替代固定的残差连接。

17岁高中生入列共同一作

本论文共同一作包括17岁高中生陈广宇（Nathan）、RoPE（旋转位置编码）提出者苏剑林（苏神）、Kimi Linear第一作者张宇。

陈广宇一年前尚不了解大模型，从北京一场中学生黑客松起步，凭借“ThirdArm”机械辅助手项目结识奇绩创坛创始成员董科含，并在其指导下系统研读论文、追踪开源项目、借助Gemini辅助理解技术原理。

他在X平台分享技术思考后获原作者回应，进而引起一家硅谷AI初创公司CEO关注。该公司于2024年底成立，2025年初完成800万美元种子轮融资，资方涵盖OpenAI与Anthropic背景机构。陈广宇通过限时通宵实验测试后获录用，赴旧金山实习七周，主导涉及144张H100显卡的探索性项目，并参与招聘系统搭建、技术内容输出及融资策略讨论。

实习结束后，他于2024年11月加入月之暗面。吸引他的正是Kimi在Flash Linear Attention等高效注意力机制上的持续突破——而GitHub上的FLA项目，正是他深入大模型底层技术的起点。此后他逐步钻研Triton kernel、attention重写逻辑与加速原理，最终参与到最核心的架构创新工作中。

陈广宇的成长路径并非天赋开挂，而是被前沿技术激发兴趣，再以系统性学习与高强度实践将其转化为真实研发能力，最终进入大模型研发一线。

论文地址：
https://github.com/MoonshotAI/Attention-Residuals/

【免责声明】转载出于非商业性的教育和科研目的，只为学术新闻信息的传播，版权归原作者所有，如有侵权请立即与我们联系，我们将及时删除。

【声明】内容源于网络

中国人工智能学会

中国人工智能学会官方订阅号，为广大智能科技工作者提供前沿资讯，学术分享，科普信息的的多媒体平管

内容 8197

粉丝 0

中国人工智能学会中国人工智能学会官方订阅号，为广大智能科技工作者提供前沿资讯，学术分享，科普信息的的多媒体平管

总阅读64.5k

粉丝0

内容8.2k