一篇让马斯克都忍不住点赞的 AI 论文,竟然出自一位 17 岁高中生之手。
这位名叫陈广宇(Nathan Chen)的少年,以共同一作身份,和月之暗面(Moonshot AI)的 Kimi 团队一起,把 AI 教父 Ilya Sutskever 提出的大胆设想变成了现实。
马斯克在 X 上转发这篇论文时,只用了两个词:“Impressive work from Kimi”(Kimi 的令人印象深刻的工作)。
OpenAI 联合创始人 Karpathy 也被这篇论文触动,直言:我们对“Attention is All You Need”这篇 Transformer 开山之作的理解还是不够深刻。
这究竟是一项什么样的技术突破?一个 17 岁的高中生,是如何走到 AI 研究的最前沿的?
Ilya 的预言:把 LSTM“旋转 90 度”
故事要从 AI 教父 Ilya Sutskever 的一个预言说起。
Ilya 曾经提出过一个有趣的观察:如果把按时间先后顺序处理数据的 LSTM 网络“旋转 90 度”,也就是把时间轴换成模型深度轴,就变成了现在的残差网络(ResNet)。
这个“旋转”的概念听起来抽象,但背后的逻辑很清晰:
LSTM 在时间维度上,让当前时刻“记住”之前所有时刻的信息
残差网络在深度维度上,让当前层“记住”之前所有层的信息
两者本质上都是在做信息的累积和传递,只是维度不同。
Kimi 团队受此启发,提出了一个大胆的想法:既然时间上的 LSTM 能对应深度上的残差,那后来淘汰了 LSTM 的“注意力机制”,是不是也可以照做?
于是,Attention Residuals(注意力残差)技术诞生了——相当于把注意力机制也“旋转了 90 度”。
残差连接的“记忆负担”:为什么需要改革?
要理解这项创新的价值,先要明白传统残差连接存在什么问题。
传统做法:无差别累加
在现有的 Transformer 架构中,残差连接的工作原理是:
第 N 层的输出 = 第 N 层的计算结果 + 第 N-1 层的输出
这样一路累加下去,每一层都能“记住”前面所有层的信息。听起来很完美,对吧?
问题来了:在大模型主流的 PreNorm 范式下,所有层的贡献都是等权累加的。
这就像一个“记忆力太好的人”,把所有经历都以相同权重存进大脑。结果就是:
早期信息被逐步稀释,越往后越难检索
大量层可以被剪枝而损失微小
隐藏状态的范数会随着深度不断增长,导致训练不稳定
研究人员将这个现象称为“PreNorm 稀释问题”(PreNorm dilution problem)。
有 X 用户形象地比喻:这就像 CEO 开会时,底下一百个员工逐一报告,但最后做决定时,只能听第 49 层的转述,而无法直接回查第 2 层和第 20 层的原始信息。
Attention Residuals:让网络学会“选择性回忆”
月之暗面团队换了个思路:既然问题出在“无差别累加”,那就让网络自己决定该回忆什么。
核心创新:深度维度的注意力机制
团队观察到一个有趣的“时间-深度对偶性”(time-depth duality):
在 Transformer 处理序列时,用注意力机制让当前位置“选择性关注”之前的位置
那么在深度维度上,为什么不能让当前层“选择性关注”之前的层?
Attention Residuals 就是这么来的。
用了这套新方法后,模型在计算当前层时可以聪明地“回头看”,根据需要自由决定去提取前面哪一层的信息。重要的层多关注一点,不相关的层权重自然降低。
正如 X 用户 @0xhoward 所说:过去的模型框架是用“累积历史”做共识,现在是用“查询历史”做共识。
工程挑战:计算量爆炸怎么办?
但这带来一个新问题:计算量爆炸。
如果一个 100 层的网络,每一层都要对前面 99 层做完整的注意力计算,复杂度是 O(L²),根本跑不动。
论文中的解决方案是 Block AttnRes(分块注意力残差):
核心思想:把连续的若干层打包成一个 block,对 block 内部的输出做压缩,只保留一个“摘要向量”。
具体操作:
每隔 8-16 层形成一个 block
对每个 block 的输出进行压缩,生成一个代表性的 key-value 对
当前层只需要对这些“摘要”做注意力计算
这样一来,注意力的复杂度从 O(L²)降到了 O(L·B),在实践中 B 可以设得很小(论文用的是 8-16)。
此外,团队还做了多个工程优化:缓存式流水线通信、序列分片预填充、KV 缓存粒度优化等等。
实测数据:训练效率提升 25%
理论说得通,但真正让人信服的是大规模验证。
团队在自家的 Kimi Linear 架构上做了测试。这是一个采用线性注意力的大模型,总参数 48B,激活参数 3B(MoE 架构)。
核心数据
训练效率提升 25%:同等计算预算下,Attention Residuals 能获得更好的下游性能;反过来说,达到相同性能需要的训练计算量减少了约 20%,相当于获得了 1.25 倍的效率优势
推理延迟增加不到 2%:几乎可以忽略不计
任务性能持平或略优:数学推理(MATH、GSM8K)、代码生成(HumanEval、MBPP)均持平或略优,多语言理解的一致性也有所改善
更重要的是,Attention Residuals 是一个 drop-in replacement(即插即用的替代方案),不需要修改网络其他部分,直接替换残差连接即可。
MarkTechPost 报道称,这项技术让模型在扩展到更深层次时表现出更低的 scaling loss,Block AttnRes 的效果相当于使用了 1.25 倍的基线计算量。
为什么马斯克和 Karpathy 都被震撼了?
X 用户 @0xKingsKuan 的分析一针见血:
“残差连接躺了八年,终于有人敢动它了,而且动得这么优雅,效果还这么好?!”
残差连接几乎是 Transformer 能训到 100+层、甚至上千层的唯一救命稻草,大家都觉得已经最优了没法改。
结果 Kimi 用最熟悉的注意力机制,反过来治了一下残差本身的问题,等于把“Attention is All You Need”这句话又玩出了新高度。
Karpathy 的评论也很有深意:我们对 Transformer 开山之作的理解还不够深刻。这暗示着,即使是最经典的架构,仍然有巨大的优化空间。
有业内人士评论称,这是继 DeepSeek 的 mHC(混合头注意力)之后,又一个真正能进下一代开源/闭源大模型的架构创新。
17 岁高中生的逆袭之路
更震撼的是,这篇让业界大佬都为之一震的论文,共同一作之一是一名年仅 17 岁的高中生——陈广宇(Nathan Chen)。
另外两名共同一作,分别是:
苏剑林(苏神):Kimi 的关键人物之一、RoPE(旋转位置编码)的提出者
张宇:Kimi Linear 的第一作者
一名高中生能与两位大神共列一作,已经足够震撼。更传奇的是他的成长路径。
a16z 创始人 Marc Andreessen、Thinking Machines 的联创等硅谷大佬都关注了他的 X 账号。
从黑客松到硅谷:一年的疯狂成长
一年前,陈广宇才刚刚开始了解大模型,当时他连 Transformer 是什么都不知道。
2024 年 2 月,北京的一场中学生黑客松上,他展示了一个关于“人类第三只机械辅助手”的创新构想——ThirdArm。正是这个项目,让他结识了黑客松评委、奇绩创坛创始成员董科含,后者成为了他的创业导师。
董科含追问他:未来是否会深耕这项技术?这促使他开始重新审视自己的职业方向。
随后他入选了董科含发起的青年计划,开始接触 IOI(国际信息学奥林匹克)金牌得主及资深科研人员。
此前他曾尝试经营 Shopify 跨境电商店铺、运营短视频账号,但经过董科含的建议,他决定转向理解时代的底层技术。
从零到一:自学 AI 的疯狂节奏
在 DeepSeek 研究员袁境阳的指导下,他利用 Gemini 作为辅助工具,通过研读经典论文、追踪 GitHub 开源项目等方式逐步建立认知。
有一次他在推特上分享了对一篇博客的反思后,获得了作者的回复,这篇帖子也因此引起了一家硅谷 AI 初创公司 CEO 的关注。
该公司于 2024 年底成立,2025 年初完成了 800 万美元种子轮融资,资方背景涉及 OpenAI 与 Anthropic.
在通过一项限时通宵完成的实验测试后,他拿到了对方的录用通知。
硅谷实习:与 Vinod Khosla 面对面
2025 年暑假,他前往旧金山开启了为期七周的实习。
前两周,他负责定义并推进一个涉及 144 张 H100 显卡的探索性项目。在 CEO 直接指导下,他的工作延伸至运营层面,参与了招聘系统搭建、技术内容输出及融资策略讨论,并获得与早期投资者 Vinod Khosla 交流的机会。
在硅谷期间,他维持着高强度工作节奏,通过咖啡社交与英伟达工程师及初创创始人建立联系。这次经历让他将科研视为一种支撑创造的底层能力。
回国加入 Kimi:从兴趣到能力
实习结束后,陈广宇回到国内,并于 2025 年 11 月加入月之暗面。
把他吸引进去的,正是 Kimi 一直在做的 Flash Linear Attention 这一类高效 attention 工作。
实际上,正是 GitHub 上的 FLA 项目,吸引了他对机器学习的兴趣并被邀请加入 Kimi 团队。
也正是顺着这条线,他开始一路往更底层钻,从读论文、看实现,到研究 Triton kernel、理解 attention 为什么能被这样重写、这样加速。
到了月之暗面,这条路也算是绕了一圈又落回原点——他最初是被底层技术吸引,最后做的也正是最底层、最核心的那部分事。
不只是“天才少年”的故事
相比于讲一个“少年天才一路开挂”的故事,陈广宇的经历更像是另一种成长路径——
先被时代最前沿的技术击中,再一步步把兴趣磨成能力,把能力带到真正的大模型研发现场里。
这个故事给我们的启示是:
年龄不是障碍:17 岁也可以做出世界级的研究成果
兴趣是最好的老师:从不懂 Transformer 到共同一作,只用了一年
实践出真知:从黑客松到硅谷实习,再到加入顶尖团队,每一步都在真实场景中学习
导师很重要:董科含、袁境阳、苏剑林等人的指导至关重要
月之暗面:估值飙升至 180 亿美元
值得一提的是,就在 Attention Residuals 论文发布的同时,月之暗面正在进行新一轮融资。
据多家媒体报道,月之暗面正在洽谈以 180 亿美元估值融资 10 亿美元。这意味着,距离今年早些时候的 100 亿美元估值,仅仅几个月时间,估值就增长了 80%。
推动这一估值飙升的,正是 Kimi 聊天机器人的快速增长,以及背后的技术创新能力。阿里巴巴和腾讯都是其支持者。
Kimi K2.5 等新一代模型的推出,加上 Attention Residuals 这样的架构创新,让月之暗面在激烈的 AI 竞争中占据了独特的位置。
开源精神:代码已公开
更值得称赞的是,Attention Residuals 的代码已经在 GitHub 上开源。
目前已经有 Rust 实现(基于 burn 框架)、各种可视化解释图在 X 上刷屏,还有人说这是继 DeepSeek mHC 之后,又一个真正能进下一代开源/闭源大模型的架构创新。
Life in the Singularity 博客评论称:“大型语言模型的基础架构刚刚迎来了一次大规模的、期待已久的升级。”
Kimi 的幽默回应
面对马斯克的点赞,Kimi 官方账号也幽默回应:“你的火箭造得也不错!”
这个回应既展现了中国 AI 团队的自信,也体现了技术人之间的惺惺相惜。
写在最后:AI 时代的新可能
陈广宇的故事,以及 Attention Residuals 的技术突破,共同揭示了 AI 时代的一些新可能:
1. 技术创新没有年龄门槛
17 岁也可以站在 AI 研究的最前沿,关键是兴趣、努力和正确的方向。
2. 经典架构仍有巨大优化空间
即使是 Transformer 这样的经典架构,仍然有很多可以改进的地方。Attention Residuals 证明,换个角度看问题,就能发现新的突破口。
3. 开源精神推动行业进步
月之暗面选择开源 Attention Residuals 的代码,让全球开发者都能受益,这种精神值得称赞。
4. 中国 AI 正在从跟随到引领
从 DeepSeek 到 Kimi,中国 AI 团队正在做出越来越多的原创性贡献,不再只是跟随硅谷的脚步。
5. 理论与工程的完美结合
Attention Residuals 不只是理论上漂亮,更重要的是在工程上可行——训练效率提升 25%,推理延迟增加不到 2%,这才是真正有价值的创新。
正如 X 用户 @0xhoward 所说:这意味着我们可以训练更深、更稳定的模型。
当 AI 不再只是堆砌参数,而是开始在架构层面做出真正的创新时,我们才算真正进入了 AI 的下一个阶段。
而这个阶段的开启者之一,是一位 17 岁的高中生。
这个时代,真的不一样了。
地址:
https://github.com/MoonshotAI/Attention-Residuals/
英伟达重磅开源!Nemotron 3 Super:专为AI智能体打造的"超级大脑
颠覆认知!MIT发现AI模型的"隐藏宝藏":随机调参竟能媲美复杂训练
AI科研进入"全自动时代":630行代码让81个智能体自主协作,4天完成2333次实验
硅谷巨头抢夺AI社交赛道!Meta重金收购Moltbook,扎克伯格这次赌对了吗?
AI教父LeCun终于出手了!10亿美元砸下来,谢赛宁也被拉上车了!

