17岁高中生震撼AI圈！马斯克点赞的Kimi新架构，把Transformer"旋转90度"- 大数跨境

首页

17岁高中生震撼AI圈！马斯克点赞的Kimi新架构，把Transformer"旋转90度"

AIGC 深一度

2026-03-18

导读：一篇让马斯克都忍不住点赞的 AI 论文，竟然出自一位 17 岁高中生之手。

一篇让马斯克都忍不住点赞的 AI 论文，竟然出自一位 17 岁高中生之手。

这位名叫陈广宇（Nathan Chen）的少年，以共同一作身份，和月之暗面（Moonshot AI）的 Kimi 团队一起，把 AI 教父 Ilya Sutskever 提出的大胆设想变成了现实。

马斯克在 X 上转发这篇论文时，只用了两个词：“Impressive work from Kimi”（Kimi 的令人印象深刻的工作）。

OpenAI 联合创始人 Karpathy 也被这篇论文触动，直言：我们对“Attention is All You Need”这篇 Transformer 开山之作的理解还是不够深刻。

这究竟是一项什么样的技术突破？一个 17 岁的高中生，是如何走到 AI 研究的最前沿的？

Ilya 的预言：把 LSTM“旋转 90 度”

故事要从 AI 教父 Ilya Sutskever 的一个预言说起。

Ilya 曾经提出过一个有趣的观察：如果把按时间先后顺序处理数据的 LSTM 网络“旋转 90 度”，也就是把时间轴换成模型深度轴，就变成了现在的残差网络（ResNet）。

这个“旋转”的概念听起来抽象，但背后的逻辑很清晰：

LSTM 在时间维度上，让当前时刻“记住”之前所有时刻的信息
残差网络在深度维度上，让当前层“记住”之前所有层的信息

两者本质上都是在做信息的累积和传递，只是维度不同。

Kimi 团队受此启发，提出了一个大胆的想法：既然时间上的 LSTM 能对应深度上的残差，那后来淘汰了 LSTM 的“注意力机制”，是不是也可以照做？

于是，Attention Residuals（注意力残差）技术诞生了——相当于把注意力机制也“旋转了 90 度”。

残差连接的“记忆负担”：为什么需要改革？

要理解这项创新的价值，先要明白传统残差连接存在什么问题。

传统做法：无差别累加

在现有的 Transformer 架构中，残差连接的工作原理是：

第 N 层的输出 = 第 N 层的计算结果 + 第 N-1 层的输出

这样一路累加下去，每一层都能“记住”前面所有层的信息。听起来很完美，对吧？

问题来了：在大模型主流的 PreNorm 范式下，所有层的贡献都是等权累加的。

这就像一个“记忆力太好的人”，把所有经历都以相同权重存进大脑。结果就是：

早期信息被逐步稀释，越往后越难检索
大量层可以被剪枝而损失微小
隐藏状态的范数会随着深度不断增长，导致训练不稳定

研究人员将这个现象称为“PreNorm 稀释问题”（PreNorm dilution problem）。

有 X 用户形象地比喻：这就像 CEO 开会时，底下一百个员工逐一报告，但最后做决定时，只能听第 49 层的转述，而无法直接回查第 2 层和第 20 层的原始信息。

Attention Residuals：让网络学会“选择性回忆”

月之暗面团队换了个思路：既然问题出在“无差别累加”，那就让网络自己决定该回忆什么。

核心创新：深度维度的注意力机制

团队观察到一个有趣的“时间-深度对偶性”（time-depth duality）：

在 Transformer 处理序列时，用注意力机制让当前位置“选择性关注”之前的位置
那么在深度维度上，为什么不能让当前层“选择性关注”之前的层？

Attention Residuals 就是这么来的。

用了这套新方法后，模型在计算当前层时可以聪明地“回头看”，根据需要自由决定去提取前面哪一层的信息。重要的层多关注一点，不相关的层权重自然降低。

正如 X 用户 @0xhoward 所说：过去的模型框架是用“累积历史”做共识，现在是用“查询历史”做共识。

工程挑战：计算量爆炸怎么办？

但这带来一个新问题：计算量爆炸。

如果一个 100 层的网络，每一层都要对前面 99 层做完整的注意力计算，复杂度是 O(L²)，根本跑不动。

论文中的解决方案是 Block AttnRes（分块注意力残差）：

核心思想：把连续的若干层打包成一个 block，对 block 内部的输出做压缩，只保留一个“摘要向量”。

具体操作：

每隔 8-16 层形成一个 block
对每个 block 的输出进行压缩，生成一个代表性的 key-value 对
当前层只需要对这些“摘要”做注意力计算

这样一来，注意力的复杂度从 O(L²）降到了 O(L·B)，在实践中 B 可以设得很小（论文用的是 8-16）。

此外，团队还做了多个工程优化：缓存式流水线通信、序列分片预填充、KV 缓存粒度优化等等。

实测数据：训练效率提升 25%

理论说得通，但真正让人信服的是大规模验证。

团队在自家的 Kimi Linear 架构上做了测试。这是一个采用线性注意力的大模型，总参数 48B，激活参数 3B（MoE 架构）。

核心数据

训练效率提升 25%：同等计算预算下，Attention Residuals 能获得更好的下游性能；反过来说，达到相同性能需要的训练计算量减少了约 20%，相当于获得了 1.25 倍的效率优势
推理延迟增加不到 2%：几乎可以忽略不计
任务性能持平或略优：数学推理（MATH、GSM8K）、代码生成（HumanEval、MBPP）均持平或略优，多语言理解的一致性也有所改善

更重要的是，Attention Residuals 是一个 drop-in replacement（即插即用的替代方案），不需要修改网络其他部分，直接替换残差连接即可。

MarkTechPost 报道称，这项技术让模型在扩展到更深层次时表现出更低的 scaling loss，Block AttnRes 的效果相当于使用了 1.25 倍的基线计算量。

为什么马斯克和 Karpathy 都被震撼了？

X 用户 @0xKingsKuan 的分析一针见血：

“残差连接躺了八年，终于有人敢动它了，而且动得这么优雅，效果还这么好？！”

残差连接几乎是 Transformer 能训到 100+层、甚至上千层的唯一救命稻草，大家都觉得已经最优了没法改。

结果 Kimi 用最熟悉的注意力机制，反过来治了一下残差本身的问题，等于把“Attention is All You Need”这句话又玩出了新高度。

Karpathy 的评论也很有深意：我们对 Transformer 开山之作的理解还不够深刻。这暗示着，即使是最经典的架构，仍然有巨大的优化空间。

有业内人士评论称，这是继 DeepSeek 的 mHC（混合头注意力）之后，又一个真正能进下一代开源/闭源大模型的架构创新。

17 岁高中生的逆袭之路

更震撼的是，这篇让业界大佬都为之一震的论文，共同一作之一是一名年仅 17 岁的高中生——陈广宇（Nathan Chen）。

另外两名共同一作，分别是：

苏剑林（苏神）：Kimi 的关键人物之一、RoPE（旋转位置编码）的提出者
张宇：Kimi Linear 的第一作者

一名高中生能与两位大神共列一作，已经足够震撼。更传奇的是他的成长路径。

a16z 创始人 Marc Andreessen、Thinking Machines 的联创等硅谷大佬都关注了他的 X 账号。

从黑客松到硅谷：一年的疯狂成长

一年前，陈广宇才刚刚开始了解大模型，当时他连 Transformer 是什么都不知道。

2024 年 2 月，北京的一场中学生黑客松上，他展示了一个关于“人类第三只机械辅助手”的创新构想——ThirdArm。正是这个项目，让他结识了黑客松评委、奇绩创坛创始成员董科含，后者成为了他的创业导师。

董科含追问他：未来是否会深耕这项技术？这促使他开始重新审视自己的职业方向。

随后他入选了董科含发起的青年计划，开始接触 IOI（国际信息学奥林匹克）金牌得主及资深科研人员。

此前他曾尝试经营 Shopify 跨境电商店铺、运营短视频账号，但经过董科含的建议，他决定转向理解时代的底层技术。

从零到一：自学 AI 的疯狂节奏

在 DeepSeek 研究员袁境阳的指导下，他利用 Gemini 作为辅助工具，通过研读经典论文、追踪 GitHub 开源项目等方式逐步建立认知。

有一次他在推特上分享了对一篇博客的反思后，获得了作者的回复，这篇帖子也因此引起了一家硅谷 AI 初创公司 CEO 的关注。

该公司于 2024 年底成立，2025 年初完成了 800 万美元种子轮融资，资方背景涉及 OpenAI 与 Anthropic.

在通过一项限时通宵完成的实验测试后，他拿到了对方的录用通知。

硅谷实习：与 Vinod Khosla 面对面

2025 年暑假，他前往旧金山开启了为期七周的实习。

前两周，他负责定义并推进一个涉及 144 张 H100 显卡的探索性项目。在 CEO 直接指导下，他的工作延伸至运营层面，参与了招聘系统搭建、技术内容输出及融资策略讨论，并获得与早期投资者 Vinod Khosla 交流的机会。

在硅谷期间，他维持着高强度工作节奏，通过咖啡社交与英伟达工程师及初创创始人建立联系。这次经历让他将科研视为一种支撑创造的底层能力。

回国加入 Kimi：从兴趣到能力

实习结束后，陈广宇回到国内，并于 2025 年 11 月加入月之暗面。

把他吸引进去的，正是 Kimi 一直在做的 Flash Linear Attention 这一类高效 attention 工作。

实际上，正是 GitHub 上的 FLA 项目，吸引了他对机器学习的兴趣并被邀请加入 Kimi 团队。

也正是顺着这条线，他开始一路往更底层钻，从读论文、看实现，到研究 Triton kernel、理解 attention 为什么能被这样重写、这样加速。

到了月之暗面，这条路也算是绕了一圈又落回原点——他最初是被底层技术吸引，最后做的也正是最底层、最核心的那部分事。

不只是“天才少年”的故事

相比于讲一个“少年天才一路开挂”的故事，陈广宇的经历更像是另一种成长路径——

先被时代最前沿的技术击中，再一步步把兴趣磨成能力，把能力带到真正的大模型研发现场里。

这个故事给我们的启示是：

年龄不是障碍：17 岁也可以做出世界级的研究成果
兴趣是最好的老师：从不懂 Transformer 到共同一作，只用了一年
实践出真知：从黑客松到硅谷实习，再到加入顶尖团队，每一步都在真实场景中学习
导师很重要：董科含、袁境阳、苏剑林等人的指导至关重要

月之暗面：估值飙升至 180 亿美元

值得一提的是，就在 Attention Residuals 论文发布的同时，月之暗面正在进行新一轮融资。

据多家媒体报道，月之暗面正在洽谈以 180 亿美元估值融资 10 亿美元。这意味着，距离今年早些时候的 100 亿美元估值，仅仅几个月时间，估值就增长了 80%。

推动这一估值飙升的，正是 Kimi 聊天机器人的快速增长，以及背后的技术创新能力。阿里巴巴和腾讯都是其支持者。

Kimi K2.5 等新一代模型的推出，加上 Attention Residuals 这样的架构创新，让月之暗面在激烈的 AI 竞争中占据了独特的位置。

开源精神：代码已公开

更值得称赞的是，Attention Residuals 的代码已经在 GitHub 上开源。

目前已经有 Rust 实现（基于 burn 框架）、各种可视化解释图在 X 上刷屏，还有人说这是继 DeepSeek mHC 之后，又一个真正能进下一代开源/闭源大模型的架构创新。

Life in the Singularity 博客评论称：“大型语言模型的基础架构刚刚迎来了一次大规模的、期待已久的升级。”

Kimi 的幽默回应

面对马斯克的点赞，Kimi 官方账号也幽默回应：“你的火箭造得也不错！”

这个回应既展现了中国 AI 团队的自信，也体现了技术人之间的惺惺相惜。

写在最后：AI 时代的新可能

陈广宇的故事，以及 Attention Residuals 的技术突破，共同揭示了 AI 时代的一些新可能：

1. 技术创新没有年龄门槛
17 岁也可以站在 AI 研究的最前沿，关键是兴趣、努力和正确的方向。

2. 经典架构仍有巨大优化空间
即使是 Transformer 这样的经典架构，仍然有很多可以改进的地方。Attention Residuals 证明，换个角度看问题，就能发现新的突破口。

3. 开源精神推动行业进步
月之暗面选择开源 Attention Residuals 的代码，让全球开发者都能受益，这种精神值得称赞。

4. 中国 AI 正在从跟随到引领
从 DeepSeek 到 Kimi，中国 AI 团队正在做出越来越多的原创性贡献，不再只是跟随硅谷的脚步。

5. 理论与工程的完美结合
Attention Residuals 不只是理论上漂亮，更重要的是在工程上可行——训练效率提升 25%，推理延迟增加不到 2%，这才是真正有价值的创新。

正如 X 用户 @0xhoward 所说：这意味着我们可以训练更深、更稳定的模型。

当 AI 不再只是堆砌参数，而是开始在架构层面做出真正的创新时，我们才算真正进入了 AI 的下一个阶段。

而这个阶段的开启者之一，是一位 17 岁的高中生。

这个时代，真的不一样了。

地址：
https://github.com/MoonshotAI/Attention-Residuals/

英伟达重磅开源！Nemotron 3 Super：专为AI智能体打造的"超级大脑

颠覆认知！MIT发现AI模型的"隐藏宝藏"：随机调参竟能媲美复杂训练

AI科研进入"全自动时代"：630行代码让81个智能体自主协作,4天完成2333次实验

硅谷巨头抢夺AI社交赛道！Meta重金收购Moltbook，扎克伯格这次赌对了吗？

AI教父LeCun终于出手了！10亿美元砸下来，谢赛宁也被拉上车了！

【声明】内容源于网络

AIGC 深一度

专注AIGC领域，关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC，欢迎关注个人网站 https://www.chenbaiqi.com

内容 551

粉丝 0

AIGC 深一度专注AIGC领域，关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC，欢迎关注个人网站 https://www.chenbaiqi.com

总阅读2.2k

粉丝0

内容551