作者 | 封华
编辑 | 魏晓
来自中国的Kimi,再度引发硅谷AI圈高度关注。
3月16日,月之暗面发布技术报告《Attention Residuals》(注意力残差),对深度学习中沿用十年的残差连接结构进行根本性重构。
报告发布后连续三天登上Twitter全球热搜榜,主贴阅读量超460万,影响力堪比重大模型版本更新。
OpenAI前研究副总裁Jerry Tworek评价:“深度学习2.0要来了。”
埃隆·马斯克发文称:“Kimi的研究令人印象深刻(Impressive work from Kimi)”。Kimi回应:“你的火箭造得也不错!”
此次技术突破与国际认可,标志着中外AI在前沿基础研究层面达成深度共鸣。
马斯克素以直言著称,曾多次公开批评行业同行。其罕见点赞,源于对技术实质突破的认可。
Kimi提出的注意力残差方案,直指大模型架构核心瓶颈,有望显著改写训练效率与成本曲线。
与此同时,月之暗面创始人杨植麟成为英伟达GTC 2026大会唯一受邀发表主题演讲的中国大模型公司创始人。
在题为《How We Scaled Kimi K2.5》的演讲中,杨植麟未聚焦用户数或商业数据,而是提出关键命题:当“规模化”(Scaling)已成为行业共识,我们究竟该Scale什么?
当前Kimi估值已达1200亿元。本次技术突破与GTC深度分享,印证其对智能上限的长期执着追求。
新技术改变了什么?
Kimi此次突破并非参数调优,而是底层架构级革新。
自2015年何恺明团队提出ResNet以来,“残差连接”作为训练百层以上模型的基石,十年未被撼动。其核心逻辑是:每一层输出 = 当前层计算结果 + 前序输入的累加。
该机制保障了信息跨层传递,但也存在固有缺陷:在主流PreNorm范式下,各层贡献被等权叠加,缺乏对信息重要性的动态判别能力。随着层数增加,早期层信息被稀释;后层需输出更大模长激活值才能施加影响,加剧训练不稳定性。
类比用户提示词——冗长堆砌反而降低AI理解效率。同样,无差别信息叠加导致计算低效与资源浪费。
Kimi团队提出新范式:引入动态、输入依赖的注意力机制,使网络每层可自主选择性聚合前序各层输出,而非机械求和。
实验显示,采用该方案的48B模型训练效率提升1.25倍。
引入注意力后,模型不再“全盘接收”,而具备结构性判断能力,能精准捕捉关键信息。
结果直接体现为训练效率与成本曲线的优化。
这一对惯性技术的反思与重构,瞄准的是最基础却最承重的“地基”。它有望成为未来大模型架构的标配组件,并推动全球AI团队跟进探索新路径。
杨植麟在GTC 2026的演讲,首次向硅谷核心技术圈系统呈现Kimi的技术实力与原创思考框架。
对“祖传技术”动刀:重构前沿范式
北京时间3月18日凌晨,杨植麟在GTC 2026现场发布Kimi K2.5技术路线图。他指出,唯有在Token效率、长上下文处理、智能体集群三大维度实现协同规模化,方能突破当前智能水平。
在此三维战略下,Kimi正系统性重构三大底层技术基石:
其一:优化器革命——从Adam到MuonClip
针对超大规模训练中Adam优化器的Token效率瓶颈,Kimi验证Muon潜力后,创新提出MuonClip方案:融合Newton-Schulz迭代与QK-Clip机制,解决“Logits爆炸”问题,实现2倍于AdamW的计算效率。
其二:Kimi Linear——挑战全注意力范式
基于KDA架构的Kimi Linear是一种混合线性注意力方案。它摒弃“所有层必须用全注意力”的惯例,通过优化递归存储管理,在128K至1M超长上下文中,解码速度提升5–6倍。
其本质是对注意力机制的再思考:“按需分配”才是真实场景下的务实路径。
其三:注意力残差——取代固定加法累加
在《Attention Residuals》基础上,Kimi将传统固定加法残差升级为Softmax注意力聚合,使每层可动态加权选取前序层最有价值的信息,避免信息淹没于求和“噪声”。
此外,Kimi K2.5引入Orchestrator机制,支持将复杂长任务自动拆解为数十子Agent并行执行,实现群体智能的自协调运作。
上述三项技术非零散叠加,而是覆盖底层优化器、注意力机制、残差结构的完整闭环,直击行业沿用近十年的核心技术标准瓶颈。
跳出“中国版ChatGPT”框架
Kimi K2.5已成为全球用户量最大的AI编程平台Cursor唯一接入的开源中国模型,也是全球最大独立AI搜索服务商Perplexity唯一接入的中国模型,正与OpenAI、Anthropic、Google等顶尖闭源模型同台竞技。
商业化同步跃迁:K2.5发布后20天收入即超2025年全年;海外收入占比已超国内;API开放平台日均访问量增长10–20倍。
Kimi Claw于2026年1月上线后,个人订阅订单环比激增8280%,2月续涨123.8%。
资本层面,近三个月估值增长4倍,融资超10亿美元,超过多数大模型公司IPO募资额。
更关键的是身份跃升——Kimi已超越“中国版ChatGPT”的定位,深度参与全球AI底层技术创新。
杨植麟指出:十年前受限算力,研究多侧重新想法发表;如今依托充足资源与“缩放阶梯(Scaling Ladder)”,可开展严谨规模化验证,得出更可靠结论。
Kimi的目标明确:不做更好的模型,而做定义下一代架构的引领者——审视十年“旧技术”,严谨验证,大胆重构,锚定突破智能上限的关键支点。

