马斯克也来站台，中国团队对AI底层架构动手术- 大数跨境

首页

马斯克也来站台，中国团队对AI底层架构动手术

AI蓝媒汇

2026-03-18

导读：2026年的Kimi，有点儿2025年 DeepSeek的感觉了

作者 | 封华
编辑 | 魏晓

来自中国的Kimi，再度引发硅谷AI圈高度关注。

3月16日，月之暗面发布技术报告《Attention Residuals》（注意力残差），对深度学习中沿用十年的残差连接结构进行根本性重构。

报告发布后连续三天登上Twitter全球热搜榜，主贴阅读量超460万，影响力堪比重大模型版本更新。

OpenAI前研究副总裁Jerry Tworek评价：“深度学习2.0要来了。”

埃隆·马斯克发文称：“Kimi的研究令人印象深刻（Impressive work from Kimi）”。Kimi回应：“你的火箭造得也不错！”

此次技术突破与国际认可，标志着中外AI在前沿基础研究层面达成深度共鸣。

马斯克素以直言著称，曾多次公开批评行业同行。其罕见点赞，源于对技术实质突破的认可。

Kimi提出的注意力残差方案，直指大模型架构核心瓶颈，有望显著改写训练效率与成本曲线。

与此同时，月之暗面创始人杨植麟成为英伟达GTC 2026大会唯一受邀发表主题演讲的中国大模型公司创始人。

在题为《How We Scaled Kimi K2.5》的演讲中，杨植麟未聚焦用户数或商业数据，而是提出关键命题：当“规模化”（Scaling）已成为行业共识，我们究竟该Scale什么？

当前Kimi估值已达1200亿元。本次技术突破与GTC深度分享，印证其对智能上限的长期执着追求。

新技术改变了什么？

Kimi此次突破并非参数调优，而是底层架构级革新。

自2015年何恺明团队提出ResNet以来，“残差连接”作为训练百层以上模型的基石，十年未被撼动。其核心逻辑是：每一层输出 = 当前层计算结果 + 前序输入的累加。

该机制保障了信息跨层传递，但也存在固有缺陷：在主流PreNorm范式下，各层贡献被等权叠加，缺乏对信息重要性的动态判别能力。随着层数增加，早期层信息被稀释；后层需输出更大模长激活值才能施加影响，加剧训练不稳定性。

类比用户提示词——冗长堆砌反而降低AI理解效率。同样，无差别信息叠加导致计算低效与资源浪费。

Kimi团队提出新范式：引入动态、输入依赖的注意力机制，使网络每层可自主选择性聚合前序各层输出，而非机械求和。

实验显示，采用该方案的48B模型训练效率提升1.25倍。

引入注意力后，模型不再“全盘接收”，而具备结构性判断能力，能精准捕捉关键信息。

结果直接体现为训练效率与成本曲线的优化。

这一对惯性技术的反思与重构，瞄准的是最基础却最承重的“地基”。它有望成为未来大模型架构的标配组件，并推动全球AI团队跟进探索新路径。

杨植麟在GTC 2026的演讲，首次向硅谷核心技术圈系统呈现Kimi的技术实力与原创思考框架。

对“祖传技术”动刀：重构前沿范式

北京时间3月18日凌晨，杨植麟在GTC 2026现场发布Kimi K2.5技术路线图。他指出，唯有在Token效率、长上下文处理、智能体集群三大维度实现协同规模化，方能突破当前智能水平。

在此三维战略下，Kimi正系统性重构三大底层技术基石：

其一：优化器革命——从Adam到MuonClip

针对超大规模训练中Adam优化器的Token效率瓶颈，Kimi验证Muon潜力后，创新提出MuonClip方案：融合Newton-Schulz迭代与QK-Clip机制，解决“Logits爆炸”问题，实现2倍于AdamW的计算效率。

其二：Kimi Linear——挑战全注意力范式

基于KDA架构的Kimi Linear是一种混合线性注意力方案。它摒弃“所有层必须用全注意力”的惯例，通过优化递归存储管理，在128K至1M超长上下文中，解码速度提升5–6倍。

其本质是对注意力机制的再思考：“按需分配”才是真实场景下的务实路径。

其三：注意力残差——取代固定加法累加

在《Attention Residuals》基础上，Kimi将传统固定加法残差升级为Softmax注意力聚合，使每层可动态加权选取前序层最有价值的信息，避免信息淹没于求和“噪声”。

此外，Kimi K2.5引入Orchestrator机制，支持将复杂长任务自动拆解为数十子Agent并行执行，实现群体智能的自协调运作。

上述三项技术非零散叠加，而是覆盖底层优化器、注意力机制、残差结构的完整闭环，直击行业沿用近十年的核心技术标准瓶颈。

跳出“中国版ChatGPT”框架

Kimi K2.5已成为全球用户量最大的AI编程平台Cursor唯一接入的开源中国模型，也是全球最大独立AI搜索服务商Perplexity唯一接入的中国模型，正与OpenAI、Anthropic、Google等顶尖闭源模型同台竞技。

商业化同步跃迁：K2.5发布后20天收入即超2025年全年；海外收入占比已超国内；API开放平台日均访问量增长10–20倍。

Kimi Claw于2026年1月上线后，个人订阅订单环比激增8280%，2月续涨123.8%。

资本层面，近三个月估值增长4倍，融资超10亿美元，超过多数大模型公司IPO募资额。

更关键的是身份跃升——Kimi已超越“中国版ChatGPT”的定位，深度参与全球AI底层技术创新。

杨植麟指出：十年前受限算力，研究多侧重新想法发表；如今依托充足资源与“缩放阶梯（Scaling Ladder）”，可开展严谨规模化验证，得出更可靠结论。

Kimi的目标明确：不做更好的模型，而做定义下一代架构的引领者——审视十年“旧技术”，严谨验证，大胆重构，锚定突破智能上限的关键支点。

【声明】内容源于网络

AI蓝媒汇

各类跨境出海行业相关资讯

内容 12454

粉丝 0

AI蓝媒汇各类跨境出海行业相关资讯

总阅读47.4k

粉丝0

内容12.5k