

2倍Token效率、1M长上下文、智能体集群:Kimi K2.5技术路线图首度系统披露
智东西3月18日报道,英伟达GTC大会凌晨,月之暗面创始人杨植麟作为本届唯一受邀现场演讲的中国独立大模型公司创始人,发表题为《How We Scaled Kimi K2.5》的主题演讲,首次完整公开Kimi K2.5背后的技术演进路径。
3月16日,月之暗面已发布预研论文,提前揭晓下一代模型核心模块——注意力残差(Attention Residuals,AttnRes),对Transformer基础结构之一“残差连接”进行重新设计。该成果迅速引发国际AI圈关注:埃隆·马斯克评价其“令人印象深刻”;前OpenAI研究副总裁安德烈·卡帕西指出,“人们对《Attention is All You Need》的理解,可能还不够充分”。
Kimi K2.5的进化逻辑被概括为三大技术维度共振:Token效率、长上下文、智能体集群(Agent Swarms)。杨植麟指出,当前Scaling已非简单资源堆砌,而需在计算效率、长程记忆与自动化协作三者间同步寻求规模效应;三者增益叠加,将显著提升模型智能上限。
这也是自1月底Kimi K2.5发布以来,月之暗面首次系统性披露整套技术路线图。杨植麟强调,行业沿用的多项底层技术标准多诞生于八九年前,正逐步成为Scaling瓶颈。为此,Kimi团队从优化器、注意力机制与残差连接三大基础模块切入,逐一重构并持续开源。
01 重写训练底座:MuonClip,Token效率达AdamW的2倍
Kimi团队将首个突破点聚焦于Token效率。杨植麟指出,Adam优化器虽自2014年起被广泛采用,但在超大规模训练中,更高Token效率的替代方案已成为关键方向。实验表明,Muon优化器可在相近算力预算下,实现约2倍Token效率向模型能力的转化。
▲Muon优化器在相同算力下实现约2倍Token效率
然而,在万亿参数规模K2模型训练中,Muon出现Logits爆炸(最大值超1000),导致训练发散。为此,Kimi提出MuonClip优化器:通过Newton-Schulz迭代结合QK-Clip机制约束数值,在实测中将max logits稳定控制在100以内且逐步回落,模型loss未受影响。
▲MuonClip将max logits控制在100以内,实现稳定训练
为适配大规模GPU集群,团队还设计了分布式Muon(Distributed Muon),将优化器状态分布于数据并行组内,按需聚合梯度,显著提升内存与训练效率。
02 长上下文突破:Kimi Linear,128K–1M解码提速5–6倍
长上下文是Kimi技术路线第二主线。杨植麟重点介绍了Kimi Linear——一套基于Kimi Delta Attention(KDA)的混合线性注意力架构。
其核心在于重构注意力层组成逻辑:放弃全层使用Full Attention的默认范式,采用约3:1的KDA与全局注意力混合比例,在降低显存开销的同时维持表达能力。
Kimi Linear已完成1.4T token规模训练,在长/短上下文及强化学习任务中均优于全注意力及其他基线方案。
推理层面成效显著:在128K至1M上下文区间,解码速度提升约5–6倍,且各长度下表现稳定。该方案将长上下文从“可支持能力”,升级为“可高效使用能力”,破解长期存在的延迟与成本增长难题。
03 重构残差连接:Attention Residuals,让每一层主动读取信息
Attention Residuals(注意力残差)是Kimi此次技术演进中尤为关键的一项基础创新。残差连接作为深度网络十年来最基础的设计之一,传统固定加法方式易致深层信息稀释。
Kimi团队将其替换为基于Softmax注意力的动态聚合路径,使模型能依据输入内容,有选择地从前序层获取信息,实现信息流从“逐层叠加”到“按需读取”的转变,大幅提升深层网络的信息稳定性。
该设计延伸自Ilya Sutskever在NeurIPS 2024提出的思路:若将残差连接视作沿深度展开的简化LSTM,则Attention即为其进一步扩展。Kimi据此提出Attention Residuals,并已开源全部代码与技术报告。
▲Ilya提出“将LSTM旋转90度得到残差连接”,Attention可视为其扩展
04 视觉强化学习反哺文本:跨模态带来认知增益
除底层架构外,杨植麟亦分享跨模态研究新发现:在原生视觉-文本联合预训练中引入视觉强化学习(Vision RL),不仅提升视觉任务表现,更可反向增强纯文本能力。
消融实验显示,经视觉RL训练后,模型在MMLU-Pro和GPQA-Diamond等文本基准上性能提升约1.7%–2.2%。杨植麟指出,空间推理与视觉逻辑能力可转化为更深层通用认知能力;多模态训练的价值,正从“扩展输入形式”转向“提升底层推理能力”。
目前,Kimi团队正推进首个原生联合视觉-文本能力的开放模型研发。
05 智能体集群落地:Orchestrator驱动Agent Swarms协同
演讲最后聚焦智能体集群(Agent Swarms)。杨植麟指出,未来智能体形态将由单Agent演进为动态生成的集群系统。Kimi K2.5已引入Orchestrator(编排器),可根据任务需求实时创建多个子Agent,将复杂任务自动拆解为并行子任务执行。
▲Orchestrator动态生成子Agent并并行执行任务
子Agent可承担AI Researcher、Physics Researcher、Fact Checker等不同角色,协同完成整体任务。该系统覆盖四大规模化能力:大规模信息获取(Input at Scale)、并行操作(Actions at Scale)、任务编排(Orchestration at Scale)与长结果生成(Output at Scale)。
实验表明,随着任务复杂度上升,集群相比单Agent的效率优势持续扩大,执行时间可缩短数倍。
为避免“串行塌缩”(表面多Agent、实为单Agent执行),Kimi设计并行强化学习奖励机制,包括Instance reward(实例化奖励)、Finish reward(完成奖励)与Outcome reward(结果奖励),精准引导任务拆解与并行执行。
▲三类奖励机制用于防止“伪并行”和串行塌缩
结语:一张面向未来的Scaling施工图
杨植麟总结指出,AI研究范式正经历深刻变化。过去受限于算力,同一方法难以在多尺度验证;如今依托“Scaling Ladder(缩放阶梯)”,可开展系统性规模化实验,获得更可靠结论。
这一理念贯穿Kimi当前技术路径:Adam诞生逾11年,Kimi将其升级为MuonClip并开源;Attention提出逾8年,Kimi发展出Kimi Linear并开源;残差连接应用约10年,Kimi进一步提出Attention Residuals并开源。
整体来看,Kimi此次路线图明确下一阶段大模型竞争焦点为三条主线:训练效率、长上下文能力与智能体协作结构。三者并非孤立演进,而是同步推进、相互叠加,共同构筑新一代AI基础设施底座。