Kimi K2.5登顶开源第一！15T数据训练秘籍公开，杨植麟剧透K3- 大数跨境

量子位

2026-02-03

导读：原生多模态+智能体集群

开源模型热度持续攀升，Kimi K2.5近期登顶Hugging Face趋势榜首位，下载量突破5.3万次。

Kimi K2.5主打Agent能力，在HLE-Full、BrowseComp等多项测试中表现优于GPT-5.2、Claude 4.5 Opus及Gemini 3 Pro等主流闭源模型。

在性能与成本方面，Kimi K2.5展现出显著优势：其在BrowseComp上的表现超越GPT-5.2的同时，计算资源消耗不足后者的5%。

随着官方技术报告发布，Kimi K2.5的技术架构也逐步揭晓。

原生多模态，15T Token混合训练

Kimi K2.5基于K2架构，采用15万亿（15T）视觉与文本混合Token进行持续预训练，走的是“原生多模态”路线——即同一套参数空间直接处理图像与文本信息。

该设计实现了视觉理解与语言推理的同步增强，避免了传统模型中二者相互削弱的问题。模型能像解析语法一样理解像素背后的语义逻辑，从而支持“视觉编程”能力。

面对包含复杂滚动特效或动态交互的网页演示视频，K2.5可直接从视频流中逆向生成前端代码，精准捕捉元素随时间变化的规律，并映射为可执行代码。

这一过程跳过“视觉→文本→代码”的中间转换环节，实现从设计到开发的无损传递，大幅提升开发效率。

为确保生成代码的视觉还原度，K2.5内置自主视觉调试机制。在页面渲染后，模型通过视觉感知对比实际效果，若发现布局错位、样式偏差或动画异常，将自动调用文档查询工具定位问题并修正代码。

这种“生成-观察-查阅-修复”的闭环流程，模拟高级工程师的调试行为，使模型具备端到端完成软件工程任务的能力。

为应对复杂任务处理需求，Kimi K2.5引入Agent Swarm架构，支持构建百人规模的数字化团队。

系统可瞬间创建并调度多达100个子智能体，协同调用超过1500种工具，形成高度并行的工作流，显著缩短全网搜索、数据分析等耗时任务的响应周期。

该集群由PARL（并行智能体强化学习）框架驱动，构建起“调度器+执行层”的指挥体系。

调度器负责任务拆解与资源分配，子智能体则专注于具体指令执行，参数冻结确保执行稳定性。动静结合的设计兼顾系统灵活性与逻辑严密性。

训练过程中采用阶段性奖励策略：初期鼓励调度器探索并行化路径，后期侧重任务最终成功率，引导模型建立“在保证准确性的前提下最大化并发效率”的决策习惯。

评估指标聚焦“临界步骤”，依据关键路径原理，关注最慢子任务和调度开销，倒逼系统优化整体响应速度。只有当并行扩展真正缩短等待时间时，系统才会增加并发度，实现性能与资源消耗的最佳平衡。

K2.5上线后，月之暗面创始人杨植麟、周昕宇、吴育昕集体亮相Reddit，开展长达三小时的AMA问答，回应全球开发者关切。

关于下一代Kimi K3，团队透露其可能基于线性注意力机制构建。杨植麟表示，即便K3无法实现相较K2.5十倍提升，也将带来质的飞跃。

针对K2.5偶现自称“Claude”的现象，团队解释称，因训练数据中大量高质量编程内容涉及Claude，导致模型出现类似“口头禅”的模仿行为，如同长期阅读某作家作品后语言风格受影响。

对于算力焦虑问题，算法负责人周昕宇强调：“创新往往诞生于约束之中”。团队认为，堆砌算力并非通往AGI的唯一路径，真正的突破在于有限资源下催生更高效算法与更优架构，这也是其长期追求的技术目标。

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 15949

粉丝 1

量子位各类跨境出海行业相关资讯

总阅读222.8k

粉丝1

内容15.9k