从 “套壳” 争议
到开源新生
Kimi-Dev-72B 如何
改写 AI 协作规则?
在 AI 模型的快速发展进程中,新模型的发布总是备受瞩目。近期,月之暗面发布的开源代码模型 Kimi-Dev-72B,在软件工程任务基准测试 SWE-bench Verified 上以 60.4% 的成绩超越了包括 DeepSeek 在内的众多竞争对手,一跃成为开源模型中的佼佼者。这本是 AI 领域的一次技术飞跃,然而,随着开发者对该模型的深入探究,一场围绕 “创新” 与 “套壳” 的争议悄然掀起。
Kimi-Dev-72B:站在巨人肩膀上的创新
Kimi-Dev-72B 并非平地起高楼,其在 Hugging Face 上明确标注 “Base model: Qwen/Qwen2.5-72B”,官方博客也表明是以 Qwen 2.5-72B 基础模型为起点,融入数百万个 GitHub 问题单和 PR 提交作为中期训练数据集进行开发。这清晰地显示出,Kimi-Dev-72B 是基于阿里巴巴 Qwen 团队的 72B 参数模型进行的二次创作。
从技术创新维度来看,月之暗面为 Kimi-Dev-72B 注入了独特的灵魂。其采用大规模强化学习技术,让模型在 Docker 环境中如同真实开发者一般,自主修复代码仓库中的问题,只有当完整测试套件通过,模型才会获得奖励。这种实战式的训练方式,使得 Kimi-Dev-72B 生成的代码不仅在语法上正确,更重要的是符合实际开发场景中的复杂标准与规范。
在权威的软件工程任务基准测试 SWE-bench Verified 中,Kimi-Dev-72B 的表现堪称惊艳。该测试专门用于评估模型解决真实 GitHub issues 的能力,此前开源模型成绩大多在 50% 左右徘徊,而 Kimi-Dev-72B 却突破桎梏,将成绩提升至 60.4%,实现了质的飞跃。这一成绩的取得,无疑证明了其在代码生成、问题解决等软件工程关键领域的卓越能力。
在许可证方面,Kimi-Dev-72B 的 LICENSE.md 文件显示采用 MIT 协议发布。但同时,月之暗面也在文档中清晰说明,Kimi-Dev-72B 需遵守 Qwen-2.5-72B 的原始许可限制,自身创新部分(即通过强化学习获得的微调权重)以 MIT 协议开源,这种 “delta 权重” 发布模式在开源社区中并不鲜见,它巧妙地平衡了对基础模型的尊重与自身创新成果的分享。
争议溯源:许可协议引发的波澜
这场争议的导火索,是社区对月之暗面是否获得使用 Qwen-2.5-72B 特殊许可的质疑。Qwen 的许可协议体系较为复杂,较小模型采用 Apache 2.0 协议,相对开放自由;但 72B 这一旗舰模型却采用《通义千问许可协议》(Qwen LICENSE AGREEMENT)。这份协议规定,当产品的月活跃用户(MAU)超过 1 亿时,需向阿里申请商业授权。鉴于 Kimi 作为热门 AI 助手的潜在用户规模,一旦将 Kimi-Dev-72B 引入产品,这一限制条款便成为关注焦点。
起初,Qwen 团队负责人林俊旸在 X 平台上明确回复:“no we did not give them the permission”(不,我们没有给他们授权),这一简短回复如同一颗投入平静湖面的石子,瞬间激起千层浪,引发社区广泛讨论。然而,仅仅一个多小时后,剧情出现反转,林俊旸发布第二条推文:“nvm this is our legacy issue. for qwen3, all are under apache 2.0 now.”(没事了,这是我们的历史遗留问题。对于 qwen3,现在所有模型都采用 apache 2.0 协议了)。
深入探究 Qwen2.5 系列的许可策略,便能理解这一 “历史遗留问题” 的本质。Qwen2.5 系列采用分级许可体系,多数模型如 0.5 B、1.5 B、7 B、14 B、32 B、VL、Omni 等采用 Apache 2.0 协议,完全开源,促进技术广泛传播;但 3B 和 72B 模型采用的《通义千问许可协议》带有商业限制条款,旨在保护核心商业利益。随着时间推移,Qwen 团队意识到这种策略在一定程度上限制了生态发展。于是,在 2025 年 4 月底发布的 Qwen3 系列中,所有模型全面转向更加开放的 Apache 2.0 协议。Apache 2.0 协议具有商业友好、无限制使用、社区驱动等显著特点,全球开发者、研究机构和企业均可免费下载并商用,允许自由修改代码并以其他协议重新发布,大大降低了使用门槛,为构建活跃的 AI 生态系统奠定基础。在这一背景下,将 Kimi-Dev 基于 “旧协议” 模型的使用定性为 “历史遗留问题”,更像是 Qwen 团队着眼未来,对生态伙伴创新的一种包容与支持。
开源协作:大厂与创业公司的新范式
从行业宏观视角审视,Kimi-Dev-72B 事件反映了当下 AI 创业的现实困境与机遇。依据 MosaicML 的数据,训练一个达到 GPT-3 质量的 30B 参数模型,成本约 45 万美元,而迈向 70B 参数级别,成本将飙升至数百万美元。这对于众多怀揣 AI 创业梦想的机构而言,无疑是一座难以逾越的资金大山。除了巨额资金,还需配备顶尖的 AI 研究和工程团队,且随着技术迭代,未来模型训练成本仍有上升趋势。
在此背景下,月之暗面选择 Qwen-2.5-72B 作为基座模型颇具战略眼光。多项评测显示,Qwen2.5 系列在代码、数学、多语言等领域成绩斐然,处于业界领先水平。站在这样坚实的基座之上,月之暗面得以将有限的资源聚焦于自身核心优势 —— 强化学习训练方法,实现精准发力。
NebulaGraph GenAI 负责人 Wey Gu 对硅星人表示:“我认为他们(Kimi)的开放权重、透明地分享 paper 的工作对社区是非常有益处的”,同时指出 Kimi-Dev 分发 MIT 协议的 delta 权重文件合规合理,“不过模型的消费者是绕不过 base model 的 Qwen license 的”。这一观点得到业界部分人士认可,尽管 Kimi-Dev 在 SWE-bench 上成绩优异,但在实际应用中,仍存在提升空间。有开发者测试发现,模型生成的代码有时需调试才能运行,对复杂需求的理解也不够全面深入。这表明,即便依托强大的基础模型,打造真正卓越的垂直应用,仍需大量持续创新。
这场围绕 Kimi-Dev-72B 的 “套壳” 争议,实则是 AI 行业发展进程中的一个生动切片。它见证了开源策略从限制性许可向完全开放的转变,这是赢得开发者生态、推动技术普惠的必然选择。同时,基于优秀基础模型的 “二次创新” 模式正在兴起,关键在于各参与方如何挖掘并实现自身的差异化价值。大厂凭借雄厚实力打造基础模型,创业公司聚焦专项优化,双方在开源生态中不再是简单的竞争关系,而是形成了互利共赢的全新协作模式。
展望未来,随着更多开源模型采用 Apache 2.0 等开放协议,类似的许可争议有望逐渐减少。而像 Kimi-Dev-72B 这样基于开源模型的专项优化案例,或将如雨后春笋般不断涌现,成为开源 AI 生态繁荣昌盛的有力注脚。在这场技术与创新的盛宴中,我们有理由期待更多精彩的故事在 AI 的舞台上持续上演。
END

