元龙科普
当开源AI
遇强则强
DeepSeek、Kimi 与
闭源模型的巅峰较量
在当今的人工智能领域,闭源模型占据着主导地位,各大科技公司如同守护宝藏的巨龙,对核心 AI 技术严防死守。在这样的大环境下,一个开源项目能够脱颖而出,向行业顶尖产品发起挑战,简直如同奇迹一般。而 DeepSeek 前段时间更新的最新版本 DeepSeek-R1(0528),却做到了这一点,它不仅成功挑战了行业权威,甚至在某些关键领域实现了超越,将 Claude Opus 4 和 GPT-4.1 等顶级商业模型甩在了身后。
真正让开发者社区为之沸腾的,是 R1(0528)在大模型公共基准测试平台 LMArena 上的惊艳表现。它的性能排名如同火箭般蹿升,一举超越了多个顶尖封闭模型,成为了开源界的一颗璀璨新星。在 WebDev Arena 中,DeepSeek-R1(0528)的表现堪称卓越,与 Gemini-2.5-Pro-Preview-06-05、Claude Opus 4 (20250514) 等闭源大模型并列第一。更令人震惊的是,R1(0528)以 1408.84 分的高分,力压得分为 1405.51 的 Claude Opus 4,成功登顶。
WebDev Arena 可不是一个普通的测试平台,它是由 LMArena 精心打造的实时 AI 编程竞赛平台,专注于 Web 开发领域的挑战,为不同的 AI 模型提供了一个公平竞争的舞台,让它们能够在这里一决高下。要知道,Claude Opus 4 的背后是强大的资源支持。Anthropic 为了打造这款模型,可谓是不惜血本,筹集了数亿美元的资金,从全球范围内聘请了最优秀的 AI 研究人员,还配备了海量的计算资源。然而,就是这样一个集万千宠爱于一身的模型,却在 WebDev Arena 中被 DeepSeek-R1(0528)这个由相对较小团队开发的开源模型超越,这怎能不让人惊叹?
WebDev Arena 的测试难度极高,它不仅仅是对基本编码能力的考查,更是对模型综合实力的一次大考验。它向模型们抛出的是复杂、多步骤的开发挑战,比如构建交互式组件,这需要模型能够深入理解用户需求,将抽象的交互逻辑转化为具体的代码实现;调试复杂的 JavaScript 问题,这要求模型具备敏锐的代码洞察力,能够快速定位并解决隐藏在代码深处的错误;处理 CSS 边缘情况,这考验的是模型对各种特殊场景下样式表现的精准把握。这些挑战就像一道道难以逾越的鸿沟,将真正具备实际开发能力的模型与只会简单生成代码的模型区分开来。而 DeepSeek-R1(0528)能够在这样的测试中脱颖而出,足以证明它在编码能力上的卓越。
除了在编码领域的出色表现,DeepSeek-R1(0528)在文本竞技场中也展现出了强大的实力,排名第六。如今的文本竞技场,测试难度也在不断提升,它涵盖了广泛的语言理解、推理和复杂任务处理能力的考查。这里的测试题设置得极为精细,如同布满陷阱的迷宫,模型稍有不慎就会陷入其中。例如,Text Arena 的测试旨在精准揭示模型的弱点,其中的挑战细致入微、层次丰富,有些模型在面对这些挑战时,会暴露出 “幻觉” 问题,甚至会一本正经地胡说八道,给出与事实严重不符的回答。然而,DeepSeek-R1(0528)却能够在这样的测试环境中稳定发挥,与 GPT-4o、Claude Opus 等由巨额企业研究预算支持的模型展开直接竞争,这无疑彰显了它在文本处理能力上的深厚底蕴。
在其他细分领域的测试中,DeepSeek-R1(0528)同样表现不俗。在硬提示词(Hard Prompt)测试中排名第 4,展现出对复杂提示信息的准确理解和处理能力;在编程(Coding)测试中排名第 2,再次证明了其在编码方面的卓越实力;在数学(Math)测试中排名第 5,说明它具备较强的数学推理和计算能力;在创意性写作(Creative Writing)测试中排名第 6,显示出在创意表达和文字创作方面的独特优势;在指令遵循(Intruction Fellowing)测试中排名第 9,表明能够较好地理解并按照用户指令执行任务;在更长查询(Longer Query)测试中排名第 8,体现了对长文本信息的有效处理和分析能力;在多轮(Multi-Turn)测试中排名第 7,反映出在多轮对话场景中的良好表现和适应性。
2025 年 5 月 28 日,对于开源大语言模型领域来说,是一个具有里程碑意义的日子。这一天,DeepSeek 发布了 R1(0528)(或称 R1.2),这一版本虽然被官方定位为 “小版本更新”,但实际上却带来了巨大的改变。经过实际测试验证,DeepSeek-R1(0528)在推理深度、代码能力及整体稳定性上都有了质的飞跃。它沿用了初代 R1 的混合专家(MoE)架构,总参数量高达 6850 亿,这个数字堪称天文数字,代表着模型拥有极其强大的学习和处理能力。但令人惊叹的是,每次推理仅激活约 370 亿参数,这种巧妙的设计确保了高效计算,使得模型在运行过程中既能发挥强大的性能,又能避免资源的过度消耗。同时,它支持 128K tokens 的长上下文窗口,这一特性使其在长文本理解、代码分析和复杂逻辑推理任务中如鱼得水,能够轻松应对各种复杂的任务需求。
此次升级的关键在于训练后优化,DeepSeek 团队可谓是煞费苦心。他们通过改进推理策略,让模型在面对各种问题时能够更加迅速、准确地找到解决方案;优化计算资源分配,使得模型的每一个计算单元都能得到充分且合理的利用,从而大幅提升了模型在数学推导、代码生成和复杂问题解决方面的能力。
LMArena 最新测试结果一经公布,便在社交平台上引发了轩然大波。在 X 平台上,用户 Sughu 兴奋地表示:“DeepSeek 与 Claude Opus 4 匹敌。这些数字令人难以置信。” 从这句话中,我们可以感受到用户对 DeepSeek-R1(0528)表现的震惊与赞叹。还有许多用户已经迫不及待地想要亲自体验 R1(0528)的实际效果,他们摩拳擦掌,跃跃欲试,仿佛即将开启一场激动人心的冒险。甚至有用户拿 R1 的开源特性来调侃 Opus 等封闭模型:“区别在于:Opus 让你变穷,但 R1 是免费的。” 这句看似玩笑的话语,背后却反映出开源模型在成本方面的巨大优势,对于广大开发者和用户来说,免费且性能强大的开源模型无疑具有极大的吸引力。当然,也有一些用户保持着理性的态度,他们认为 DeepSeek R1 目前在测试中展现出的性能确实令人印象深刻,但在用户体验方面还有很大的提升空间,与 Claude 相比仍存在一定差距。例如,Claude 在界面设计、交互流程等方面可能更加简洁、流畅,能够让用户在使用过程中感受到更加舒适和便捷。
在 Reddit 平台上,同样掀起了一股关于 DeepSeek R1(0528)的讨论热潮。一些用户对其强大的编码能力赞不绝口,甚至断言使用 R1 辅助编程的开发者能够碾压使用其他封闭模型的开发者。有用户激动地表示:“DeepSeek R1(0528)很火。我知道这是 LMAarena 的测试(可能会有点不那么准确),但我绝对相信 R1 的实力有能力做到如此。我觉得它用在编程上,它的性能确实能与 Gemini/OpenAI 和 Anthropic 的模型匹敌。一个能用 DeepSeek 的程序员会碾压使用封闭模型的普通程序。” 然而,也有部分用户对 WebDev Arena 测试的结果表示怀疑。他们认为 DeepSeek 固然强大,但在 WebDev 领域中与 Opus 比肩,实在是让人难以相信。有用户质疑道:“他们(LMArena)有没有修改评级流程或模型?DeepSeek 很棒,但在 WebDev 领域能和 Opus 比肩吗?不可能的!”
其实,网友们对 LMArena 测试结果的质疑并非毫无道理。前不久,AI 实验室 Cohere、斯坦福大学、麻省理工学院和 Ai2 联合发表的一篇新论文,就将矛头指向了 LMArena。论文中指责 LMArena 在榜单分数上偏袒一些科技巨头公司。根据论文作者的说法,LMArena 允许一些行业领先的 AI 公司,如 Meta、OpenAI、谷歌等,私下测试多种 AI 模型变体,并且对于表现最差的模型得分选择不公布。这就好比一场比赛,某些参赛队伍可以提前进行多次内部测试,然后只展示自己最优秀的一面,而隐藏其他不理想的表现,这显然有失公平。作者还举例称,在科技巨头 Meta 发布 Llama 4 之前的 1 月至 3 月期间,Meta 在 Chatbot Arena 上私下测试了 27 种模型变体。而在发布时,Meta 只公开透露了一个模型的得分,而这个模型恰好就在 Chatbot Arena 排行榜上名列前茅。面对这些指控,LMArena 联合创始人兼加州大学伯克利分校教授 Ion Stoica 在给媒体的一封电子邮件中表示,这篇论文充满了 “不准确之处” 和 “值得怀疑的分析”,坚决否认了偏袒的说法。
就在 DeepSeek R1(0528)引发广泛关注的同时,月之暗面也在悄然发力。巧合的是,近期月之暗面发布了针对软件工程任务的全新开源代码大模型 Kimi-Dev-72B,犹如一颗重磅炸弹,再次在 AI 领域掀起波澜。该模型的项目地址为https://huggingface.co/moonshotai/Kimi-Dev-72B ,在 SWE-bench Verified 编程基准测试中,Kimi-Dev-72B 取得了令人瞩目的成绩,达到了全球最高开源模型水平。令人惊讶的是,它仅以 72B 的参数量,成绩就超过了在 LMArena 编码能力测试中与谷歌、Anthropic 模型并列第一的 R1(0528)。在 AI 软件工程能力基准测试 SWE-bench Verified 上,Kimi-Dev-72B 更是斩获了 60.4% 的高分,成功创下开源模型的 SOTA 成绩。
Kimi-Dev-72B 之所以能够取得如此优异的成绩,得益于其独特的设计理念和先进的技术细节。在设计上,它采用了 BugFixer 和 TestWriter 的组合。一个成功修复漏洞的补丁,需要通过能准确反映该漏洞的单元测试;而一个成功复现漏洞的测试,应能触发断言错误,并且当向代码库应用正确的漏洞修复补丁后,该测试应能顺利通过。这就体现了漏洞修复者(BugFixer)与测试编写者(TestWriter)之间相辅相成的关系,而 Kimi-Dev-72B 在这两方面都展现出了强大的能力。在技术实现上,针对这两种角色,它采用了相同的极简框架,仅包含两个阶段:(1)文件定位,模型需要精准找到需要编辑的正确文件,这就如同在茫茫大海中找到那座关键的岛屿;(2)代码编辑,在定位到文件后,对代码进行更新,无论是修正脆弱的实现逻辑,还是插入单元测试函数,都需要模型具备高超的代码处理能力。这种双重设计,构成了 Kimi-Dev-72B 的核心基础。
为了进一步增强 Kimi-Dev-72B 作为漏洞修复者(BugFixer)和测试编写者(TestWriter)的先验能力,研发团队采用了约 1500 亿高质量真实世界数据进行中期训练。他们以 Qwen 2.5-72B 基础模型为起点,精心收集了数百万条 GitHub 问题与 PR 提交记录作为中期训练数据集。这个数据方案经过了研发团队的精心构建,旨在让 Kimi-Dev-72B 能够深入学习人类开发者如何基于 GitHub 问题进行推理、编写代码修复方案以及单元测试。同时,研发团队还执行了严格的数据净化处理,将 SWE-bench Verified 中的所有代码库排除在外,以确保训练数据的纯净性和有效性。通过中期训练,充分强化了基础模型在实际漏洞修复和单元测试方面的知识,为后续的强化学习(RL)训练打下了坚实的基础,使其成为更优的起点。
在强化学习阶段,Kimi-Dev-72B 使用了 Kimi k1.5 中描述的策略优化方法,该方法在推理任务中表现出色。对于 SWE-bench Verified,有三个关键设计值得重点关注。其一,仅基于结果的奖励。研发团队仅使用 Docker 的最终执行结果(0 或 1)作为奖励,在训练期间不采用任何基于格式或过程的奖励。这种方式能够更加直接地衡量模型的实际效果,让模型专注于真正解决问题。其二,高效的提示集。研发团队过滤掉模型在多样本评估下成功率为零的提示,从而更有效地利用大批量数据。此外,他们还采用课程学习法,逐步引入新的提示,提高任务难度,就像为模型搭建了一个逐步提升的阶梯,让它能够稳步提升能力。其三,正例强化。在训练的最后阶段,研发团队将之前迭代中最近成功的样本纳入当前批次,这有助于模型增强成功模式,提升性能,使其能够不断巩固和提升自己的优势。
Kimi-Dev-72B 还通过使用高度并行、强大且高效的内部代理基础设施,从可扩展数量的问题解决任务的训练中受益匪浅。经过强化学习后,Kimi-Dev-72B 成功掌握了 BugFixer 和 TestWriter 的角色。在测试过程中,它会采用自我博弈机制,协调自身 Bug 修复和测试编写的能力。例如,每个问题最多可生成 40 个补丁候选和 40 个测试候选(按照标准无代理设置),通过这种方式,可以观察到测试时间自玩的扩展效应,进一步提升了模型的性能和适应性。
DeepSeek R1(0528)的出现,无疑是开源人工智能领域的一次重大突破,它向世界证明了开源模型的强大实力,能够与最优秀的专有系统相媲美。其在 Web 开发领域的卓越表现,可能会对更广泛的编码领域产生深远影响,激励更多的开发者投身于开源模型的研究和应用中。然而,我们也不能忽视它在用户体验等方面存在的不足,未来还有很大的提升空间。而月之暗面发布的 Kimi-Dev-72B 同样展现出了强大的竞争力,在软件工程任务方面具有独特的优势。AI 领域的竞争如同一场没有硝烟的战争,各大模型你追我赶,不断推动着技术的进步。LMArena 测试平台虽然面临着争议,但它在促进模型评估和比较方面的作用不可忽视。在这个充满机遇与挑战的时代,我们有理由期待更多优秀的 AI 模型诞生,为人类的发展带来更多的惊喜和可能。
-END-

