关注【索引目录】服务号,更多精彩内容等你来探索!
TL;DR
我在同一个 Next.js 代码库上测试了三种 AI 模型,以查看哪种模型能够以最少的后续工作提供可用于生产的代码。
Claude Sonnet 4:最高的完成率和最佳的执行及时性。全面理解复杂需求,并一次性交付完整的实施方案。每项任务 3.19 美元的溢价意味着显著减少调试时间。
Kimi K2:擅长识别其他模型遗漏的性能问题和代码质量问题。构建了功能特性,但偶尔需要澄清提示才能完成全部工作。对于迭代开发来说,每个任务 0.53 美元,性价比很高。
Gemini 2.5 Pro:响应速度最快(3-8 秒),错误修复可靠,但处理多部分功能请求时会遇到困难。更适合针对性修复,而非全面实施。每项任务 1.65 美元。
测试方法
单一代码库,相同任务,可衡量结果。我使用了一个真实的 Next.js 应用,并要求每个模型修复错误并实现与 Velt(一个实时协作 SDK)绑定的功能。
-
技术栈:TypeScript、Next.js 15.2.2、React 19 -
代码库大小:49 个文件中 5,247 行 -
架构:带有服务器组件的 Next.js 应用目录 -
协作:用于评论、状态和文档上下文的 Velt SDK
每个模型必须完成的任务
这是我用于测试的库存管理仪表盘。多个用户可以使用 Velt 实时评论或提出修改建议。
-
修复在某些过滤器更改下导致数据过时的过时记忆问题。 -
删除列表视图中导致可避免的重新渲染的不必要的状态。 -
修复重新加载时的用户持久性并确保恢复正确的身份。 -
实施组织切换器并通过组织 ID 确定 Velt 评论/用户范围。 -
确保始终设置 Velt 文档上下文,以便存在和评论能够跨路线工作。
提示和迭代
所有模型都有相同的基本提示:
This inventory management app uses Velt for real-time collaboration and commenting. The code should always set a document context using useSetDocument so Velt features like comments and presence work correctly, and users should be associated with a common organization ID for proper tagging and access. Please review the provided files and fix any issues related to missing document context, organization ID usage, and ensure Velt collaboration features function as intended.
当模型错过部分任务时,我会使用后续提示,例如“请同时实现组织切换器”或“Velt 过滤仍需完成”。不同模型需要不同程度的指导——Claude 通常一次性完成所有操作,而 Gemini 和 Kimi 则需要更具体的指导。
结果一览
跑步时的 GIF:
-
双子座 2.5 专业版
-
克劳德十四行诗 4
-
君ヶ浦K2
速度与代币经济学
对于具有 1,500–2,000 个上下文标记的典型编码提示,观察到的总响应时间:
-
Gemini 2.5 Pro:总共 3-8 秒,TTFT 低于 2 秒 -
Kimi K2:总共 11-20 秒,快速开始直播 -
克劳德十四行诗 4:总共 13-25 秒,输出前有明显的思考延迟
每个任务的代币使用情况和成本(平均值):
关于克劳德的数据:79,665 个输入 + 2850 个输出 = 总计 82,515 个。这与观察到的克劳德行为相符,即他阅读了大量信息,然后做出简洁的回应。
总拥有成本:人工智能 + 开发人员时间
如果把开发人员的后续工作时间也算上,成本情况就会发生很大变化。以初级前端开发人员每小时 35 美元的费率为例:
后续工作包括审查未完成的工作、撰写说明提示、测试部分实现以及集成最终部分。如果考虑到完成任务所需的额外迭代周期,Gemini 的速度优势就荡然无存了。
分析:Claude 的高级 AI 成本可以通过减少开发人员的干预来抵消。Gemini 的前期成本看似最低,但考虑到时间成本,它反而是最昂贵的选择。
每个模型的正确之处和错误之处
双子座 2.5 专业版
-
优点:最快的反馈循环,修复所有报告的错误,清除差异 -
缺点:跳过 org-switch 功能,直到再次提示,需要更多迭代才能完成复杂的接线
君ヶ浦K2
-
优点:擅长发现记忆和重新渲染问题,良好的 UI 脚手架 -
缺点:Velt 过滤和持久性没有第二次推动就停止了
克劳德十四行诗 4
-
获胜:任务完成度最高、最终状态最干净、照看时间最少 -
缺点:一个小的 UI 行为问题需要快速跟进
限制和注意事项
-
一个代码库和一个作者。不同的项目可能强调不同的模型。 -
只要结果能够干净地编译并通过 linting,我就不会因为风格代码偏好而惩罚模型。 -
定价和代币会计可能会因提供商而改变;数字反映了我在此运行期间的日志。 -
我测量的是总响应时间而不是每秒令牌数,因为对于编码来说,完整的答案比流速度更重要。
最终判决
总拥有成本分析揭示了真正的赢家。虽然 Claude Sonnet 4 的 AI 成本最高,但它所需的开发时间却最少,足以编写出可用于生产的代码。 而从整体来看,Kimi K2 的性价比最高。
对于注重成本的开发:Kimi K2 提供最佳总价值,每项任务仅需 5.20 美元。没错,它需要后续提示,但包括您的时间在内的总成本仍然最低。此外,它还能发现其他模型遗漏的性能问题。
对于生产截止日期:Claude Sonnet 4 一次即可交付最完整的实现,总成本仅为 7.86 美元。如果您需要只需极少调试即可立即运行的代码,那么高昂的成本绝对物有所值。
对于快速实验:Gemini 2.5 Pro 的响应速度最快,但后续维护费用却出奇地昂贵,总成本高达 10.40 美元。它最适合于速度比完整性更重要的简单修复。
关键洞察:仅仅考虑人工智能成本是误导。如果考虑到你的时间成本,价值主张就会完全改变。如果考虑到完成未完成实施所需的工作,原本“最便宜”的人工智能方案往往会变成最昂贵的。
关注【索引目录】服务号,更多精彩内容等你来探索!

