Claude Opus 4、Gemini 2.5 Pro 和 OpenAI o3 编码比较- 大数跨境

首页

Claude Opus 4、Gemini 2.5 Pro 和 OpenAI o3 编码比较

索引目录

2025-05-27

导读：关注【索引目录】服务号，更多精彩内容等你来探索！

关注【索引目录】服务号，更多精彩内容等你来探索！

Anthropic 刚刚推出了两款新的 AI 型号，Claude Opus 4 和 Claude Sonnet 4（Claude 3.7 Sonnet 的直接替代品），于 5 月 22 日上市。

这两种模型都有类似的 SWE 基准，因此在本博客中，我们将主要关注 Claude Opus 4。✌️

现在，这款新模型 Claude Opus 4 已经推出，让我们看看我们是否有一些很酷的东西，或者只是另一个普通的 AI 模型。

TL;DR

如果您想直接得出结论，当将 Claude Opus 4 与其他两个型号 Gemini 2.5 Pro 和 OpenAI o3 进行比较时，Opus 绝对占据主导地位，而且在编码方面也占据了相当大的优势，您可以在下面的比较中亲眼看到。

如果您正在寻找一个好的 AI 编码助手，也许适合您的编辑器或一般用途，那么 Claude Opus 4 是您的最佳选择（至少目前如此！）

克劳德作品4简介

如果您正在浏览此博客，则很可能是在浏览 Claude Opus 4 型号，因此，在我们继续之前，让我先简单介绍一下该型号。

这个模型发布还不到一周，他们就声称它是编程领域最好的AI模型。不仅如此，它还能自主工作一整天（七小时）。看起来已经很吓人了！！

它有大约20 万个 token 上下文窗口（可能和你预期的不一样，但事实就是如此），据说它是编码的最佳模型。它应该能证明这一点，但我们稍后会看到。

Claude Opus 4 在 SWE-bench 上领先，得分为 72.5%，通过并行测试时间计算最高可达到 79.4%。

正如您所见，与 Anthropic 之前的型号 Claude 3.7 Sonnet 相比，它已经有了10% 以上的改进。

这款 Claude 4 系列还标志着该模型使用黑客和捷径方法完成工作的可能性降低了 65% 。

现在，想象一下一个 AI 模型（这里指的是 Claude Opus 4）只需要几个提示，就能自动完成 PR、提交代码，以及所有你能想到的事情。那该有多酷啊，对吧？

就是这样。Claude 团队分享了 GitHub Actions 与 Claude Opus 4 的快速集成，您可以在其中看到模型在 PR 上进行更改并实时处理反馈。

你是不是觉得有点危险？从 GPT-3.5 到这个模型，这两三年里，这些 AI 模型的控制力提升得真快。

这真是太疯狂了，我不知道我是喜欢还是讨厌这种情况。

编码比较

您可能已经猜到了，在本节中，我们将比较 Claude Opus 4（SWE 72.5%）、Gemini 2.5 Pro（SWE 63.2%）和 OpenAI o3（69.1%）的编码。

这三个模型都是编程高手，所以我们不会用简单的题目来测试它们。我们会用非常难的题目，看看它们的表现如何。

这三个模型都是编程高手，所以我们不会用任何简单的问题来测试它们。我们会用非常难的问题，看看它们的表现如何。我还会考虑一点，那就是品味。

1.粒子变形

提示：
你可以在这里找到我使用的提示：链接

Claude Opus 4 的回复

您可以在此处找到它生成的代码：链接

这是程序的输出：

这看起来棒极了，而且它竟然在思考了大约 100 秒（约 1.66 分钟）之后就能一次性完成，这对我来说更不可思议。粒子从一种形状变形到另一种形状的行为完全符合我的预期；它不是从一个点开始变形到另一个形状，而是直接从它所在的形状开始变形。

还有改进的空间，比如形状不是 100% 正确，但整体实施非常可靠！

Gemini 2.5 Pro 的回应

您可以在此处找到它生成的代码：链接

这是程序的输出：

这还不错，但绝对达不到 Claude Opus 4 的水平。形状看起来很差，完全不符合我的预期。鸟儿就是那样的吗？真的吗？整体用户界面也不太达标。

这绝对不是我所期望的，并且对这个模型有些失望，但我们将它（SWE 台面 63.2%）与 Claude Opus 4（SWE 台面 72.5%）进行比较，也许这就是原因。

我注意到，每次新模型发布后，之前最好的模型似乎都会被新模型所取代。AI 模型的改进速度真是快得惊人。

OpenAI o3 的回应

您可以在此处找到它生成的代码：链接

这是程序的输出：

o3 的响应甚至比 Gemini 2.5 Pro 还要差。说实话，我对这款机型的期望值有点高，但结果却如此。

我不知道您是否注意到，但粒子不会直接从其当前形状变形；相反，它们首先默认为球形，然后变形为所需的形状。

2. 2D马里奥游戏

提示：
你可以在这里找到我使用的提示：链接

Claude Opus 4 的回复

您可以在此处找到它生成的代码：链接

这是程序的输出：

几秒钟就搞定了。在几秒钟内实现一整款 2D 马里奥游戏，这本身就非常困难，这真是一项了不起的成就。

不仅如此，看看它的UI和整体氛围有多漂亮。对于想用原生JS开发2D马力欧游戏的人来说，这应该是一个不错的起点。

Gemini 2.5 Pro 的回应

您可以在此处找到它生成的代码：链接

这是程序的输出：

我必须得说，它功能齐全，而且相当不错。但它有点太简陋了，而且也有点 bug。

如果您看到右上角的计时器正在运行，那么它就没有正常工作（我对这个游戏不太熟悉，也许这就是它的工作原理），但无论如何，这感觉不像是一个被认为是好的模型的良好输出。

OpenAI o3 的回应

您可以在此处找到它生成的代码：链接

这是程序的输出：

o3 在这个问题上真的没起到什么作用。正如你所见，它看起来就像个原型，甚至连个能玩的游戏都算不上。这完全是胡扯，根本就不是真正的马里奥游戏。它漏洞百出，而且游戏根本没法结束。

这个模型的结果再次令人失望！

3.俄罗斯方块游戏

提示：
你可以在这里找到我使用的提示：链接

Claude Opus 4 的回复

您可以在此处找到它生成的代码：链接

这是程序的输出：

正如你所见，我们很快就用原生 HTML/CSS/JS 实现了一个完美实现的俄罗斯方块游戏，我甚至忘了跟踪它。它完成得真快。

它确实实现了我要求的所有功能，包括幽灵乐曲和本地存储的高分持久化等可选功能。你可能没注意到，它还实现了背景主题音乐和接下来的三首乐曲。

说实话，如果您独自编写这段代码，没有任何 AI 模型，那么需要花多长时间？

Gemini 2.5 Pro 的回应

您可以在此处找到它生成的代码：链接

这是程序的输出：

这款同样出色，运行起来和 Claude Opus 4 一样完美；就连用户界面和所有功能都看起来很棒。我很高兴它能很好地解决这个问题。

OpenAI o3 的回应

您可以在此处找到它生成的代码：链接

这是程序的输出：

这个很有意思。从方块掉落到其他一切似乎都运行正常，但游戏却无法结束。一旦方块到达顶部，游戏就应该结束，但游戏并没有结束，而是永远卡住了。

这个问题其实可以在后续的提示中轻松解决，但这个问题本身就很简单，所以我决定一次性解决。虽然问题不大，但还是算了。

4. 国际象棋游戏

提示：
你可以在这里找到我使用的提示：链接

Claude Opus 4 的回复

您可以在此处找到它生成的代码：链接

这是程序的输出：

这简直太神奇了！它从零开始实现了一整套国际象棋游戏，没有任何库支持。我原本以为它会用 Chess.js 之类的外部库，结果它居然做到了，一个功能齐全的国际象棋游戏，虽然它缺少一些像“吃过路兵”之类的走法和其他一些特定走法。

除了特定棋子走法外，所有走法都完美地记录在走法记录中。这简直太疯狂了！

Gemini 2.5 Pro 的回应

您可以在此处找到它生成的代码：链接

这是程序的输出：

Gemini 2.5 Pro 还决定从头开始实现一切，并且还尝试实现“吃过路兵”等其他动作，而不仅仅是特定棋子的动作。

游戏总体看起来还不错，但国际象棋的灵魂缺失了。棋子就那样摆在那里，根本动不了。这感觉像是一个小问题，可以在后续提示中轻松修复，但实际上并没有。

您可以从此处的后续提示中找到其更新的代码：链接

OpenAI o3 的回应

您可以在此处找到它生成的代码：链接

这是程序的输出：

OpenAI o3 采取了更为稳健的方法，并决定使用 Chess.js，如果我想构建生产级的国际象棋游戏，我会更喜欢它，但其实现并不十分合适。

看起来外部 Chess.js 导入不起作用并且失败了，因为它试图使用 Chess 对象，即undefined。

结论

这里有明显的赢家吗？有，绝对是，那就是克劳德·奥普斯4。

亚马逊资助的 Anthropic 正在用这些 Claude 模型创造一些真正的奇迹，首先是我之前最喜欢的 Claude 3.7 Sonnet，现在是两款野兽（Claude Sonnet 4 和 Claude Opus 4）。

Claude Opus 4 比其他两个模型要好得多，尽管它的 token 上下文窗口比其他两个模型要低得多。在如此低的上下文窗口下，编码能力如此出色，是我在人工智能热潮中见过的最棒的事情。

关注【索引目录】服务号，更多精彩内容等你来探索！

【声明】内容源于网络

索引目录

索引目录是一家专注于医疗、技术开发、物联网应用等领域的创新型公司。我们致力于为客户提供高质量的服务和解决方案，推动技术与行业发展。

内容 444

粉丝 0

索引目录索引目录是一家专注于医疗、技术开发、物联网应用等领域的创新型公司。我们致力于为客户提供高质量的服务和解决方案，推动技术与行业发展。

总阅读12

粉丝0

内容444