关注【索引目录】服务号,更多精彩内容等你来探索!
Anthropic 刚刚推出了两款新的 AI 型号,Claude Opus 4 和 Claude Sonnet 4(Claude 3.7 Sonnet 的直接替代品),于 5 月 22 日上市。
这两种模型都有类似的 SWE 基准,因此在本博客中,我们将主要关注 Claude Opus 4。✌️
现在,这款新模型 Claude Opus 4 已经推出,让我们看看我们是否有一些很酷的东西,或者只是另一个普通的 AI 模型。
TL;DR
如果您想直接得出结论,当将 Claude Opus 4 与其他两个型号 Gemini 2.5 Pro 和 OpenAI o3 进行比较时,Opus 绝对占据主导地位,而且在编码方面也占据了相当大的优势,您可以在下面的比较中亲眼看到。
如果您正在寻找一个好的 AI 编码助手,也许适合您的编辑器或一般用途,那么 Claude Opus 4 是您的最佳选择(至少目前如此!)
克劳德作品4简介
如果您正在浏览此博客,则很可能是在浏览 Claude Opus 4 型号,因此,在我们继续之前,让我先简单介绍一下该型号。
这个模型发布还不到一周,他们就声称它是编程领域最好的AI模型。不仅如此,它还能自主工作一整天(七小时)。看起来已经很吓人了!!
它有大约20 万个 token 上下文窗口(可能和你预期的不一样,但事实就是如此),据说它是编码的最佳模型。它应该能证明这一点,但我们稍后会看到。
Claude Opus 4 在 SWE-bench 上领先,得分为 72.5%,通过并行测试时间计算最高可达到 79.4%。
正如您所见,与 Anthropic 之前的型号 Claude 3.7 Sonnet 相比,它已经有了10% 以上的改进。
这款 Claude 4 系列还标志着该模型使用黑客和捷径方法完成工作的可能性降低了 65% 。
现在,想象一下一个 AI 模型(这里指的是 Claude Opus 4)只需要几个提示,就能自动完成 PR、提交代码,以及所有你能想到的事情。那该有多酷啊,对吧?
就是这样。Claude 团队分享了 GitHub Actions 与 Claude Opus 4 的快速集成,您可以在其中看到模型在 PR 上进行更改并实时处理反馈。
你是不是觉得有点危险?从 GPT-3.5 到这个模型,这两三年里,这些 AI 模型的控制力提升得真快。
这真是太疯狂了,我不知道我是喜欢还是讨厌这种情况。
编码比较
您可能已经猜到了,在本节中,我们将比较 Claude Opus 4(SWE 72.5%)、Gemini 2.5 Pro(SWE 63.2%)和 OpenAI o3(69.1%)的编码。
这三个模型都是编程高手,所以我们不会用简单的题目来测试它们。我们会用非常难的题目,看看它们的表现如何。
这三个模型都是编程高手,所以我们不会用任何简单的问题来测试它们。我们会用非常难的问题,看看它们的表现如何。我还会考虑一点,那就是品味。
1.粒子变形
提示:你可以在这里找到我使用的提示:链接
Claude Opus 4 的回复
您可以在此处找到它生成的代码:链接
这是程序的输出:
这看起来棒极了,而且它竟然在思考了大约 100 秒(约 1.66 分钟)之后就能一次性完成,这对我来说更不可思议。粒子从一种形状变形到另一种形状的行为完全符合我的预期;它不是从一个点开始变形到另一个形状,而是直接从它所在的形状开始变形。
还有改进的空间,比如形状不是 100% 正确,但整体实施非常可靠!
Gemini 2.5 Pro 的回应
您可以在此处找到它生成的代码:链接
这是程序的输出:
这还不错,但绝对达不到 Claude Opus 4 的水平。形状看起来很差,完全不符合我的预期。鸟儿就是那样的吗?真的吗?整体用户界面也不太达标。
这绝对不是我所期望的,并且对这个模型有些失望,但我们将它(SWE 台面 63.2%)与 Claude Opus 4(SWE 台面 72.5%)进行比较,也许这就是原因。
我注意到,每次新模型发布后,之前最好的模型似乎都会被新模型所取代。AI 模型的改进速度真是快得惊人。
OpenAI o3 的回应
您可以在此处找到它生成的代码:链接
这是程序的输出:
o3 的响应甚至比 Gemini 2.5 Pro 还要差。说实话,我对这款机型的期望值有点高,但结果却如此。
我不知道您是否注意到,但粒子不会直接从其当前形状变形;相反,它们首先默认为球形,然后变形为所需的形状。
2. 2D马里奥游戏
提示:你可以在这里找到我使用的提示:链接
Claude Opus 4 的回复
您可以在此处找到它生成的代码:链接
这是程序的输出:
几秒钟就搞定了。在几秒钟内实现一整款 2D 马里奥游戏,这本身就非常困难,这真是一项了不起的成就。
不仅如此,看看它的UI和整体氛围有多漂亮。对于想用原生JS开发2D马力欧游戏的人来说,这应该是一个不错的起点。
Gemini 2.5 Pro 的回应
您可以在此处找到它生成的代码:链接
这是程序的输出:
我必须得说,它功能齐全,而且相当不错。但它有点太简陋了,而且也有点 bug。
如果您看到右上角的计时器正在运行,那么它就没有正常工作(我对这个游戏不太熟悉,也许这就是它的工作原理),但无论如何,这感觉不像是一个被认为是好的模型的良好输出。
OpenAI o3 的回应
您可以在此处找到它生成的代码:链接
这是程序的输出:
o3 在这个问题上真的没起到什么作用。正如你所见,它看起来就像个原型,甚至连个能玩的游戏都算不上。这完全是胡扯,根本就不是真正的马里奥游戏。它漏洞百出,而且游戏根本没法结束。
这个模型的结果再次令人失望!
3.俄罗斯方块游戏
提示:你可以在这里找到我使用的提示:链接
Claude Opus 4 的回复
您可以在此处找到它生成的代码:链接
这是程序的输出:
正如你所见,我们很快就用原生 HTML/CSS/JS 实现了一个完美实现的俄罗斯方块游戏,我甚至忘了跟踪它。它完成得真快。
它确实实现了我要求的所有功能,包括幽灵乐曲和本地存储的高分持久化等可选功能。你可能没注意到,它还实现了背景主题音乐和接下来的三首乐曲。
说实话,如果您独自编写这段代码,没有任何 AI 模型,那么需要花多长时间?
Gemini 2.5 Pro 的回应
您可以在此处找到它生成的代码:链接
这是程序的输出:
这款同样出色,运行起来和 Claude Opus 4 一样完美;就连用户界面和所有功能都看起来很棒。我很高兴它能很好地解决这个问题。
OpenAI o3 的回应
您可以在此处找到它生成的代码:链接
这是程序的输出:
这个很有意思。从方块掉落到其他一切似乎都运行正常,但游戏却无法结束。一旦方块到达顶部,游戏就应该结束,但游戏并没有结束,而是永远卡住了。
这个问题其实可以在后续的提示中轻松解决,但这个问题本身就很简单,所以我决定一次性解决。虽然问题不大,但还是算了。
4. 国际象棋游戏
提示:你可以在这里找到我使用的提示:链接
Claude Opus 4 的回复
您可以在此处找到它生成的代码:链接
这是程序的输出:
这简直太神奇了!它从零开始实现了一整套国际象棋游戏,没有任何库支持。我原本以为它会用 Chess.js 之类的外部库,结果它居然做到了,一个功能齐全的国际象棋游戏,虽然它缺少一些像“吃过路兵”之类的走法和其他一些特定走法。
除了特定棋子走法外,所有走法都完美地记录在走法记录中。这简直太疯狂了!
Gemini 2.5 Pro 的回应
您可以在此处找到它生成的代码:链接
这是程序的输出:
Gemini 2.5 Pro 还决定从头开始实现一切,并且还尝试实现“吃过路兵”等其他动作,而不仅仅是特定棋子的动作。
游戏总体看起来还不错,但国际象棋的灵魂缺失了。棋子就那样摆在那里,根本动不了。这感觉像是一个小问题,可以在后续提示中轻松修复,但实际上并没有。
您可以从此处的后续提示中找到其更新的代码:链接
OpenAI o3 的回应
您可以在此处找到它生成的代码:链接
这是程序的输出:
OpenAI o3 采取了更为稳健的方法,并决定使用 Chess.js,如果我想构建生产级的国际象棋游戏,我会更喜欢它,但其实现并不十分合适。
看起来外部 Chess.js 导入不起作用并且失败了,因为它试图使用 Chess 对象,即undefined。
结论
这里有明显的赢家吗?有,绝对是,那就是克劳德·奥普斯4。
亚马逊资助的 Anthropic 正在用这些 Claude 模型创造一些真正的奇迹,首先是我之前最喜欢的 Claude 3.7 Sonnet,现在是两款野兽(Claude Sonnet 4 和 Claude Opus 4)。
Claude Opus 4 比其他两个模型要好得多,尽管它的 token 上下文窗口比其他两个模型要低得多。在如此低的上下文窗口下,编码能力如此出色,是我在人工智能热潮中见过的最棒的事情。
关注【索引目录】服务号,更多精彩内容等你来探索!

