谷歌刚刚于 3 月 26 日推出了一个新模型,他们声称该模型在编码、推理和总体所有方面都是最好的。 但我最关心的是该模型与目前最好的模型 Claude 3.7 Sonnet 的比较情况,而 Claude 3.7 Sonnet 本身于 2 月底发布。
让我们在编码中比较这两个模型,看看我是否需要更改我最喜欢的编码模型,或者 Claude 3.7 是否仍然成立。
总结
如果您想直接得出结论,与这些编码方面最优秀的模型相比,根据我们的测试和模型基准,我建议您选择Gemini 2.5 Pro。然而,Claude 3.7 Sonnet 也差不了多少。
就在上一篇文章中,Claude 3.7 Sonnet 是所有型号比较的答案,我以为这种情况会持续相当长一段时间。但现在,Gemini 2.5 Pro 领先。感觉我们已经正式进入了人工智能时代。
Gemini 2.5 Pro 简介
Gemini 2.5 Pro 目前是一款实验性思维车型,发布后不到一周就成为热议话题。Twitter (X) 和 YouTube 上每个人都在谈论这款车型。它到处都是热门话题,真的,到处都是。
就这样,它就成为了LMArena 中的第一名。但是,这意味着什么呢?这意味着这个模型不仅在编码方面,而且在数学、科学、图像理解等方面都击败了所有其他模型。
Gemini 2.5 pro 配备了100 万个 token 上下文窗口,200 万个上下文窗口即将推出。
您可以查看其他人(例如Theo-t3)对此模型的讨论,以对其有更多的了解:
据称它是迄今为止编码最好的模型,在 SWE-bench 上的准确率约为63.8%,这肯定高于我们之前的顶级编码模型 Claude 3.7 Sonnet,准确率约为 62.3%。
这是 Google 分享的关于构建恐龙游戏的模型的一个快速演示。
以下是该模型在推理、数学和科学方面的快速基准测试。这证实了该模型不仅适用于编码,还适用于您的所有其他需求。我想说他们声称它是一个全能型的。 ♂️
这一切都很酷,我会证实这一说法,但在本文中,我将主要比较编码模型,让我们看看它与 Claude 3.7 Sonnet 相比的表现如何。
编码问题
让我们在编码方面比较一下这两个模型。我们将总共进行 4 项测试,主要针对 WebDev、动画和一道棘手的 LeetCode 问题。
1.飞行模拟器
提示:使用 JavaScript 创建一个简单的飞行模拟器。该模拟器应具有一架可以从平坦跑道起飞的基本飞机。飞机的移动应通过简单的键盘输入(例如箭头键或 WASD)进行控制。此外,使用块状结构生成类似于 Minecraft 的基本城市景观。
Gemini 2.5 Pro 的回应
您可以在此处找到它生成的代码:链接
这是该程序的输出:
我完全得到了我想要的东西,一切都正常运转,从飞机运动到基本的 Minecraft 风格的积木建筑。我真的没什么可抱怨的。这个 10/10。
克劳德的回应 3.7 十四行诗
您可以在此处找到它生成的代码:链接
这是该程序的输出:
我发现这架飞机有些问题。飞机明显是侧向的,我不知道为什么会这样。同样,飞机起飞后完全失控,飞出了城外。基本上,我想说我们在这里并没有真正得到一个完全正常工作的飞行模拟器。
概括:
公平地说,Gemini 2.5 确实解决了这个问题,而且是一次性解决的。但 Claude 3.7 Sonnet 代码的问题其实并不大,但是,我们并没有真正得到预期的输出,而且绝对没有接近 Gemini 2.5 Pro 的结果。
2. 魔方解算器
这是法学硕士最难的题目之一。我曾和许多其他法学硕士一起尝试过,但他们都没有答对。让我们看看这两个模型是如何做到这一点的。
提示:使用 Three.js 在 JavaScript 中构建一个简单的 3D 魔方可视化器和解算器。魔方应构建一个具有标准颜色的 3x3 魔方。有一个随机打乱魔方的打乱按钮。包括一个逐步呈现解决方案的解算函数。允许使用基本鼠标控制来旋转视图。
Gemini 2.5 Pro 的回应
您可以在此处找到它生成的代码:链接
这是该程序的输出:
它能一次性完成如此困难的事情,真是令人印象深刻。我真的能看出这个模型在 100 万个 token 上下文窗口下有多么强大。
克劳德的回应 3.7 十四行诗
您可以在此处找到它生成的代码:链接
这是该程序的输出:
再次,有点失望的是,它确实陷入了与其他 LLM 相同的问题,颜色不合格,完全无法解决立方体。我确实尝试帮助它找到答案,但并没有真正帮助。
概括:
Gemini 2.5 Pro 再次领先。最棒的是,这一切都是一次性完成的。Claude 3.7 确实令人失望,因为它无法正确完成这一点,尽管它是目前最好的编码模型之一。
3. 球在旋转的 4D 立方体内弹跳
提示:创建一个简单的 JavaScript 脚本,以可视化方式呈现球在旋转的 4D 立方体内弹跳的情形。当球与某一侧发生碰撞时,突出显示该侧以指示撞击。
Gemini 2.5 Pro 的回应
您可以在此处找到它生成的代码:链接
这是该程序的输出:
我没有注意到输出中存在任何问题。球和碰撞物理都运行完美,甚至我要求它突出显示碰撞侧的部分也运行正常。这个免费模型似乎对编码来说太疯狂了。
克劳德的回应 3.7 十四行诗
您可以在此处找到它生成的代码:链接
这是该程序的输出:
哇,Claude 3.7 Sonnet 终于答对了。它还为每一面添加了颜色,但是谁要求的呢? ♂️ 尽管如此,这里真的没什么可抱怨的,因为主要功能似乎运行良好。
概括:
这次答案很明显。两种型号都得到了正确的答案,实现了我要求的一切。我不会说我更喜欢 Claude 3.7 Sonnet 的输出,但与 Gemini 2.5 Pro 相比,它确实付出了不少努力。
4. LeetCode 问题
对于这个问题,让我们用 LeetCode 快速检查一下,看看这些模型如何解决一个棘手的 LeetCode 问题(接受率仅为 14.9%):放置 3 个车来求最大值。
Claude 3.7 Sonnet 以擅长解决 LC 问题而闻名。如果你想看看Claude 3.7与Grok 3和o3-mini-high等顶级模型的比较,请查看此博客文章:
Prompt:
You are given a m x n 2D array board representing a chessboard, where board[i][j] represents the value of the cell (i, j).
Rooks in the same row or column attack each other. You need to place three rooks on the chessboard such that the rooks do not attack each other.
Return the maximum sum of the cell values on which the rooks are placed.
Example 1:
Input: board = [[-3,1,1,1],[-3,1,-3,1],[-3,2,1,1]]
Output: 4
Explanation:
We can place the rooks in the cells (0, 2), (1, 3), and (2, 1) for a sum of 1 + 1 + 2 = 4.
Example 2:
Input: board = [[1,2,3],[4,5,6],[7,8,9]]
Output: 15
Explanation:
We can place the rooks in the cells (0, 0), (1, 1), and (2, 2) for a sum of 1 + 5 + 9 = 15.
Example 3:
Input: board = [[1,1,1],[1,1,1],[1,1,1]]
Output: 3
Explanation:
We can place the rooks in the cells (0, 2), (1, 1), and (2, 0) for a sum of 1 + 1 + 1 = 3.
Constraints:
3 <= m == board.length <= 100
3 <= n == board[i].length <= 100
-109 <= board[i][j] <= 109
Gemini 2.5 Pro 的回应
我对这个模型寄予厚望,因为它能够轻松回答我们测试的所有三个编码问题。
您可以在此处找到它生成的代码:链接
不过,回答这个问题确实花了不少时间,而且它写的代码有点太复杂了,很难理解。我认为它回答的比要求的要复杂。但我们主要想看的是它是否能正确回答。
正如预期的那样,它也一次性解决了这道棘手的 LeetCode 问题。这是我在学习 DSA 时遇到的问题之一。我不知道我是否对它一次性答对感到高兴。
克劳德的回应 3.7 十四行诗
我希望这个模型能够击败这个模型,因为在我做过的所有其他编码测试中,Claude 3.7 Sonnet 都正确回答了所有 LeetCode 问题。
您可以在此处找到它生成的代码:链接
它确实编写了正确的代码但却得到了 TLE,但如果我必须比较代码的简单性,我会说这个模型的代码更简单且易于理解。
概括:
Gemini 2.5 确实得到了正确的答案,并且也在预期的时间复杂度内写出了代码,但 Claude 3.7 Sonnet 确实陷入了 TLE。如果一定要比较代码的简单性,Claude 3.7 生成的代码似乎更好一些。
结论
对我来说,Gemini 2.5 Pro 是赢家。我们比较了两个据称在编码方面表现最好的模型。我在模型统计数据中看到的最大区别只是 Gemini 2.5 Pro 的上下文窗口略高,但别忘了这是一个实验模型,改进仍在进行中。
想象一下,在2M 令牌上下文窗口之后,这个模型会有多好?
谷歌最近推出了许多此类坚固型号,之前推出的是 Gemma 3 27B 型号,这是一款具有令人难以置信的效果的超轻量级型号,现在又推出了这款野兽级型号 Gemini 2.5 Pro。

