关注【索引目录】服务号,更多精彩内容等你来探索!
OpenAI 刚刚发布了GPT-5 。它建立在GPT和O 系列推理模型之上,旨在更快、更智能、更高效。我将 GPT-5 与 Anthropic 的 Claude Opus 4.1 进行了对比,看看哪一个对实际开发工作更有帮助。
本次比较生成的所有代码都可以在这里找到:github.com/rohittcodes/gpt-5-vs-opus-4-1。
TL;DR
没时间?以下是具体情况:
- 算法:
GPT-5 在速度和代币数量上胜出(8K vs 79K) - Web 开发:
Opus 4.1 与 Figma 设计更加匹配(900K 对比 140 万+ 个令牌) - 总体而言:
GPT-5 是更好的日常开发伙伴(速度快 + 价格便宜)。如果设计保真度很重要,并且预算灵活,那么 Opus 4.1 会是最佳选择。 - 成本:
GPT-5(思考版)约 3.50 美元 vs Opus 4.1(思考版,Max 版)7.58 美元(约 2.3 倍)
介绍
Claude Opus 4.1 带有一个 20 万个 token 的上下文窗口。GPT-5 将其提升至 40 万个 token,最大输出为 12.8 万个 token。尽管上下文空间增加了一倍,但 GPT-5 在完成相同工作时始终使用更少的 token,从而降低了运行成本。
SWE-bench 测试结果显示,GPT-5 在编码基准测试中略微领先于 Opus 4.1,但基准测试并不能说明全部情况。因此,我在实际任务上对它们进行了测试。
我如何测试这些模型
我对这两个模型进行了相同的挑战:
- 语言:
用于算法的 Java,用于构建 Web 应用程序的 TypeScript/React - 任务:
通过 Figma MCP 和 LeetCode 问题进行 Figma 设计克隆 - 环境:
集成 Rube MCP 的 Cursor IDE - 衡量指标:
代币使用情况、所用时间、代码质量、实际结果
为了保证公平,两者都得到了完全相同的提示。
Rube MCP - 通用 MCP 服务器
Rube MCP(由 Composio 开发)是 Figma、Jira、GitHub、Linear 等 MCP 工具包的通用连接层。探索工具包:docs.composio.dev/toolkits/introduction。
如何连接:
-
转到rube.composio.dev。 -
点击“添加到光标” -
出现提示时安装 MCP 服务器并启用它
编码比较
1)第一轮:Figma 设计克隆
我从 Figma 社区挑选了一个复杂的仪表板设计,并要求两个模型使用 Next.js 和 TypeScript 重新创建它。Figma 设计:链接
迅速的:
Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use Rube MCP's Figma toolkit for this task.
Try to make it as close as possible. Use Next.js with TypeScript. Include:
- Responsive design
- Proper component structure
- Styled-components or CSS modules
- Interactive elements
GPT-5 结果
GPT-5 使用 906,485 个 token,在大约 10 分钟内交付了一个可以运行的 Next.js 应用。该应用运行良好,但视觉准确性令人失望。它抓住了基本思路,但忽略了大量设计细节,例如颜色、间距、排版等,这些都与原版有明显的差异。
- 代币:
906,485 - 时间:
约10分钟 - 成本:
产出合理
Claude Opus 4.1 结果
Opus 4.1 消耗了超过 140 万个 token(比 GPT-5 多 55%),尽管我明确要求使用 styled-components,但最初还是卡在了 Tailwind 配置上。手动修复配置问题后,结果令人惊艳;UI 几乎完美匹配 Figma 设计。视觉保真度远超 GPT-5。
- 代币:
1,400,000+(比 GPT-5 多约 55%) - 时间:
由于迭代次数较多,因此时间更长
Opus 4.1 提供了更好的视觉保真度,但代币成本更高,并且需要一些手动设置。
2)算法挑战
我在两个模型上都布置了经典的 LeetCode 难题“两个排序数组的中位数”。这道题考察数学推理和优化能力,并有一定的O(log(m+n))复杂性要求。
迅速的:
For the below problem description and the example test cases try to solve the problem in Java. Focus on edge cases as well as time complexity:
Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).
Example 1:
Input: nums1 = [1,3], nums2 = [2]
Output: 2.00000
Example 2:
Input: nums1 = [1,2], nums2 = [3,4]
Output: 2.50000
Template Code:
class Solution {
public double findMedianSortedArrays(int[] nums1, int[] nums2) {
}
}
GPT-5 结果
直奔主题。13 秒内使用了 8,253 个 token,并提供了一个简洁的O(log(min(m,n)))二分查找解决方案。边缘情况处理得当,时间复杂度最优。完美运行。
- 代币:
8,253 - 时间:
~13秒
Claude Opus 4.1 结果
更加彻底。在多个推理步骤中消耗了 78,920 个 token(几乎是 GPT-5 的 10 倍)。采用了系统的方法,包含详细的解释、全面的注释和内置的测试用例。同样的算法,但教育价值更高。
- 令牌:
78,920(约 10 倍以上,跨越多个推理步骤) - 时间:
~34秒
两者都以最佳方式解决了这个问题。GPT-5 使用的令牌减少了约 90%。
机器学习/推理任务(以及成本现实)
我计划围绕机器学习和推理进行第三次更大规模的测试:构建一个端到端的客户流失预测流程。在看到 Opus 4.1 在网页端使用了超过 140 万个令牌后,由于成本原因,我放弃了在网页端运行它。但我运行了 GPT-5。
迅速的
Build a complete ML pipeline for predicting customer churn, including:
1. Data preprocessing and cleaning
2. Feature engineering
3. Model selection and training
4. Evaluation and metrics
5. Explain the reasoning behind each step in detail
GPT-5 结果
- 代币:
约 86,850 - 时间:
约4-5分钟
GPT-5 构建了一套可靠且有效的流程:清晰的预处理、合理的特征工程;多种模型(逻辑回归、随机森林、可选的 XGBoost 和随机搜索);用于类别平衡的 SMOTE、通过 ROC-AUC 选择最佳模型,以及全面的评估(准确率、精确率、召回率、F1)。解释清晰明了,却不冗长。
测试费用是多少(实际数字)
-
GPT-5(思维):总计约 3.50 美元 - Web 应用约 2.58 美元,算法约 0.03 美元,机器学习约 0.88 美元。与 Opus-4.1 相比,价格不算贵。 -
Opus 4.1(思考+光标上的最大模式):总计 7.58 美元 - Web 应用程序约 7.15 美元,算法约 0.43 美元。
结论
两种模型都很好地利用了大型上下文窗口,但它们花费的令牌不同,因此成本差距很大。
GPT-5 的优势
-
算法任务上的 token 减少约 90% -
更快捷、更实用的日常工作 -
对于大多数工作来说,成本效益高
Opus 4.1 的优势
-
清晰、循序渐进的解释 -
非常适合在编码时学习 -
出色的设计保真度(非常接近 Figma) -
在经济条件允许的情况下进行深入分析
我的看法?使用 GPT-5 进行算法、原型设计和大多数日常工作;它更快、更便宜。当视觉准确性至关重要(面向客户端的 UI、营销页面)时,请选择 Opus 4.1,这样您就可以预算更多代币。实际流程:使用 GPT-5 构建核心,然后使用 Opus 4.1 完善关键屏幕。
关注【索引目录】服务号,更多精彩内容等你来探索!

