OpenAI GPT-5 与 Claude Opus 4.1：编码比较- 大数跨境

索引目录

2025-09-05

导读：关注【索引目录】服务号，更多精彩内容等你来探索！OpenAI 刚刚发布了GPT-5 。

关注【索引目录】服务号，更多精彩内容等你来探索！

OpenAI 刚刚发布了GPT-5 。它建立在GPT和O 系列推理模型之上，旨在更快、更智能、更高效。我将 GPT-5 与 Anthropic 的 Claude Opus 4.1 进行了对比，看看哪一个对实际开发工作更有帮助。

本次比较生成的所有代码都可以在这里找到：github.com/rohittcodes/gpt-5-vs-opus-4-1。

TL;DR

没时间？以下是具体情况：

算法：
GPT-5 在速度和代币数量上胜出（8K vs 79K）
Web 开发：
Opus 4.1 与 Figma 设计更加匹配（900K 对比 140 万+ 个令牌）
总体而言：
GPT-5 是更好的日常开发伙伴（速度快 + 价格便宜）。如果设计保真度很重要，并且预算灵活，那么 Opus 4.1 会是最佳选择。
成本：
GPT-5（思考版）约 3.50 美元 vs Opus 4.1（思考版，Max 版）7.58 美元（约 2.3 倍）

介绍

Claude Opus 4.1 带有一个 20 万个 token 的上下文窗口。GPT-5 将其提升至 40 万个 token，最大输出为 12.8 万个 token。尽管上下文空间增加了一倍，但 GPT-5 在完成相同工作时始终使用更少的 token，从而降低了运行成本。

SWE-bench 测试结果显示，GPT-5 在编码基准测试中略微领先于 Opus 4.1，但基准测试并不能说明全部情况。因此，我在实际任务上对它们进行了测试。

我如何测试这些模型

我对这两个模型进行了相同的挑战：

语言：
用于算法的 Java，用于构建 Web 应用程序的 TypeScript/React
任务：
通过 Figma MCP 和 LeetCode 问题进行 Figma 设计克隆
环境：
集成 Rube MCP 的 Cursor IDE
衡量指标：
代币使用情况、所用时间、代码质量、实际结果

为了保证公平，两者都得到了完全相同的提示。

Rube MCP - 通用 MCP 服务器

Rube MCP（由 Composio 开发）是 Figma、Jira、GitHub、Linear 等 MCP 工具包的通用连接层。探索工具包：docs.composio.dev/toolkits/introduction。

如何连接：

转到rube.composio.dev。
点击“添加到光标”
出现提示时安装 MCP 服务器并启用它

编码比较

1）第一轮：Figma 设计克隆

我从 Figma 社区挑选了一个复杂的仪表板设计，并要求两个模型使用 Next.js 和 TypeScript 重新创建它。Figma 设计：链接

迅速的：

Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use Rube MCP's Figma toolkit for this task.
Try to make it as close as possible. Use Next.js with TypeScript. Include:
- Responsive design
- Proper component structure
- Styled-components or CSS modules
- Interactive elements

GPT-5 结果

GPT-5 使用 906,485 个 token，在大约 10 分钟内交付了一个可以运行的 Next.js 应用。该应用运行良好，但视觉准确性令人失望。它抓住了基本思路，但忽略了大量设计细节，例如颜色、间距、排版等，这些都与原版有明显的差异。

代币：
906,485
时间：
约10分钟
成本：
产出合理

Claude Opus 4.1 结果

Opus 4.1 消耗了超过 140 万个 token（比 GPT-5 多 55%），尽管我明确要求使用 styled-components，但最初还是卡在了 Tailwind 配置上。手动修复配置问题后，结果令人惊艳；UI 几乎完美匹配 Figma 设计。视觉保真度远超 GPT-5。

代币：
1,400,000+（比 GPT-5 多约 55%）
时间：
由于迭代次数较多，因此时间更长

Opus 4.1 提供了更好的视觉保真度，但代币成本更高，并且需要一些手动设置。

2）算法挑战

我在两个模型上都布置了经典的 LeetCode 难题“两个排序数组的中位数”。这道题考察数学推理和优化能力，并有一定的O(log(m+n))复杂性要求。

迅速的：

For the below problem description and the example test cases try to solve the problem in Java. Focus on edge cases as well as time complexity:

Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).

Example 1:
Input: nums1 = [1,3], nums2 = [2]
Output: 2.00000

Example 2:
Input: nums1 = [1,2], nums2 = [3,4]
Output: 2.50000

Template Code:
class Solution {
    public double findMedianSortedArrays(int[] nums1, int[] nums2) {

    }
}

GPT-5 结果

直奔主题。13 秒内使用了 8,253 个 token，并提供了一个简洁的O(log(min(m,n)))二分查找解决方案。边缘情况处理得当，时间复杂度最优。完美运行。

代币：
8,253
时间：
~13秒

Claude Opus 4.1 结果

更加彻底。在多个推理步骤中消耗了 78,920 个 token（几乎是 GPT-5 的 10 倍）。采用了系统的方法，包含详细的解释、全面的注释和内置的测试用例。同样的算法，但教育价值更高。

令牌：
78,920（约 10 倍以上，跨越多个推理步骤）
时间：
~34秒

两者都以最佳方式解决了这个问题。GPT-5 使用的令牌减少了约 90%。

机器学习/推理任务（以及成本现实）

我计划围绕机器学习和推理进行第三次更大规模的测试：构建一个端到端的客户流失预测流程。在看到 Opus 4.1 在网页端使用了超过 140 万个令牌后，由于成本原因，我放弃了在网页端运行它。但我运行了 GPT-5。

迅速的

Build a complete ML pipeline for predicting customer churn, including:
1. Data preprocessing and cleaning
2. Feature engineering
3. Model selection and training
4. Evaluation and metrics
5. Explain the reasoning behind each step in detail

GPT-5 结果

代币：
约 86,850
时间：
约4-5分钟

GPT-5 构建了一套可靠且有效的流程：清晰的预处理、合理的特征工程；多种模型（逻辑回归、随机森林、可选的 XGBoost 和随机搜索）；用于类别平衡的 SMOTE、通过 ROC-AUC 选择最佳模型，以及全面的评估（准确率、精确率、召回率、F1）。解释清晰明了，却不冗长。

测试费用是多少（实际数字）

GPT-5（思维）：总计约 3.50 美元 - Web 应用约 2.58 美元，算法约 0.03 美元，机器学习约 0.88 美元。与 Opus-4.1 相比，价格不算贵。
Opus 4.1（思考+光标上的最大模式）：总计 7.58 美元 - Web 应用程序约 7.15 美元，算法约 0.43 美元。