大数跨境

OpenAI GPT-5 与 Claude Opus 4.1:编码比较

OpenAI GPT-5 与 Claude Opus 4.1:编码比较 索引目录
2025-09-05
2
导读:关注【索引目录】服务号,更多精彩内容等你来探索!OpenAI 刚刚发布了GPT-5 。

关注【索引目录】服务号,更多精彩内容等你来探索!

OpenAI 刚刚发布了GPT-5 。它建立在GPTO 系列推理模型之上,旨在更快、更智能、更高效。我将 GPT-5 与 Anthropic 的 Claude Opus 4.1 进行了对比,看看哪一个对实际开发工作更有帮助。

本次比较生成的所有代码都可以在这里找到:github.com/rohittcodes/gpt-5-vs-opus-4-1

TL;DR

时间?以下是具体情况:

  • 算法:
     GPT-5 在速度和代币数量上胜出(8K vs 79K)
  • Web 开发:
     Opus 4.1 与 Figma 设计更加匹配(900K 对比 140 万+ 个令牌)
  • 总体而言:
     GPT-5 是更好的日常开发伙伴(速度快 + 价格便宜)。如果设计保真度很重要,并且预算灵活,那么 Opus 4.1 会是最佳选择。
  • 成本:
     GPT-5(思考版)约 3.50 美元 vs Opus 4.1(思考版,Max 版)7.58 美元(约 2.3 倍)

介绍

Claude Opus 4.1 带有一个 20 万个 token 的上下文窗口。GPT-5 将其提升至 40 万个 token,最大输出为 12.8 万个 token。尽管上下文空间增加了一倍,但 GPT-5 在完成相同工作时始终使用更少的 token,从而降低了运行成本。

SWE-bench 测试结果显示,GPT-5 在编码基准测试中略微领先于 Opus 4.1,但基准测试并不能说明全部情况。因此,我在实际任务上对它们进行了测试。



我如何测试这些模型

我对这两个模型进行了相同的挑战:

  • 语言:
    用于算法的 Java,用于构建 Web 应用程序的 TypeScript/React
  • 任务:
    通过 Figma MCP 和 LeetCode 问题进行 Figma 设计克隆
  • 环境:
    集成 Rube MCP 的 Cursor IDE
  • 衡量指标:
    代币使用情况、所用时间、代码质量、实际结果

为了保证公平,两者都得到了完全相同的提示。

Rube MCP - 通用 MCP 服务器

Rube MCP(由 Composio 开发)是 Figma、Jira、GitHub、Linear 等 MCP 工具包的通用连接层。探索工具包:docs.composio.dev/toolkits/introduction

如何连接:

  1. 转到rube.composio.dev
  2. 点击“添加到光标”
  3. 出现提示时安装 MCP 服务器并启用它




编码比较

1)第一轮:Figma 设计克隆

我从 Figma 社区挑选了一个复杂的仪表板设计,并要求两个模型使用 Next.js 和 TypeScript 重新创建它。Figma 设计:链接



迅速的:

Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use Rube MCP's Figma toolkit for this task.
Try to make it as close as possible. Use Next.js with TypeScript. Include:
- Responsive design
- Proper component structure
- Styled-components or CSS modules
- Interactive elements

GPT-5 结果

GPT-5 使用 906,485 个 token,在大约 10 分钟内交付了一个可以运行的 Next.js 应用。该应用运行良好,但视觉准确性令人失望。它抓住了基本思路,但忽略了大量设计细节,例如颜色、间距、排版等,这些都与原版有明显的差异。

  • 代币:
     906,485
  • 时间:
    约10分钟
  • 成本:
    产出合理



Claude Opus 4.1 结果

Opus 4.1 消耗了超过 140 万个 token(比 GPT-5 多 55%),尽管我明确要求使用 styled-components,但最初还是卡在了 Tailwind 配置上。手动修复配置问题后,结果令人惊艳;UI 几乎完美匹配 Figma 设计。视觉保真度远超 GPT-5。

  • 代币:
     1,400,000+(比 GPT-5 多约 55%)
  • 时间:
    由于迭代次数较多,因此时间更长



Opus 4.1 提供了更好的视觉保真度,但代币成本更高,并且需要一些手动设置。

2)算法挑战

我在两个模型上都布置了经典的 LeetCode 难题“两个排序数组的中位数”。这道题考察数学推理和优化能力,并有一定的O(log(m+n))复杂性要求。

迅速的:

For the below problem description and the example test cases try to solve the problem in Java. Focus on edge cases as well as time complexity:

Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).

Example 1:
Input: nums1 = [1,3], nums2 = [2]
Output: 2.00000

Example 2:
Input: nums1 = [1,2], nums2 = [3,4]
Output: 2.50000

Template Code:
class Solution {
    public double findMedianSortedArrays(int[] nums1, int[] nums2) {

    }
}



GPT-5 结果

直奔主题。13 秒内使用了 8,253 个 token,并提供了一个简洁的O(log(min(m,n)))二分查找解决方案。边缘情况处理得当,时间复杂度最优。完美运行。

  • 代币:
     8,253
  • 时间:
     ~13秒

Claude Opus 4.1 结果

更加彻底。在多个推理步骤中消耗了 78,920 个 token(几乎是 GPT-5 的 10 倍)。采用了系统的方法,包含详细的解释、全面的注释和内置的测试用例。同样的算法,但教育价值更高。

  • 令牌:
     78,920(约 10 倍以上,跨越多个推理步骤)
  • 时间:
     ~34秒



两者都以最佳方式解决了这个问题。GPT-5 使用的令牌减少了约 90%。

机器学习/推理任务(以及成本现实)

我计划围绕机器学习和推理进行第三次更大规模的测试:构建一个端到端的客户流失预测流程。在看到 Opus 4.1 在网页端使用了超过 140 万个令牌后,由于成本原因,我放弃了在网页端运行它。但我运行了 GPT-5。

迅速的

Build a complete ML pipeline for predicting customer churn, including:
1. Data preprocessing and cleaning
2. Feature engineering
3. Model selection and training
4. Evaluation and metrics
5. Explain the reasoning behind each step in detail

GPT-5 结果

  • 代币:
    约 86,850
  • 时间:
    约4-5分钟

GPT-5 构建了一套可靠且有效的流程:清晰的预处理、合理的特征工程;多种模型(逻辑回归、随机森林、可选的 XGBoost 和随机搜索);用于类别平衡的 SMOTE、通过 ROC-AUC 选择最佳模型,以及全面的评估(准确率、精确率、召回率、F1)。解释清晰明了,却不冗长。

测试费用是多少(实际数字)

  • GPT-5(思维):总计约 3.50 美元 - Web 应用约 2.58 美元,算法约 0.03 美元,机器学习约 0.88 美元。与 Opus-4.1 相比,价格不算贵。
  • Opus 4.1(思考+光标上的最大模式):总计 7.58 美元 - Web 应用程序约 7.15 美元,算法约 0.43 美元。



结论

两种模型都很好地利用了大型上下文窗口,但它们花费的令牌不同,因此成本差距很大。

GPT-5 的优势

  • 算法任务上的 token 减少约 90%
  • 更快捷、更实用的日常工作
  • 对于大多数工作来说,成本效益高

Opus 4.1 的优势

  • 清晰、循序渐进的解释
  • 非常适合在编码时学习
  • 出色的设计保真度(非常接近 Figma)
  • 在经济条件允许的情况下进行深入分析

我的看法?使用 GPT-5 进行算法、原型设计和大多数日常工作;它更快、更便宜。当视觉准确性至关重要(面向客户端的 UI、营销页面)时,请选择 Opus 4.1,这样您就可以预算更多代币。实际流程:使用 GPT-5 构建核心,然后使用 Opus 4.1 完善关键屏幕。


关注【索引目录】服务号,更多精彩内容等你来探索!


【声明】内容源于网络
0
0
索引目录
索引目录是一家专注于医疗、技术开发、物联网应用等领域的创新型公司。我们致力于为客户提供高质量的服务和解决方案,推动技术与行业发展。
内容 444
粉丝 0
索引目录 索引目录是一家专注于医疗、技术开发、物联网应用等领域的创新型公司。我们致力于为客户提供高质量的服务和解决方案,推动技术与行业发展。
总阅读12
粉丝0
内容444