Gemini 3 发布后， Anthropic如期发布 Claude Opus 4.5，多项基准测试数据公开

NA AI Studio

2025-11-25

导读：Anthropic 发布 Claude Opus 4.5，多项基准测试数据公开 Anthropic

Anthropic 发布 Claude Opus 4.5，多项基准测试数据公开

Anthropic 今日正式发布 Claude Opus 4.5。官方表示，目前该模型正在进行内部评估，计划在未来一周内向自助用户（Self-serve users）逐步推出。模型特点与交互变化根据早期观察，Opus 4.5 在交互模式上接近 GPT-5.1 风格的“思考（Thinking）”模型：

展示出更强的推理能力。

在同类任务中提高了工具调用的效率。

由于采用“推理优先”策略，在处理简单任务时速度可能较非推理模型（如 Sonnet 4.5）稍慢。

基准测试数据对比根据公布的测试图表，Claude Opus 4.5 与 Gemini 3 Pro、GPT-5.1 在不同领域的得分情况如下：

代理编程 (Agentic coding - SWE-bench Verified):

Opus 4.5 得分 80.9%。对比数据：GPT-5.1 为 76.3%，Gemini 3 Pro 为 76.2%。

新颖问题解决 (Novel problem solving - ARC-AGI-2):

Opus 4.5 得分 37.6%。对比数据：Gemini 3 Pro 为 31.1%，GPT-5.1 为 17.6%。

计算机使用 (Computer use - OSWorld):

Opus 4.5 得分 66.3%。对比数据：Sonnet 4.5 为 61.4%，Opus 4.1 为 44.4%。

研究生水平推理 (Graduate-level reasoning - GPQA Diamond):

Gemini 3 Pro 得分 91.9% 最高。对比数据：GPT-5.1 为 88.1%，Opus 4.5 为 87.0%。

多语言问答 (Multilingual Q&A - MMMLU):

Gemini 3 Pro 得分 91.8% 最高。对比数据：GPT-5.1 为 91.0%，Opus 4.5 为 90.8%

【声明】内容源于网络

NA AI Studio

我们是您的人工智能前沿观察站。在这里，我们致力于分享最新、最深度的AI技术解读、产业洞见与应用实例。无论您是技术开发者、产品经理，还是对AI充满好奇的探索者，NA AI Studio都将为您提供最有价值的参考。

内容 113

粉丝 0

NA AI Studio 我们是您的人工智能前沿观察站。在这里，我们致力于分享最新、最深度的AI技术解读、产业洞见与应用实例。无论您是技术开发者、产品经理，还是对AI充满好奇的探索者，NA AI Studio都将为您提供最有价值的参考。

总阅读45

粉丝0

内容113