Anthropic 发布 Claude Opus 4.5,多项基准测试数据公开
Anthropic 今日正式发布 Claude Opus 4.5。 官方表示,目前该模型正在进行内部评估,计划在未来一周内向自助用户(Self-serve users)逐步推出。 模型特点与交互变化 根据早期观察,Opus 4.5 在交互模式上接近 GPT-5.1 风格的“思考(Thinking)”模型:
展示出更强的推理能力。
在同类任务中提高了工具调用的效率。
由于采用“推理优先”策略,在处理简单任务时速度可能较非推理模型(如 Sonnet 4.5)稍慢。
基准测试数据对比 根据公布的测试图表,Claude Opus 4.5 与 Gemini 3 Pro、GPT-5.1 在不同领域的得分情况如下:
代理编程 (Agentic coding - SWE-bench Verified):
Opus 4.5 得分 80.9%。对比数据:GPT-5.1 为 76.3%,Gemini 3 Pro 为 76.2%。
新颖问题解决 (Novel problem solving - ARC-AGI-2):
Opus 4.5 得分 37.6%。对比数据:Gemini 3 Pro 为 31.1%,GPT-5.1 为 17.6%。
计算机使用 (Computer use - OSWorld):
Opus 4.5 得分 66.3%。对比数据:Sonnet 4.5 为 61.4%,Opus 4.1 为 44.4%。
研究生水平推理 (Graduate-level reasoning - GPQA Diamond):
Gemini 3 Pro 得分 91.9% 最高。对比数据:GPT-5.1 为 88.1%,Opus 4.5 为 87.0%。
多语言问答 (Multilingual Q&A - MMMLU):
Gemini 3 Pro 得分 91.8% 最高。对比数据:GPT-5.1 为 91.0%,Opus 4.5 为 90.8%


