大数跨境
0
0

Gemini 3 发布后, Anthropic如期发布 Claude Opus 4.5,多项基准测试数据公开

Gemini 3 发布后, Anthropic如期发布 Claude Opus 4.5,多项基准测试数据公开 NA AI Studio
2025-11-25
1
导读:Anthropic 发布 Claude Opus 4.5,多项基准测试数据公开 Anthropic

Anthropic 发布 Claude Opus 4.5,多项基准测试数据公开

 

Anthropic 今日正式发布 Claude Opus 4.5。 官方表示,目前该模型正在进行内部评估,计划在未来一周内向自助用户(Self-serve users)逐步推出。 模型特点与交互变化 根据早期观察,Opus 4.5 在交互模式上接近 GPT-5.1 风格的“思考(Thinking)”模型:

展示出更强的推理能力。

在同类任务中提高了工具调用的效率。

由于采用“推理优先”策略,在处理简单任务时速度可能较非推理模型(如 Sonnet 4.5)稍慢。

基准测试数据对比 根据公布的测试图表,Claude Opus 4.5 与 Gemini 3 Pro、GPT-5.1 在不同领域的得分情况如下:

代理编程 (Agentic coding - SWE-bench Verified):

Opus 4.5 得分 80.9%。对比数据:GPT-5.1 为 76.3%,Gemini 3 Pro 为 76.2%。

新颖问题解决 (Novel problem solving - ARC-AGI-2):

Opus 4.5 得分 37.6%。对比数据:Gemini 3 Pro 为 31.1%,GPT-5.1 为 17.6%。

计算机使用 (Computer use - OSWorld):

Opus 4.5 得分 66.3%。对比数据:Sonnet 4.5 为 61.4%,Opus 4.1 为 44.4%。

研究生水平推理 (Graduate-level reasoning - GPQA Diamond):

Gemini 3 Pro 得分 91.9% 最高。对比数据:GPT-5.1 为 88.1%,Opus 4.5 为 87.0%。

多语言问答 (Multilingual Q&A - MMMLU):

Gemini 3 Pro 得分 91.8% 最高。对比数据:GPT-5.1 为 91.0%,Opus 4.5 为 90.8%

【声明】内容源于网络
0
0
NA AI Studio
我们是您的人工智能前沿观察站。在这里,我们致力于分享最新、最深度的AI技术解读、产业洞见与应用实例。无论您是技术开发者、产品经理,还是对AI充满好奇的探索者,NA AI Studio都将为您提供最有价值的参考。
内容 113
粉丝 0
NA AI Studio 我们是您的人工智能前沿观察站。在这里,我们致力于分享最新、最深度的AI技术解读、产业洞见与应用实例。无论您是技术开发者、产品经理,还是对AI充满好奇的探索者,NA AI Studio都将为您提供最有价值的参考。
总阅读45
粉丝0
内容113