大数跨境
0
0

【И° News】Anthropic发布Opus 4.1,提升编码能力并预告后续更新

【И° News】Anthropic发布Opus 4.1,提升编码能力并预告后续更新 NA AI Studio
2025-08-06
0

导语 Anthropic公司今日发布了其AI模型Claude Opus 4.1。该版本在多个AI软件工程相关的基准测试中取得了更高分数,并将通过其付费服务、API及主流云平台向用户开放。同时,官方预告将在未来数周内发布更大幅度的模型改进。

Opus 4.1的主要改进体现在代理式编码(Agentic coding)能力上。根据官方公布的数据,其在SWE-bench基准测试中的准确率为74.5%,高于前代Opus 4的72.5%,也高于同在报告中被比较的其他主要模型。 这并非一次全面的性能提升。在其他测试领域,Opus 4.1的表现与竞争者相比各有高下。例如,在研究生级别的推理能力(GPQA Diamond)和高中数学竞赛(AIME 2025)的测试中,其得分低于报告中OpenAI及谷歌的相关模型。 以下是Opus 4.1与主要竞品在部分关键基准测试中的表现对比:

基准测试 (Benchmark) Claude Opus 4.1 Claude Opus 4 OpenAI o3 Gemini 2.5 Pro
代理式编码 (SWE-bench) 74.5% 72.5% 69.1% 67.2%
研究生推理 (GPQA) 80.9% 79.6% 83.3% 86.4%
高中数学 (AIME) 78.0% 75.5% 88.9% 88.0%
视觉推理 (MMMU) 77.1% 76.5% 82.9% 82.0%

此模型现已全面可用,渠道包括Claude付费订阅、API接口、亚马逊Bedrock和谷歌云Vertex AI。Anthropic官方在公告中表示:“我们计划在未来几周内发布对我们模型实质上更大的改进。” 这一定位表明,Opus 4.1是一次迭代更新,而非代际更迭。

结语

Opus 4.1的发布是一次有针对性的升级,增强了Anthropic在AI软件工程这一应用领域的竞争力。与此同时,其在部分通用能力上的得分差异,也反映出当前大模型发展的多维性和不同厂商的策略侧重。官方对后续更新的预告,则表明了顶级AI实验室之间技术迭代的高速与高强度。 https://www.anthropic.com/news/claude-opus-4-1[1]

References

[1]: https://www.anthropic.com/news/claude-opus-4-1


【声明】内容源于网络
0
0
NA AI Studio
我们是您的人工智能前沿观察站。在这里,我们致力于分享最新、最深度的AI技术解读、产业洞见与应用实例。无论您是技术开发者、产品经理,还是对AI充满好奇的探索者,NA AI Studio都将为您提供最有价值的参考。
内容 113
粉丝 0
NA AI Studio 我们是您的人工智能前沿观察站。在这里,我们致力于分享最新、最深度的AI技术解读、产业洞见与应用实例。无论您是技术开发者、产品经理,还是对AI充满好奇的探索者,NA AI Studio都将为您提供最有价值的参考。
总阅读58
粉丝0
内容113