导语 Anthropic公司今日发布了其AI模型Claude Opus 4.1。该版本在多个AI软件工程相关的基准测试中取得了更高分数,并将通过其付费服务、API及主流云平台向用户开放。同时,官方预告将在未来数周内发布更大幅度的模型改进。
Opus 4.1的主要改进体现在代理式编码(Agentic coding)能力上。根据官方公布的数据,其在SWE-bench基准测试中的准确率为74.5%,高于前代Opus 4的72.5%,也高于同在报告中被比较的其他主要模型。 这并非一次全面的性能提升。在其他测试领域,Opus 4.1的表现与竞争者相比各有高下。例如,在研究生级别的推理能力(GPQA Diamond)和高中数学竞赛(AIME 2025)的测试中,其得分低于报告中OpenAI及谷歌的相关模型。 以下是Opus 4.1与主要竞品在部分关键基准测试中的表现对比:
| 基准测试 (Benchmark) | Claude Opus 4.1 | Claude Opus 4 | OpenAI o3 | Gemini 2.5 Pro |
| 代理式编码 (SWE-bench) | 74.5% | 72.5% | 69.1% | 67.2% |
| 研究生推理 (GPQA) | 80.9% | 79.6% | 83.3% | 86.4% |
| 高中数学 (AIME) | 78.0% | 75.5% | 88.9% | 88.0% |
| 视觉推理 (MMMU) | 77.1% | 76.5% | 82.9% | 82.0% |
此模型现已全面可用,渠道包括Claude付费订阅、API接口、亚马逊Bedrock和谷歌云Vertex AI。Anthropic官方在公告中表示:“我们计划在未来几周内发布对我们模型实质上更大的改进。” 这一定位表明,Opus 4.1是一次迭代更新,而非代际更迭。
结语
Opus 4.1的发布是一次有针对性的升级,增强了Anthropic在AI软件工程这一应用领域的竞争力。与此同时,其在部分通用能力上的得分差异,也反映出当前大模型发展的多维性和不同厂商的策略侧重。官方对后续更新的预告,则表明了顶级AI实验室之间技术迭代的高速与高强度。 https://www.anthropic.com/news/claude-opus-4-1[1]
References
[1]: https://www.anthropic.com/news/claude-opus-4-1

