重磅！Anthropic 发布 Claude Opus 4.5，夺回 AI 编程王座！

十二AI编程

2025-11-25

导读：大幅降价，编程能力超越人类专家！

大家好，我是十二。专注于分享AI编程方面的内容，欢迎关注。另有 Claude Code、Codex 的优惠渠道，欢迎私信。

前两天 Google 发布的 Gemini 3 谷歌 Gemini 3 太炸裂了，力压 GPT 5.1 和 Claude Sonnet 4.5，刚把 Claude Sonnet 4.5 比下去，在最强编程模型的位置上还没坐热，Anthropic 就一脚踢开了 Gemini 3，并表示，没有人比我更懂 AI 编程。

今早，Anthropic 发布 Claude Opus 4.5，官方是这样介绍它的：

它既聪明又高效，是目前世界上在编程、代理（agents）和计算机使用场景中表现最好的模型。它在深度研究、幻灯片与电子表格等日常任务上也有显著提升。Opus 4.5 代表了 AI 系统能力的进步，并预示着工作方式将发生的更大改变。

按照惯例，先看下Claude Opus 4.5 的测评数据。

Chart comparing frontier models on SWE-bench Verified where Opus 4.5 scores highest

Claude Opus 4.5 确实把 GPT-5.1-Codex-Max 和 Gemini 3 Pro 比下去了，但差距没有图片上看起来那么大

更加懂你

Anthropic 在模型发布前的测试中，收到了极其一致的反馈。测试者指出 Claude Opus 4.5 能处理模糊信息并在不需过多指引的情况下权衡利弊。当面对复杂的、多系统相关的错误时，Opus 4.5 能找出修复方法。几周前的Sonnet 4.5 几乎无法完成的任务，现在也有希望完成。总体而言，测试者表示：Opus 4.5 “更加懂你”。

评估 Claude Opus 4.5

Anthropic 给拟聘的性能工程候选人设计了一套非常困难的试卷。Anthropic 把新模型放在这套考试上，作为内部基准。在规定的 2 小时时限内，Claude Opus 4.5 的得分高于有史以来任何人类候选人。

这套试卷旨在评估技术能力以及在时间压力下的判断力。它并不测试候选人可能具备的其他关键技能，例如协作、沟通，或多年经验形成的直觉。但这一测试结果已经表明，在重要技术技能上 AI 模型已经优于优秀候选人。

软件工程并非 Claude Opus 4.5 唯一提升的领域。Opus 4.5 在视觉、推理与数学能力上均超越其前代，并在许多领域达到最先进水平。