大家好,我是十二。专注于分享AI编程方面的内容,欢迎关注。另有 Claude Code、Codex 的优惠渠道,欢迎私信。前两天 Google 发布的 Gemini 3 谷歌 Gemini 3 太炸裂了,力压 GPT 5.1 和 Claude Sonnet 4.5,刚把 Claude Sonnet 4.5 比下去,在最强编程模型的位置上还没坐热,Anthropic 就一脚踢开了 Gemini 3,并表示,没有人比我更懂 AI 编程。今早,Anthropic 发布 Claude Opus 4.5,官方是这样介绍它的:它既聪明又高效,是目前世界上在编程、代理(agents)和计算机使用场景中表现最好的模型。它在深度研究、幻灯片与电子表格等日常任务上也有显著提升。Opus 4.5 代表了 AI 系统能力的进步,并预示着工作方式将发生的更大改变。按照惯例,先看下Claude Opus 4.5 的测评数据。Claude Opus 4.5 确实把 GPT-5.1-Codex-Max 和 Gemini 3 Pro 比下去了,但差距没有图片上看起来那么大更加懂你Anthropic 在模型发布前的测试中,收到了极其一致的反馈。测试者指出 Claude Opus 4.5 能处理模糊信息并在不需过多指引的情况下权衡利弊。当面对复杂的、多系统相关的错误时,Opus 4.5 能找出修复方法。几周前的Sonnet 4.5 几乎无法完成的任务,现在也有希望完成。总体而言,测试者表示:Opus 4.5 “更加懂你”。评估 Claude Opus 4.5Anthropic 给拟聘的性能工程候选人设计了一套非常困难的试卷。Anthropic 把新模型放在这套考试上,作为内部基准。在规定的 2 小时时限内,Claude Opus 4.5 的得分高于有史以来任何人类候选人。这套试卷旨在评估技术能力以及在时间压力下的判断力。它并不测试候选人可能具备的其他关键技能,例如协作、沟通,或多年经验形成的直觉。但这一测试结果已经表明,在重要技术技能上 AI 模型已经优于优秀候选人。软件工程并非 Claude Opus 4.5 唯一提升的领域。Opus 4.5 在视觉、推理与数学能力上均超越其前代,并在许多领域达到最先进水平。在 SWE-bench Multilingual 上,Opus 4.5 在 8 种编程语言中的 7 种语言上写出更好的代码,位列前沿。在 Aider Polyglot 上,Opus 4.5 对复杂编码问题有显著提升,比 Sonnet 4.5 提高了 10.6%。在 BrowseComp-Plus(前沿代理搜索能力)上,Opus 4.5 有显著跃进。在 Vending-Bench(长期保持任务能力)上,Opus 4.5 比 Sonnet 4.5 高出 29%。该模型的能力在某些 Anthropic 使用的基准上超过了基准本身。一个用于衡量代理能力的常用基准是 τ2-bench(测评代理在真实世界、多回合任务中的表现)。在一个场景中,模型需扮演航空客服帮助一位遇到困难的乘客。该基准期望模型拒绝对基础经济舱票进行变更,因为航空公司不允许对这类票更改。相反,Opus 4.5 找到了一条有见地(且合法)的解决路径:先升级舱位,然后再修改航班。从技术层面来看,这一基准测试将其判定为失败,因为 Claude 的帮助方式是不在预期之内的。但这类创造性解决问题的方式正是 Claude Opus 4.5 一个重要的进步。怎么使用Claude Opus 4.5 已经在 Anthropic 的应用、API 以及云平台上线。开发者可通过 Claude API 使用模型 claude-opus-4-5-20251101(定价现在为每百万 token $5 / $25),也可以通过 Claude Code 使用。作为模型支持的积极分子,Cursor 没有让我们失望,已经第一时间接入了 Claude Opus 4.5,推荐大家去体验下。交流群另外,我建了个AI编程交流群,欢迎进群交流(进群送一份AI资料)。关注公众号,点击【进交流群】,扫描二维码加我好友,我拉你进群。谢谢你看我的文章,如果觉得不错,随手点个赞、在看、转发三连吧。关注我,获取更多AI内容。我们,下次再见。(如果想第一时间收到推送,也可以给我个星标。)