Claude Opus 4.7 终于发布了
一条写在官方介绍里、很多人滑过去没注意的话,值得先看:
In Claude Code, we've raised the default effort level to
xhighfor all plans.
所有订阅档位的 Claude Code,默认努力级别被提到了 xhigh。
Anthropic 给模型设了一个"思考档位",档位越高思考越深、烧的 token 越多、响应越慢。
以前的默认档是中间档,这次悄悄换成了高档。你不改任何设置,同样问一句话,它想的时间更长、消耗的token也更多。
同一句话,1.35 倍的 token
把默认思考模式提高只是第一件事,Claude把分词器也换了。
分词器是模型把文字切成 token 的方式,token 是计费单位。官方原话:同一段输入,新分词器产出的 token 数是旧的 1.0 到 1.35 倍,具体看内容类型。代码、JSON、结构化文本膨胀最厉害。
Anthropic 的 Amol Avasare 在推特上补了一句:为了抵消这件事,订阅计划的速率限制相应提高了。
API 按量付费的用户,账单自然涨。订阅用户 quota 涨了,但涨的幅度是不是真能覆盖 tokenizer 膨胀加 xhigh 默认档的叠加影响,官方没给具体数字。
HN 上一条 275 赞的顶楼讨论里,一位开发者算了笔账:多轮 agentic 会话里,每一轮都吃 tokenizer 溢出,每一轮都跑更高的思考档,两个效应会叠加放大。Anthropic 官方给出"净效果是有利的"这个结论,依据是一个单轮 prompt 的内部自动化评测——跟开发者真实的多轮交互根本不是一个场景。
Anthropic 自己也承认了这点。迁移指南里原话:推荐用户在真实流量上自测。
这件事为什么敏感,得看过去两个月开发者对 Opus 4.6 的情绪。
AMD 一位资深总监在 GitHub 上写过一条被转了很多次的吐槽:"Claude 已经退化到无法再信任去做复杂工程"。HN 上大量开发者说主力工具从 Claude Code 切到了 Codex,理由是稳定。
官方否认做过任何降级,但外部主流猜测是算力不够:Mythos 的训练部署、Glasswing 安全实验、Opus 4.7 的预训练同时抢 GPU。
在这种背景下推一个默认档位被悄悄拉高、tokenizer 又涨 35% 的版本,开发者的第一反应是"又要涨价了"。
不过能力确实变强了
承认完社区情绪,也得承认 4.7 确实在硬指标上往上走了一个台阶。
最硬的一条外部证据来自 Artificial Analysis 的 GDPval-AA 榜单。这是一个用 ELO 打分、衡量模型完成真实工作任务能力的独立评测,通过一个叫 Stirrup 的开源框架测试模型调用 web 和 shell 的表现。

4 月 16 号榜单更新后,Opus 4.7 以 1753 分直接冲到榜首,超过 GPT-5.4 xhigh 的 1674 分、Sonnet 4.6 max 的 1667 分。跟 GPT-5.4 在同一套任务上 head-to-head,4.7 的隐含胜率大约 60%。这是一个第三方独立榜单,不是 Anthropic 自己的数据。
Anthropic 自己公布的分数也漂亮。SWE-bench Verified 从 80.8% 升到 87.6%,SWE-bench Pro 从 53.4% 升到 64.3%,OSWorld computer use 从 72.7% 升到 78.0%,GPQA Diamond 达到 94.2%。
合作方的一手反馈比跑分更直接。
Hex 的 CTO Caitlin Colgrove 说了一句关键的话:"low-effort 的 4.7 大致等于 medium-effort 的 4.6。"翻译成人话:新版本同样难度的活,用更低的档位就能干完。如果成立,即便默认档位被上调,实际账单不一定真变贵。
其他家的反馈都在这条线上。Cursor 的 CursorBench 从 58% 提到 70%,GitHub Copilot 的 93-task 基准提升 13%、其中四道题是 4.6 和 Sonnet 4.6 都解不出来的。Vercel、Warp、Qodo 都报告 4.7 解决了 4.6 反复失败的具体问题:并发 race condition、Terminal Bench 跑不过的任务、code review 里的边缘情况。
视觉能力的跳跃最戏剧。做自动化渗透测试的 XBOW 报告:"视觉精度从 Opus 4.6 的 54.5% 跳到 4.7 的 98.5%。我们最大的痛点基本消失了。"Opus 4.7 把最大图像分辨率从 1568 像素提到 2576 像素,视觉容量涨了约三倍,让 computer use 场景里的坐标能 1:1 对应实际像素。
指令遵循变严,老 prompt 可能失灵
Opus 4.7 严格按字面执行指令。
以前的模型会松散解读、跳过一部分,4.7 会字面执行。
意思是你为早期模型写的 prompt,现在可能产生意料外的结果,得相应调整你的Prompt才能获得和之前差不多的效果。
系统卡里记了这个变化的另一面:4.7 有时会走到另一个极端,用户已经给了清楚指令、它还反过来问确认,或者把控制权过早交还给用户。这跟社区反馈的"Claude 有时不停追问"的印象对得上。
这条对写 prompt、做 agent 的开发者比跑分更有用。
过去两年靠 Claude"帮我脑补意图"的偷懒写法,在 4.7 上得重新审视。
不是所有升级都是升级
容易被跑分表掩盖的细节:4.7 有几个维度明显比 4.6 弱。
最扎眼的一条在官方自己的系统卡里。长上下文的 MRCR v2 测试考的是大海捞针:把一根针藏进超长文本,看模型能不能找出来。256K 上下文下 Opus 4.6 是 91.9%,4.7 掉到 59.2%。1M 上下文下,4.6 是 78.3%,4.7 只有 32.2%。
Anthropic 工程师 Boris Cherny 在推特上直接辩解回应:出于科学诚实,MRCR 保留在了系统卡里,但这个测试一直在被逐步淘汰。
理由是 MRCR 考的是"在干扰项里找一个字面匹配",不是人们真实使用长上下文的方式。
真实场景是让模型在长代码库里推理、在长文档里综合判断,不是大海捞针。
Anthropic 更看重应用层的长上下文能力,内部有另一个叫 Graphwalks 的测试,4.7 在长上下文代码推理上表现非常好。
推特上有位叫 stevibe 的用户发了发布实测:让 Opus 4.6 和 4.7 各跑两遍一个 canvas 树生长动画的测试。
4.6 两次都出了动画,4.7 两次都是静态树、没有生长过程。他的原话:"4.7 的思考明显更短更快。这不是我期待的升级方向。"
另一位叫 Michael Joseph 的用户观察到类似现象:从 Opus 4.6 切到 4.7,同样的问题会被 route 到更少的 thinking。他怀疑 Anthropic 是用"只给 auto 选项"这种方式在省 token。
这跟"默认档位被上调"听起来矛盾,但其实是同一套逻辑的两面。Anthropic 新加的 adaptive thinking(自适应思考)让模型自己判断什么任务该想多久。
这对简单问题是优化。官方有个例子,用户问"50 米外的洗车店,该走路还是开车去",4.7 直接回"开车,洗车店要洗的是车",思考几乎为零。
但对那些表面看起来简单、实际需要推理的任务,模型自己的判断不一定靠谱。canvas 树动画就是这种场景:4.6 老老实实想了一会儿画出了动画,4.7 判断这题不难、少想了一步,结果画了个静态的。
把三条证据放一起看:MRCR 退步是官方承认的评测层面、canvas 树是第三方实测的能力层面、thinking 被 route 到更短是用户感知的交互层面。方向一致。
4.7 的 adaptive thinking 节省了算力,但也意味着模型对难度的自主判断会影响结果。
如果业务吃长文档检索、依赖视觉生成动画、或者任务看起来简单但需要深思,切过去前用自己的数据跑一轮。如果必要,显式把 effort 拉到 max 而不是信任默认的 adaptive。
顺带提一下的几个新东西
Opus 4.7 发布的同时,Anthropic 放了几个对开发者有用的新功能。
xhigh 档位不只是 Claude Code 的新默认,API 里也多了这个介于 high 和 max 之间的档位,给了更细的档位控制。
task budgets 进公开 beta,让你给 agentic 循环设 token 预算,模型能看到倒计时、按预算优先级排工作、在预算快花完时平滑收尾,对生产环境成本可预测性很有用。
/ultrareview 是 Claude Code 里的新斜杠命令,跑一个专门的审查会话读完所有改动、标出仔细 reviewer 才能发现的问题,Pro 和 Max 用户免费三次。
auto mode 从 Teams/Enterprise 下放到了 Max 用户,Claude 在权限边界内自己做决策,减少打断。
收尾
Opus 4.7 是一次值得算数的升级:独立第三方榜单登顶、多家合作伙伴的一手证言、视觉能力三倍跳、指令遵循更严格。这些不是营销话术。
但这次升级同时动了两件跟你钱包直接相关的事:默认思考档位被上调,tokenizer 对同一段输入多产出 35% 的 token。官方的说法是"净效果有利",依据是单轮内部评测,官方自己也建议"在真实流量上自测"。
如果你切过去,先把 Claude Code 的默认 effort 显式设一下,别让 xhigh 默认跑。根据任务难度选 high 或 max,盯着 token 用量。有一套在 4.6 上调好的 prompt,4.7 上先跑一遍,严格字面执行这条会改变一些老 prompt 的行为。如果业务吃长文档检索,别只看 MRCR 分数,用自己的数据跑。
4 月 7 日 Mythos Preview 发布之后的股价。那天起算到 4 月 17 日:Adobe 跌 2.71%,GoDaddy 跌 3.87%,Figma 跌 12.92%,Wix 跌 24.54%。它的发布日直接给做设计工具、做建站工具的上市公司砸出了一个坑。市场用脚投票认为这一级别的 AI 对现有软件工具是核级威胁。

