【灵思导读】Anthropic 正式推出 Claude Opus 4.7,主要升级聚焦于复杂任务执行、高清视觉识别及更稳健的长流程工作链路。对普通用户而言,最直观的感受是模型更服从指令、更擅长解析图像、产出更接近最终可用形态,同时也要留意Token消耗速度会加快。
刚刚,Anthropic 正式发布了 Claude Opus 4.7,并将其定位为当前可广泛使用的最强 Claude 模型。
其性能虽不及此前曝光的新一代Claude Mythos Preview那般惊人,但相比普通用户实际能使用的Opus 4.6则大幅领先,除了Agentic搜索能力稍有下降外,其他方面实现了全面超越。
官方给出的本次更新关键词:复杂任务、更强视觉、更稳的长链路执行,以及更少的人工介入需求。
只要还在用大模型撰写文档、解读截图、制作演示稿、整理资料,Opus 4.7所带来的体验变化就很难忽视。
本次更新最大的亮点是Opus 4.7的视觉能力获得巨大提升,测试成绩从Opus 4.6约50%的分数直接跃升至接近满分!
而这一突破补上了AI目前最大的视觉短板,或许已在不知不觉中跨过了替代人类工作的那道最关键的门槛!
GPT-5.4 Thinking 对Claude Opus 4.7发布给打工人带来的影响给出了如下评价:
本次升级的关键
在于复杂任务的完成度
Anthropic 将 Opus 4.7 的核心升级重点放在了高级软件工程与长时间任务执行上。
用户现已可以将过去需要密切监督的高难度编码工作交给它处理,它会更严格地遵循指令,也会在返回结果前主动尝试验证输出。
在 API 发布说明中,Anthropic 也将其称为当前最强的通用可用模型,面向复杂推理与代理式编码场景。
大模型竞争的焦点,正从回答得像不像,转向完成得完不完。仅能写出漂亮的答案已不够。
能否将长文档修改干净,能否将一系列资料整合成可交付成果,能否持续数十分钟甚至更久不偏离方向,这才是决定它在日常工作中能否真正替人承担重任的关键。
这一点从 Opus 4.7 的官方发布重点中便可直接看出。
纯编程只是开胃菜
SWE-bench Multilingual 评估的是模型修复真实 GitHub issue 的能力,覆盖多种编程语言。
Opus 4.7 得分 80.5%,Opus 4.6 为 77.8%,提升了 2.7 个百分点。
单看这个数字,似乎只是一次常规迭代。但同一张图右侧那组数据更有意思,后面再回头讲。
1M token 里的长任务
GraphWalks 是 OpenAI 推出的长上下文基准测试,将一张有向图以边列表形式塞满 1M token 上下文,让模型执行图遍历。
两种考察方式:一种是 Parents,给定一个节点让模型找出所有直接指向它的父节点;另一种是 BFS 广度优先搜索,从起点出发找到特定深度内可达的节点,对 Agent 执行多步骤长任务是硬性指标。
在 Parents 1M 部分,Opus 4.7 从 71.1% 提升至 75.1%,4 个百分点的常规改进。
而到了 BFS 1M,Opus 4.7 则从 41.2% 一口气提升到 58.6%,拉开了 17.4 个百分点。
换个场景再看。
Vending-Bench 2 让模型模拟经营一台自动售货机,测试长时间工作流中的决策连贯性。
Opus 4.6 最终余额 8,018 美元,Opus 4.7 达到 10,937 美元。
同一台售货机,相同时间窗口,Opus 4.7 多赚了 36%。
Agent 的眼睛换了代
ScreenSpot-Pro 测试的是 Agent 的屏幕定位能力。
给模型一张 VSCode、Photoshop、AutoCAD 等专业软件的高分辨率桌面截图加上一条自然语言指令,让它定位到具体的 UI 元素。在高分辨率屏幕中,目标 UI 元素通常只占整张图的 0.07%,极其考验精细视觉。
同样在低分辨率且不带工具的情况下,Opus 4.6 得分 57.7%,Opus 4.7 得分 69.0%,提升了 11.3 个百分点。
切换到高分辨率,Opus 4.7 不带工具就达到了 79.5%。叠加工具调用后,得分直接来到 87.6%。
视觉能力在某些测试(如 XBOW 的基准测试)中,Opus 4.7 相比 Opus 4.6 得分直接翻倍,从 54.5% 跃升至接近满分的 98.5%!
这造就了 Opus 4.7 相比 4.6 在计算机使用(Computer Use)能力上的天壤之别!
回到前面留的那张编程图。
SWE-bench Multimodal 这项测试中,Anthropic 是用内部实现的测试 harness 运行的。
测试的是前端 JS 软件修 bug,任务中带有 UI 截图、效果图等视觉素材,模型需要结合图片和代码一起工作。
从 Opus 4.6 的 27.1% 做到 Opus 4.7 的 34.5%,一口气提升了 7.4 个百分点。
Opus 4.7 的编程升级,重点在于让模型看懂屏幕。眼睛换代了,脑子才能干更复杂的活。
GPT-5.4 和 Gemini 3.1 Pro 都没扛住
前面全是自身对比,现在来看看与老对手们的较量。
GDPval-AA 是 Artificial Analysis 基于 OpenAI GDPval 数据集做的评估。
它覆盖了 44 种知识工作职业、9 大 GDP 核心行业,任务来自资深职业人士(平均 14 年经验)的真实交付物。AA 版本让模型在 agent loop 中工作,采用盲测两两对比计算 Elo 分。
Opus 4.7 得 1753 分,Opus 4.6 得 1619 分,GPT-5.4 得 1674 分,Gemini 3.1 Pro 得 1314 分。
Opus 4.7 比 GPT-5.4 高出 79 分,比 Gemini 3.1 Pro 高出 439 分。
OfficeQA Pro 是 Databricks 推出的企业级推理基准,语料为近 100 年的美国财政部公报,共 8.9 万页 PDF、2600 万个数字。模型需精准找到文档、解析表格和正文、跨文档进行分析推理。
在此项测试中,Opus 4.7 的得分高达 80.6%,而 Opus 4.6 仅为 57.1%,GPT-5.4 和 Gemini 3.1 Pro 更低,分别为 51.1% 和 42.9%。
换句话说,Opus 4.7 是 GPT-5.4 的 1.6 倍,是 Gemini 3.1 Pro 的 1.9 倍。
跃升最突出的是生物学
翻到最后一项,Structural Biology,生物分子推理。
Opus 4.6 仅为 30.9%。而 Opus 4.7 直接冲到了 74.0%。
一次版本迭代,从三成到七成半,达到 2.4 倍。
堪称所有 benchmark 中跃升最显著的一项。
普通用户最先感受到的
是三大变化
第一个变化,指令遵循能力更强了。
Anthropic 提到,Opus 4.7 的指令遵循能力大幅提升,过去许多模型会松散理解、遗漏细节,Opus 4.7 则更倾向于逐条执行。
代价是,旧的提示词有时会产生意料之外的结果,用户需要重新调整写法。
对普通用户而言,这会直接减少提示词玄学,写需求、定格式、列限制条件会变得更有用。
第二个变化,Claude 看图会更细致。
Opus 4.7 支持长边最高 2576 像素的图像输入,约 375 万像素,是此前 Claude 模型的三倍以上。
官方特别提到了几个场景:密集截图、复杂图表、精细结构图、需要像素级参考的任务。
放到实际使用中,这对应的就是看懂一页密密麻麻的数据截图,识别产品原型细节,从复杂流程图中提取信息,读取高分辨率海报或报表时减少细节丢失。
第三个变化,输出结果更容易接近可交付的成品。
Anthropic 提到,Opus 4.7 在界面、幻灯片、文档等专业任务上更具审美性,也更有创造性。
它在基于文件系统的记忆方面做得更好,能跨多轮、多会话记住关键备注,减少重复交代背景。
对于经常用模型润色材料、整理项目、反复修改同一份内容的人来说,这种提升会比跑分的提升来得更直观。
这次发布
安全也被摆在了同样重要的位置
Anthropic 在一周前刚刚公布 Project Glasswing,专门讨论了前沿模型在网络安全方向的风险与收益。
Opus 4.7 成为这套新思路下首个公开部署的模型,官方强调,它的网络安全能力弱于 Mythos Preview,并且上线时带有自动检测和拦截高风险网络安全请求的护栏。
合规的安全研究人员则可以申请加入新的 Cyber Verification Program。
从安全评估看,Opus 4.7 与 Opus 4.6 的整体安全画像相近,在诚实性和抵抗恶意提示词注入方面更强,在某些细项上也存在小幅减弱。
Anthropic 的结论是,它整体上「较为可靠且值得信任」,距离理想状态仍有空间。
这说明,Anthropic 没有将发布包装成一次毫无代价的全面跃升。
谁会立刻受益
谁又要多留一个心眼
最先受益的人群很清楚:开发者、分析师、法务、研究人员,以及所有高频处理文档、表格、演示材料的人。
官方早期测试反馈中,许多合作方都提到同样的几件事:复杂工作流更稳了,错误恢复能力更强了,文档推理、代码审查、数据分析、长上下文任务都有明显提升。
需要多留一个心眼的地方也已写在官方说明中。
更高分辨率的图像会消耗更多 Token,用户用不到这些细节时,最好先压缩图片。
Opus 4.7 还更换了分词器(Tokenizer),同样的输入可能会多出大约 1.0 到 1.35 倍的 Token,高 Effort 下输出 Token 也会增加。
对于直接在 Claude 应用里聊天的普通用户,这更多会体现在额度和响应体验上。
对于使用龙虾和Hermes Agent这类API的用户以及团队客户,这就是实实在在的成本变量。
好在价格方面,Opus 4.7 与 4.6 及 4.5 保持一致,没有涨价,但这个价格本身其实就已经足够昂贵了…
Anthropic想传递的信号
已经很清楚了
从 Opus 4.7 这次发布能看出,Anthropic 眼下押注的方向已经很明确:长任务执行、视觉理解、工具协同、少监督交付,这几项能力正在被打包成下一阶段的大模型主战场。
官方同步上线的 Xhigh Effort(思考程度介于 high 和 max 之间)、Task Nudgets 公测,以及 Claude Code 中的 /ultrareview,也都围绕着这个方向在推进。
除了官网公告外,Claude 也公布了 Opus 4.7 的系统卡,长达 232 页,里面公布了更多值得关注的细节,限于篇幅此处不作展开。
对普通用户而言,对 Claude Opus 4.7 更直接的感受会是:交代清楚后,它更容易把事情做对,看图更细,写出来的东西更能直接拿去用。
大模型从会聊天走向会干活,这一步又往前迈了一大截。
真正能干好活的最强生产力模型,从 Opus 4.6,变成了 Opus 4.7。
———— END ————
灵思极智旗下“极智系列”三款AI智能应用
关注后,两步置顶服务号,可第一时间收到灵思极智推文!

