Claude Opus 4.7,来了。
Anthropic 刚刚将这柄"最强利器"推向市场——相比 Opus 4.6 的全面碾压式升级,让它成为当下真正能用的最强 Claude 模型。
除了Agentic搜索能力略有下降外,实现了全面碾压!
官方给这次升级定了四个关键词:复杂任务、视觉增强、长链路稳定、更少人工介入。
如果你用大模型写文档、读截图、做演示、整理材料——Opus 4.7 的体验跃迁,基本避不开。
最亮眼的是视觉能力:从 Opus 4.6 约 50% 的测试分数,直接飙到接近满分。
这道 AI 最大的视觉短板,被补上了。某种意义上,那道"替代人类工作"的门槛,可能已经悄悄迈了过去。
GPT-5.4 Thinking评对手Claude Opus 4.7发布对打工人的影响:
01
本次升级的关键
Anthropic将Opus 4.7的核心升级聚焦于高级软件工程与长时间任务执行,该模型可独立处理高难度编码工作,严格执行指令且主动验证输出,被官方称作当前最强通用可用模型,适配复杂推理和代理式编码场景。
大模型的竞争核心已从回答的逼真度转向任务的完成度,能否高效处理长文档、整合资料形成可交付物、长时间稳定执行任务,才是其胜任实际工作的关键,这一点也体现在Opus 4.7的官方发布重点中。
SWE-bench Multilingual 测试模型修复真实GitHub issue的多语言编程能力,Opus 4.7获80.5%、4.6获77.8%,提升2.7个百分点。
单看该数据只是常规迭代,同图右侧数据更具看点,后续再细说。
1M token长任务中,GraphWalks作为OpenAI的长上下文基准,将有向图以边列表形式填入1M token上下文,测试模型的图遍历能力,包含Parents(找节点直接父节点)和BFS广度优先搜索(找指定深度可达节点)两种考法,是Agent长任务的核心指标。
Parents 1M测试中,Opus 4.7的表现从71.1%提升至75.1%,提升4个百分点;BFS 1M测试中,其表现从41.2%大幅提升至58.6%,提升17.4个百分点。
换个场景再看。
Vending-Bench 2 让模型模拟经营一台自动售货机,测长时间工作流里的决策连贯性。
Opus 4.6 最终余额 8,018 美元,Opus 4.7 做到 10,937 美元。
同一台售货机,同一个时间窗口,Opus 4.7 多挣了 36%。
Agent视觉能力升级,ScreenSpot-Pro专测其屏幕定位能力:给模型专业软件高分辨率桌面截图+自然语言指令,让其定位常仅占图0.07%的UI元素,考验精细视觉。
低分辨率无工具时,Opus 4.6得分57.7%,Opus 4.7达69.0%,提升11.3个百分点;高分辨率下,Opus 4.7无工具即79.5%,叠加工具调用后跑分升至87.6%。
Opus 4.7视觉能力在XBOW等基准测试中得分较4.6翻倍,从54.5%升至98.5%的近满分水平,也让其计算机使用能力较4.6有天壤之别。
回看编程图,Anthropic用内部测试harness跑SWE-bench Multimodal,测试前端JS软件修bug,任务含UI截图等视觉素材,模型需结合图片与代码操作。
其Opus 4.7此项成绩从4.6的27.1%提升至34.5%,涨幅7.4个百分点。此次编程升级核心是让模型看懂屏幕,视觉能力提升后才能完成更复杂任务。
GPT-5.4与Gemini 3.1 Pro在最新评测中表现不佳。
GDPval-AA由Artificial Analysis基于OpenAI GDPval数据集打造,覆盖44类知识工作职业、9大GDP核心行业,任务均来自平均14年经验的资深从业者真实交付物,通过agent loop运行模型、盲测两两对比得出Elo分。
评测得分:Opus 4.7(1753)、Opus 4.6(1619)、GPT-5.4(1674)、Gemini 3.1 Pro(1314)。
其中Opus 4.7领先GPT-5.4 79分,领先Gemini 3.1 Pro 439分。
OfficeQA Pro是Databricks推出的企业级推理基准,语料涵盖近百年美国财政部公报,含8.9万页PDF、2600万个数字,要求模型精准找文档、解析表格与正文并跨文档分析推理。
Opus 4.7在此跑分达80.6%,远超Opus 4.6的57.1%,以及GPT-5.4的51.1%、Gemini 3.1 Pro的42.9%,跑分分别是后两者的1.6倍、1.9倍。
生物学跃升最亮眼:Structural Biology生物分子推理项中,Opus 4.6仅30.9%,4.7版本直接飙升至74.0%,单轮迭代提升2.4倍,是所有benchmark里涨幅最夸张的一项。
02
普通用户感受三大变化
第一个变化,指令遵循能力更强了。
Anthropic表示,Opus 4.7的指令遵循能力大幅提升,能逐条执行指令,不再松散理解、遗漏细节。但旧提示词可能出现意外结果,需用户重新调整;对普通用户而言,这能减少提示词玄学,让需求、格式、限制条件的撰写更具实际作用。
第二种变化,Claude 看图会更细。
Opus 4.7支持长边最高2576像素(约375万像素)的图像输入,像素量超此前Claude模型三倍。官方重点适配密集截图、复杂图表、精细结构图、像素级参考类任务,实际使用中可清晰识别密集数据截图、产品原型细节,提取复杂流程图信息,查看高分辨率海报或报表时减少细节丢失。
第三种变化,输出结果会更容易接近可交付的成品。
Anthropic表示,Opus 4.7在界面、幻灯片、文档等专业任务中更具审美与创造性,其文件系统记忆能力优化,可跨多轮多会话留存关键备注,减少背景重复说明,对常使用模型润色材料、整理项目、反复修改内容的用户而言,该提升比跑分提升更直观。
03
这次发布,安全很重要
一周前,Anthropic 刚刚发布 Project Glasswing,系统阐述了前沿模型在网络安全领域的风险与收益平衡。Opus 4.7 成为这套新框架下首个落地的模型。
官方没有回避短板:它的网络安全能力弱于 Mythos Preview,上线即配备自动检测和拦截高风险请求的护栏。合规的安全研究者可以申请加入新设立的 Cyber Verification Program。
从安全评估来看,Opus 4.7 与 4.6 的整体画像相近,在诚实性和抵抗恶意提示词注入上有所增强,部分细项则略有回落。
Anthropic 的定调很克制——「较为可靠且值得信任」,但也坦承距离理想状态仍有空间。这种表态本身,就是在拒绝将一次常规迭代包装成毫无代价的全面跃升。
04
谁会立刻受益
开发者、分析师、法务、研究人员及所有高频处理文档、表格、演示材料的人将最先受益。
官方早期测试中,合作方普遍反馈复杂工作流更稳定、错误恢复能力更强,文档推理、代码审查、数据分析、长上下文任务均有显著提升。
官方说明已标注需留意的要点,更高清图像会消耗更多Token,非必要建议先压缩图片。
Opus 4.7更换了分词器,相同输入Token量约增1.0-1.35倍,高Effort下输出Token也会增加。这对Claude应用普通用户,主要影响额度和响应体验;对使用龙虾、Hermes Agent等API的用户及团队客户,则直接增加成本。
好在Opus 4.7未涨价,与4.6、4.5定价一致,只是该定价本身已偏高。
05
Anthropic想传递的信号
Opus 4.7的发布彰显Anthropic的核心押注方向:长任务执行、视觉理解、工具协同、少监督交付,这也是大模型下一阶段的主战场。
其同步公测的Xhigh Effort、Task Nudgets,以及Claude Code中的/ultrareview,均围绕该方向打造。
除了官网公告外,Claude也公布了Opus 4.7的系统卡,长达232页,里面公布了更多值得关注的细节,限于篇幅再次我们不作展开。
回到日常使用的体感:Opus 4.7 更擅长把交代清楚的事一次做对,看图更细,产出更可直接落地。
"会聊天"到"会干活"的跨越,又往前挪了一截。
最强生产力模型的头衔,此刻属于 Opus 4.7。
📢 想获取更多 AI 大模型实战资料?
欢迎扫码加入【AI 大模型学习交流群】
和行业伙伴一起,解锁 AI 落地全流程,
共享干货资源、交流技术难题!
图片/素材来源于网络,其版权归原作者所有,侵删
一键关注 👇 点亮星标

