大数跨境

Claude Opus 4.7 深夜突袭:7 亿人的工作,一夜变天?

Claude Opus 4.7 深夜突袭:7 亿人的工作,一夜变天? 觉醒AI科技
2026-04-17
4
导读:点击蓝字关注我们Claude Opus 4.7,来了。
点击蓝字
关注我们


Claude Opus 4.7,来了。


Anthropic 刚刚将这柄"最强利器"推向市场——相比 Opus 4.6 的全面碾压式升级,让它成为当下真正能用的最强 Claude 模型。



除了Agentic搜索能力略有下降外,实现了全面碾压!


官方给这次升级定了四个关键词:复杂任务、视觉增强、长链路稳定、更少人工介入。


如果你用大模型写文档、读截图、做演示、整理材料——Opus 4.7 的体验跃迁,基本避不开。


最亮眼的是视觉能力:从 Opus 4.6 约 50% 的测试分数,直接飙到接近满分。


这道 AI 最大的视觉短板,被补上了。某种意义上,那道"替代人类工作"的门槛,可能已经悄悄迈了过去。


GPT-5.4 Thinking评对手Claude Opus 4.7发布对打工人的影响:


01

本次升级的关键


Anthropic将Opus 4.7的核心升级聚焦于高级软件工程与长时间任务执行,该模型可独立处理高难度编码工作,严格执行指令且主动验证输出,被官方称作当前最强通用可用模型,适配复杂推理和代理式编码场景。


大模型的竞争核心已从回答的逼真度转向任务的完成度,能否高效处理长文档、整合资料形成可交付物、长时间稳定执行任务,才是其胜任实际工作的关键,这一点也体现在Opus 4.7的官方发布重点中。


SWE-bench Multilingual 测试模型修复真实GitHub issue的多语言编程能力,Opus 4.7获80.5%、4.6获77.8%,提升2.7个百分点。

单看该数据只是常规迭代,同图右侧数据更具看点,后续再细说。

1M token长任务中,GraphWalks作为OpenAI的长上下文基准,将有向图以边列表形式填入1M token上下文,测试模型的图遍历能力,包含Parents(找节点直接父节点)和BFS广度优先搜索(找指定深度可达节点)两种考法,是Agent长任务的核心指标。

Parents 1M测试中,Opus 4.7的表现从71.1%提升至75.1%,提升4个百分点;BFS 1M测试中,其表现从41.2%大幅提升至58.6%,提升17.4个百分点。

换个场景再看。


Vending-Bench 2 让模型模拟经营一台自动售货机,测长时间工作流里的决策连贯性。

Opus 4.6 最终余额 8,018 美元,Opus 4.7 做到 10,937 美元。


同一台售货机,同一个时间窗口,Opus 4.7 多挣了 36%。

Agent视觉能力升级,ScreenSpot-Pro专测其屏幕定位能力:给模型专业软件高分辨率桌面截图+自然语言指令,让其定位常仅占图0.07%的UI元素,考验精细视觉。


低分辨率无工具时,Opus 4.6得分57.7%,Opus 4.7达69.0%,提升11.3个百分点;高分辨率下,Opus 4.7无工具即79.5%,叠加工具调用后跑分升至87.6%。



Opus 4.7视觉能力在XBOW等基准测试中得分较4.6翻倍,从54.5%升至98.5%的近满分水平,也让其计算机使用能力较4.6有天壤之别。



回看编程图,Anthropic用内部测试harness跑SWE-bench Multimodal,测试前端JS软件修bug,任务含UI截图等视觉素材,模型需结合图片与代码操作。


其Opus 4.7此项成绩从4.6的27.1%提升至34.5%,涨幅7.4个百分点。此次编程升级核心是让模型看懂屏幕,视觉能力提升后才能完成更复杂任务。


GPT-5.4与Gemini 3.1 Pro在最新评测中表现不佳。


GDPval-AA由Artificial Analysis基于OpenAI GDPval数据集打造,覆盖44类知识工作职业、9大GDP核心行业,任务均来自平均14年经验的资深从业者真实交付物,通过agent loop运行模型、盲测两两对比得出Elo分。


评测得分:Opus 4.7(1753)、Opus 4.6(1619)、GPT-5.4(1674)、Gemini 3.1 Pro(1314)。


其中Opus 4.7领先GPT-5.4 79分,领先Gemini 3.1 Pro 439分。



OfficeQA Pro是Databricks推出的企业级推理基准,语料涵盖近百年美国财政部公报,含8.9万页PDF、2600万个数字,要求模型精准找文档、解析表格与正文并跨文档分析推理。


Opus 4.7在此跑分达80.6%,远超Opus 4.6的57.1%,以及GPT-5.4的51.1%、Gemini 3.1 Pro的42.9%,跑分分别是后两者的1.6倍、1.9倍。


生物学跃升最亮眼:Structural Biology生物分子推理项中,Opus 4.6仅30.9%,4.7版本直接飙升至74.0%,单轮迭代提升2.4倍,是所有benchmark里涨幅最夸张的一项。


02

普通用户感受三大变化


第一个变化,指令遵循能力更强了。

Anthropic表示,Opus 4.7的指令遵循能力大幅提升,能逐条执行指令,不再松散理解、遗漏细节。但旧提示词可能出现意外结果,需用户重新调整;对普通用户而言,这能减少提示词玄学,让需求、格式、限制条件的撰写更具实际作用。


第二种变化,Claude 看图会更细。

Opus 4.7支持长边最高2576像素(约375万像素)的图像输入,像素量超此前Claude模型三倍。官方重点适配密集截图、复杂图表、精细结构图、像素级参考类任务,实际使用中可清晰识别密集数据截图、产品原型细节,提取复杂流程图信息,查看高分辨率海报或报表时减少细节丢失。


第三种变化,输出结果会更容易接近可交付的成品。

Anthropic表示,Opus 4.7在界面、幻灯片、文档等专业任务中更具审美与创造性,其文件系统记忆能力优化,可跨多轮多会话留存关键备注,减少背景重复说明,对常使用模型润色材料、整理项目、反复修改内容的用户而言,该提升比跑分提升更直观。



03

这次发布,安全很重要


一周前,Anthropic 刚刚发布 Project Glasswing,系统阐述了前沿模型在网络安全领域的风险与收益平衡。Opus 4.7 成为这套新框架下首个落地的模型。

官方没有回避短板:它的网络安全能力弱于 Mythos Preview,上线即配备自动检测和拦截高风险请求的护栏。合规的安全研究者可以申请加入新设立的 Cyber Verification Program。

从安全评估来看,Opus 4.7 与 4.6 的整体画像相近,在诚实性和抵抗恶意提示词注入上有所增强,部分细项则略有回落。


Anthropic 的定调很克制——「较为可靠且值得信任」,但也坦承距离理想状态仍有空间。这种表态本身,就是在拒绝将一次常规迭代包装成毫无代价的全面跃升。


04

谁会立刻受益


开发者、分析师、法务、研究人员及所有高频处理文档、表格、演示材料的人将最先受益。


官方早期测试中,合作方普遍反馈复杂工作流更稳定、错误恢复能力更强,文档推理、代码审查、数据分析、长上下文任务均有显著提升。



官方说明已标注需留意的要点,更高清图像会消耗更多Token,非必要建议先压缩图片。


Opus 4.7更换了分词器,相同输入Token量约增1.0-1.35倍,高Effort下输出Token也会增加。这对Claude应用普通用户,主要影响额度和响应体验;对使用龙虾、Hermes Agent等API的用户及团队客户,则直接增加成本。


好在Opus 4.7未涨价,与4.6、4.5定价一致,只是该定价本身已偏高。



05

Anthropic想传递的信号


Opus 4.7的发布彰显Anthropic的核心押注方向:长任务执行、视觉理解、工具协同、少监督交付,这也是大模型下一阶段的主战场。


其同步公测的Xhigh Effort、Task Nudgets,以及Claude Code中的/ultrareview,均围绕该方向打造。

除了官网公告外,Claude也公布了Opus 4.7的系统卡,长达232页,里面公布了更多值得关注的细节,限于篇幅再次我们不作展开。

回到日常使用的体感:Opus 4.7 更擅长把交代清楚的事一次做对,看图更细,产出更可直接落地。


"会聊天"到"会干活"的跨越,又往前挪了一截。


最强生产力模型的头衔,此刻属于 Opus 4.7。








📢 想获取更多 AI 大模型实战资料?

欢迎扫码加入【AI 大模型学习交流群

和行业伙伴一起,解锁 AI 落地全流程,

共享干货资源、交流技术难题!


图片/素材来源于网络,版权归原作者所有,侵删

一键关注 👇 点亮星标

科技前沿/行业快讯天天见




点击下方“阅读全文”查看更多内容

【声明】内容源于网络
0
0
觉醒AI科技
1234
内容 139
粉丝 0
觉醒AI科技 1234
总阅读3.6k
粉丝0
内容139