Claude Opus 4.7 深夜突袭：7 亿人的工作，一夜变天？- 大数跨境

首页

Claude Opus 4.7 深夜突袭：7 亿人的工作，一夜变天？

觉醒AI科技

2026-04-17

导读：点击蓝字关注我们Claude Opus 4.7，来了。

点击蓝字

关注我们

Claude Opus 4.7，来了。

Anthropic 刚刚将这柄"最强利器"推向市场——相比 Opus 4.6 的全面碾压式升级，让它成为当下真正能用的最强 Claude 模型。

除了Agentic搜索能力略有下降外，实现了全面碾压！

官方给这次升级定了四个关键词：复杂任务、视觉增强、长链路稳定、更少人工介入。

如果你用大模型写文档、读截图、做演示、整理材料——Opus 4.7 的体验跃迁，基本避不开。

最亮眼的是视觉能力：从 Opus 4.6 约 50% 的测试分数，直接飙到接近满分。

这道 AI 最大的视觉短板，被补上了。某种意义上，那道"替代人类工作"的门槛，可能已经悄悄迈了过去。

GPT-5.4 Thinking评对手Claude Opus 4.7发布对打工人的影响：

本次升级的关键

Anthropic将Opus 4.7的核心升级聚焦于高级软件工程与长时间任务执行，该模型可独立处理高难度编码工作，严格执行指令且主动验证输出，被官方称作当前最强通用可用模型，适配复杂推理和代理式编码场景。

大模型的竞争核心已从回答的逼真度转向任务的完成度，能否高效处理长文档、整合资料形成可交付物、长时间稳定执行任务，才是其胜任实际工作的关键，这一点也体现在Opus 4.7的官方发布重点中。

SWE-bench Multilingual 测试模型修复真实GitHub issue的多语言编程能力，Opus 4.7获80.5%、4.6获77.8%，提升2.7个百分点。

单看该数据只是常规迭代，同图右侧数据更具看点，后续再细说。

1M token长任务中，GraphWalks作为OpenAI的长上下文基准，将有向图以边列表形式填入1M token上下文，测试模型的图遍历能力，包含Parents（找节点直接父节点）和BFS广度优先搜索（找指定深度可达节点）两种考法，是Agent长任务的核心指标。

Parents 1M测试中，Opus 4.7的表现从71.1%提升至75.1%，提升4个百分点；BFS 1M测试中，其表现从41.2%大幅提升至58.6%，提升17.4个百分点。

换个场景再看。

Vending-Bench 2 让模型模拟经营一台自动售货机，测长时间工作流里的决策连贯性。

Opus 4.6 最终余额 8,018 美元，Opus 4.7 做到 10,937 美元。

同一台售货机，同一个时间窗口，Opus 4.7 多挣了 36%。

Agent视觉能力升级，ScreenSpot-Pro专测其屏幕定位能力：给模型专业软件高分辨率桌面截图+自然语言指令，让其定位常仅占图0.07%的UI元素，考验精细视觉。

低分辨率无工具时，Opus 4.6得分57.7%，Opus 4.7达69.0%，提升11.3个百分点；高分辨率下，Opus 4.7无工具即79.5%，叠加工具调用后跑分升至87.6%。

Opus 4.7视觉能力在XBOW等基准测试中得分较4.6翻倍，从54.5%升至98.5%的近满分水平，也让其计算机使用能力较4.6有天壤之别。

回看编程图，Anthropic用内部测试harness跑SWE-bench Multimodal，测试前端JS软件修bug，任务含UI截图等视觉素材，模型需结合图片与代码操作。

其Opus 4.7此项成绩从4.6的27.1%提升至34.5%，涨幅7.4个百分点。此次编程升级核心是让模型看懂屏幕，视觉能力提升后才能完成更复杂任务。

GPT-5.4与Gemini 3.1 Pro在最新评测中表现不佳。

GDPval-AA由Artificial Analysis基于OpenAI GDPval数据集打造，覆盖44类知识工作职业、9大GDP核心行业，任务均来自平均14年经验的资深从业者真实交付物，通过agent loop运行模型、盲测两两对比得出Elo分。

评测得分：Opus 4.7（1753）、Opus 4.6（1619）、GPT-5.4（1674）、Gemini 3.1 Pro（1314）。

其中Opus 4.7领先GPT-5.4 79分，领先Gemini 3.1 Pro 439分。

OfficeQA Pro是Databricks推出的企业级推理基准，语料涵盖近百年美国财政部公报，含8.9万页PDF、2600万个数字，要求模型精准找文档、解析表格与正文并跨文档分析推理。

Opus 4.7在此跑分达80.6%，远超Opus 4.6的57.1%，以及GPT-5.4的51.1%、Gemini 3.1 Pro的42.9%，跑分分别是后两者的1.6倍、1.9倍。

生物学跃升最亮眼：Structural Biology生物分子推理项中，Opus 4.6仅30.9%，4.7版本直接飙升至74.0%，单轮迭代提升2.4倍，是所有benchmark里涨幅最夸张的一项。

普通用户感受三大变化

第一个变化，指令遵循能力更强了。

Anthropic表示，Opus 4.7的指令遵循能力大幅提升，能逐条执行指令，不再松散理解、遗漏细节。但旧提示词可能出现意外结果，需用户重新调整；对普通用户而言，这能减少提示词玄学，让需求、格式、限制条件的撰写更具实际作用。

第二种变化，Claude 看图会更细。

Opus 4.7支持长边最高2576像素（约375万像素）的图像输入，像素量超此前Claude模型三倍。官方重点适配密集截图、复杂图表、精细结构图、像素级参考类任务，实际使用中可清晰识别密集数据截图、产品原型细节，提取复杂流程图信息，查看高分辨率海报或报表时减少细节丢失。

第三种变化，输出结果会更容易接近可交付的成品。

Anthropic表示，Opus 4.7在界面、幻灯片、文档等专业任务中更具审美与创造性，其文件系统记忆能力优化，可跨多轮多会话留存关键备注，减少背景重复说明，对常使用模型润色材料、整理项目、反复修改内容的用户而言，该提升比跑分提升更直观。

这次发布，安全很重要

一周前，Anthropic 刚刚发布 Project Glasswing，系统阐述了前沿模型在网络安全领域的风险与收益平衡。Opus 4.7 成为这套新框架下首个落地的模型。

官方没有回避短板：它的网络安全能力弱于 Mythos Preview，上线即配备自动检测和拦截高风险请求的护栏。合规的安全研究者可以申请加入新设立的 Cyber Verification Program。

从安全评估来看，Opus 4.7 与 4.6 的整体画像相近，在诚实性和抵抗恶意提示词注入上有所增强，部分细项则略有回落。

Anthropic 的定调很克制——「较为可靠且值得信任」，但也坦承距离理想状态仍有空间。这种表态本身，就是在拒绝将一次常规迭代包装成毫无代价的全面跃升。

谁会立刻受益

开发者、分析师、法务、研究人员及所有高频处理文档、表格、演示材料的人将最先受益。

官方早期测试中，合作方普遍反馈复杂工作流更稳定、错误恢复能力更强，文档推理、代码审查、数据分析、长上下文任务均有显著提升。

官方说明已标注需留意的要点，更高清图像会消耗更多Token，非必要建议先压缩图片。

Opus 4.7更换了分词器，相同输入Token量约增1.0-1.35倍，高Effort下输出Token也会增加。这对Claude应用普通用户，主要影响额度和响应体验；对使用龙虾、Hermes Agent等API的用户及团队客户，则直接增加成本。

好在Opus 4.7未涨价，与4.6、4.5定价一致，只是该定价本身已偏高。

Anthropic想传递的信号

Opus 4.7的发布彰显Anthropic的核心押注方向：长任务执行、视觉理解、工具协同、少监督交付，这也是大模型下一阶段的主战场。

其同步公测的Xhigh Effort、Task Nudgets，以及Claude Code中的/ultrareview，均围绕该方向打造。

除了官网公告外，Claude也公布了Opus 4.7的系统卡，长达232页，里面公布了更多值得关注的细节，限于篇幅再次我们不作展开。

回到日常使用的体感：Opus 4.7 更擅长把交代清楚的事一次做对，看图更细，产出更可直接落地。

"会聊天"到"会干活"的跨越，又往前挪了一截。

最强生产力模型的头衔，此刻属于 Opus 4.7。

📢 想获取更多 AI 大模型实战资料？

欢迎扫码加入【AI 大模型学习交流群】

和行业伙伴一起，解锁 AI 落地全流程，

共享干货资源、交流技术难题！

图片/素材来源于网络，其版权归原作者所有，侵删

一键关注 👇 点亮星标

科技前沿/行业快讯天天见

点击下方“阅读全文”查看更多内容

【声明】内容源于网络

觉醒AI科技

1234

内容 139

粉丝 0

觉醒AI科技 1234

总阅读3.6k

粉丝0

内容139