【灵思要闻】Claude Opus 4.7深夜发布：或令全球7亿劳动者面临岗位冲击- 大数跨境

【灵思要闻】Claude Opus 4.7深夜发布：或令全球7亿劳动者面临岗位冲击

灵思极智

2026-04-23

【灵思导读】Anthropic 正式推出 Claude Opus 4.7，主要升级聚焦于复杂任务执行、高清视觉识别及更稳健的长流程工作链路。对普通用户而言，最直观的感受是模型更服从指令、更擅长解析图像、产出更接近最终可用形态，同时也要留意Token消耗速度会加快。

刚刚，Anthropic 正式发布了 Claude Opus 4.7，并将其定位为当前可广泛使用的最强 Claude 模型。

其性能虽不及此前曝光的新一代Claude Mythos Preview那般惊人，但相比普通用户实际能使用的Opus 4.6则大幅领先，除了Agentic搜索能力稍有下降外，其他方面实现了全面超越。

官方给出的本次更新关键词：复杂任务、更强视觉、更稳的长链路执行，以及更少的人工介入需求。

只要还在用大模型撰写文档、解读截图、制作演示稿、整理资料，Opus 4.7所带来的体验变化就很难忽视。

本次更新最大的亮点是Opus 4.7的视觉能力获得巨大提升，测试成绩从Opus 4.6约50%的分数直接跃升至接近满分！

而这一突破补上了AI目前最大的视觉短板，或许已在不知不觉中跨过了替代人类工作的那道最关键的门槛！

GPT-5.4 Thinking 对Claude Opus 4.7发布给打工人带来的影响给出了如下评价：

本次升级的关键

在于复杂任务的完成度

Anthropic 将 Opus 4.7 的核心升级重点放在了高级软件工程与长时间任务执行上。

用户现已可以将过去需要密切监督的高难度编码工作交给它处理，它会更严格地遵循指令，也会在返回结果前主动尝试验证输出。

在 API 发布说明中，Anthropic 也将其称为当前最强的通用可用模型，面向复杂推理与代理式编码场景。

大模型竞争的焦点，正从回答得像不像，转向完成得完不完。仅能写出漂亮的答案已不够。

能否将长文档修改干净，能否将一系列资料整合成可交付成果，能否持续数十分钟甚至更久不偏离方向，这才是决定它在日常工作中能否真正替人承担重任的关键。

这一点从 Opus 4.7 的官方发布重点中便可直接看出。

纯编程只是开胃菜

SWE-bench Multilingual 评估的是模型修复真实 GitHub issue 的能力，覆盖多种编程语言。

Opus 4.7 得分 80.5%，Opus 4.6 为 77.8%，提升了 2.7 个百分点。

单看这个数字，似乎只是一次常规迭代。但同一张图右侧那组数据更有意思，后面再回头讲。

1M token 里的长任务

GraphWalks 是 OpenAI 推出的长上下文基准测试，将一张有向图以边列表形式塞满 1M token 上下文，让模型执行图遍历。

两种考察方式：一种是 Parents，给定一个节点让模型找出所有直接指向它的父节点；另一种是 BFS 广度优先搜索，从起点出发找到特定深度内可达的节点，对 Agent 执行多步骤长任务是硬性指标。

在 Parents 1M 部分，Opus 4.7 从 71.1% 提升至 75.1%，4 个百分点的常规改进。

而到了 BFS 1M，Opus 4.7 则从 41.2% 一口气提升到 58.6%，拉开了 17.4 个百分点。

换个场景再看。

Vending-Bench 2 让模型模拟经营一台自动售货机，测试长时间工作流中的决策连贯性。

Opus 4.6 最终余额 8,018 美元，Opus 4.7 达到 10,937 美元。

同一台售货机，相同时间窗口，Opus 4.7 多赚了 36%。

Agent 的眼睛换了代

ScreenSpot-Pro 测试的是 Agent 的屏幕定位能力。

给模型一张 VSCode、Photoshop、AutoCAD 等专业软件的高分辨率桌面截图加上一条自然语言指令，让它定位到具体的 UI 元素。在高分辨率屏幕中，目标 UI 元素通常只占整张图的 0.07%，极其考验精细视觉。

同样在低分辨率且不带工具的情况下，Opus 4.6 得分 57.7%，Opus 4.7 得分 69.0%，提升了 11.3 个百分点。

切换到高分辨率，Opus 4.7 不带工具就达到了 79.5%。叠加工具调用后，得分直接来到 87.6%。

视觉能力在某些测试（如 XBOW 的基准测试）中，Opus 4.7 相比 Opus 4.6 得分直接翻倍，从 54.5% 跃升至接近满分的 98.5%！

这造就了 Opus 4.7 相比 4.6 在计算机使用（Computer Use）能力上的天壤之别！

回到前面留的那张编程图。

SWE-bench Multimodal 这项测试中，Anthropic 是用内部实现的测试 harness 运行的。

测试的是前端 JS 软件修 bug，任务中带有 UI 截图、效果图等视觉素材，模型需要结合图片和代码一起工作。

从 Opus 4.6 的 27.1% 做到 Opus 4.7 的 34.5%，一口气提升了 7.4 个百分点。

Opus 4.7 的编程升级，重点在于让模型看懂屏幕。眼睛换代了，脑子才能干更复杂的活。

GPT-5.4 和 Gemini 3.1 Pro 都没扛住

前面全是自身对比，现在来看看与老对手们的较量。

GDPval-AA 是 Artificial Analysis 基于 OpenAI GDPval 数据集做的评估。

它覆盖了 44 种知识工作职业、9 大 GDP 核心行业，任务来自资深职业人士（平均 14 年经验）的真实交付物。AA 版本让模型在 agent loop 中工作，采用盲测两两对比计算 Elo 分。

Opus 4.7 得 1753 分，Opus 4.6 得 1619 分，GPT-5.4 得 1674 分，Gemini 3.1 Pro 得 1314 分。

Opus 4.7 比 GPT-5.4 高出 79 分，比 Gemini 3.1 Pro 高出 439 分。

OfficeQA Pro 是 Databricks 推出的企业级推理基准，语料为近 100 年的美国财政部公报，共 8.9 万页 PDF、2600 万个数字。模型需精准找到文档、解析表格和正文、跨文档进行分析推理。

在此项测试中，Opus 4.7 的得分高达 80.6%，而 Opus 4.6 仅为 57.1%，GPT-5.4 和 Gemini 3.1 Pro 更低，分别为 51.1% 和 42.9%。

换句话说，Opus 4.7 是 GPT-5.4 的 1.6 倍，是 Gemini 3.1 Pro 的 1.9 倍。

跃升最突出的是生物学

翻到最后一项，Structural Biology，生物分子推理。

Opus 4.6 仅为 30.9%。而 Opus 4.7 直接冲到了 74.0%。

一次版本迭代，从三成到七成半，达到 2.4 倍。

堪称所有 benchmark 中跃升最显著的一项。

普通用户最先感受到的

是三大变化

第一个变化，指令遵循能力更强了。

Anthropic 提到，Opus 4.7 的指令遵循能力大幅提升，过去许多模型会松散理解、遗漏细节，Opus 4.7 则更倾向于逐条执行。

代价是，旧的提示词有时会产生意料之外的结果，用户需要重新调整写法。

对普通用户而言，这会直接减少提示词玄学，写需求、定格式、列限制条件会变得更有用。

第二个变化，Claude 看图会更细致。

Opus 4.7 支持长边最高 2576 像素的图像输入，约 375 万像素，是此前 Claude 模型的三倍以上。

官方特别提到了几个场景：密集截图、复杂图表、精细结构图、需要像素级参考的任务。

放到实际使用中，这对应的就是看懂一页密密麻麻的数据截图，识别产品原型细节，从复杂流程图中提取信息，读取高分辨率海报或报表时减少细节丢失。

第三个变化，输出结果更容易接近可交付的成品。

Anthropic 提到，Opus 4.7 在界面、幻灯片、文档等专业任务上更具审美性，也更有创造性。

它在基于文件系统的记忆方面做得更好，能跨多轮、多会话记住关键备注，减少重复交代背景。

对于经常用模型润色材料、整理项目、反复修改同一份内容的人来说，这种提升会比跑分的提升来得更直观。

这次发布

安全也被摆在了同样重要的位置

Anthropic 在一周前刚刚公布 Project Glasswing，专门讨论了前沿模型在网络安全方向的风险与收益。

Opus 4.7 成为这套新思路下首个公开部署的模型，官方强调，它的网络安全能力弱于 Mythos Preview，并且上线时带有自动检测和拦截高风险网络安全请求的护栏。

合规的安全研究人员则可以申请加入新的 Cyber Verification Program。

从安全评估看，Opus 4.7 与 Opus 4.6 的整体安全画像相近，在诚实性和抵抗恶意提示词注入方面更强，在某些细项上也存在小幅减弱。

Anthropic 的结论是，它整体上「较为可靠且值得信任」，距离理想状态仍有空间。

这说明，Anthropic 没有将发布包装成一次毫无代价的全面跃升。

谁会立刻受益

谁又要多留一个心眼

最先受益的人群很清楚：开发者、分析师、法务、研究人员，以及所有高频处理文档、表格、演示材料的人。

官方早期测试反馈中，许多合作方都提到同样的几件事：复杂工作流更稳了，错误恢复能力更强了，文档推理、代码审查、数据分析、长上下文任务都有明显提升。

需要多留一个心眼的地方也已写在官方说明中。

更高分辨率的图像会消耗更多 Token，用户用不到这些细节时，最好先压缩图片。

Opus 4.7 还更换了分词器（Tokenizer），同样的输入可能会多出大约 1.0 到 1.35 倍的 Token，高 Effort 下输出 Token 也会增加。

对于直接在 Claude 应用里聊天的普通用户，这更多会体现在额度和响应体验上。

对于使用龙虾和Hermes Agent这类API的用户以及团队客户，这就是实实在在的成本变量。

好在价格方面，Opus 4.7 与 4.6 及 4.5 保持一致，没有涨价，但这个价格本身其实就已经足够昂贵了…

Anthropic想传递的信号

已经很清楚了

从 Opus 4.7 这次发布能看出，Anthropic 眼下押注的方向已经很明确：长任务执行、视觉理解、工具协同、少监督交付，这几项能力正在被打包成下一阶段的大模型主战场。

官方同步上线的 Xhigh Effort（思考程度介于 high 和 max 之间）、Task Nudgets 公测，以及 Claude Code 中的 /ultrareview，也都围绕着这个方向在推进。

除了官网公告外，Claude 也公布了 Opus 4.7 的系统卡，长达 232 页，里面公布了更多值得关注的细节，限于篇幅此处不作展开。

对普通用户而言，对 Claude Opus 4.7 更直接的感受会是：交代清楚后，它更容易把事情做对，看图更细，写出来的东西更能直接拿去用。

大模型从会聊天走向会干活，这一步又往前迈了一大截。

真正能干好活的最强生产力模型，从 Opus 4.6，变成了 Opus 4.7。

———— END ————

灵思极智旗下“极智系列”三款AI智能应用

灵思极智让AI为各行业赋能

打造[超级企业]+[超级个体]

“让人回归人的价值”！

用灵思，创极智！点击关注“灵思极智”

关注后，两步置顶服务号，可第一时间收到灵思极智推文！

【声明】内容源于网络

灵思极智

AI领域超级创造工厂，用灵思，创极智！

内容 176

粉丝 0

灵思极智 AI领域超级创造工厂，用灵思，创极智！

总阅读135

粉丝0

内容176