大数跨境

【灵思要闻】Claude Opus 4.7深夜发布:或令全球7亿劳动者面临岗位冲击

【灵思要闻】Claude Opus 4.7深夜发布:或令全球7亿劳动者面临岗位冲击 灵思极智
2026-04-23
3

【灵思导读】Anthropic 正式推出 Claude Opus 4.7,主要升级聚焦于复杂任务执行、高清视觉识别及更稳健的长流程工作链路。对普通用户而言,最直观的感受是模型更服从指令、更擅长解析图像、产出更接近最终可用形态,同时也要留意Token消耗速度会加快。

刚刚,Anthropic 正式发布了 Claude Opus 4.7,并将其定位为当前可广泛使用的最强 Claude 模型。

其性能虽不及此前曝光的新一代Claude Mythos Preview那般惊人,但相比普通用户实际能使用的Opus 4.6则大幅领先,除了Agentic搜索能力稍有下降外,其他方面实现了全面超越。

官方给出的本次更新关键词:复杂任务、更强视觉、更稳的长链路执行,以及更少的人工介入需求。

只要还在用大模型撰写文档、解读截图、制作演示稿、整理资料,Opus 4.7所带来的体验变化就很难忽视。

本次更新最大的亮点是Opus 4.7的视觉能力获得巨大提升,测试成绩从Opus 4.6约50%的分数直接跃升至接近满分!

而这一突破补上了AI目前最大的视觉短板,或许已在不知不觉中跨过了替代人类工作的那道最关键的门槛!

GPT-5.4 Thinking 对Claude Opus 4.7发布给打工人带来的影响给出了如下评价:

本次升级的关键

在于复杂任务的完成度

Anthropic 将 Opus 4.7 的核心升级重点放在了高级软件工程与长时间任务执行上。

用户现已可以将过去需要密切监督的高难度编码工作交给它处理,它会更严格地遵循指令,也会在返回结果前主动尝试验证输出。

在 API 发布说明中,Anthropic 也将其称为当前最强的通用可用模型,面向复杂推理与代理式编码场景。

大模型竞争的焦点,正从回答得像不像,转向完成得完不完。仅能写出漂亮的答案已不够。

能否将长文档修改干净,能否将一系列资料整合成可交付成果,能否持续数十分钟甚至更久不偏离方向,这才是决定它在日常工作中能否真正替人承担重任的关键。

这一点从 Opus 4.7 的官方发布重点中便可直接看出。

纯编程只是开胃菜

SWE-bench Multilingual 评估的是模型修复真实 GitHub issue 的能力,覆盖多种编程语言。

Opus 4.7 得分 80.5%,Opus 4.6 为 77.8%,提升了 2.7 个百分点。

单看这个数字,似乎只是一次常规迭代。但同一张图右侧那组数据更有意思,后面再回头讲。

1M token 里的长任务

GraphWalks 是 OpenAI 推出的长上下文基准测试,将一张有向图以边列表形式塞满 1M token 上下文,让模型执行图遍历。

两种考察方式:一种是 Parents,给定一个节点让模型找出所有直接指向它的父节点;另一种是 BFS 广度优先搜索,从起点出发找到特定深度内可达的节点,对 Agent 执行多步骤长任务是硬性指标。

在 Parents 1M 部分,Opus 4.7 从 71.1% 提升至 75.1%,4 个百分点的常规改进。

而到了 BFS 1M,Opus 4.7 则从 41.2% 一口气提升到 58.6%,拉开了 17.4 个百分点。

换个场景再看。

Vending-Bench 2 让模型模拟经营一台自动售货机,测试长时间工作流中的决策连贯性。

Opus 4.6 最终余额 8,018 美元,Opus 4.7 达到 10,937 美元。

同一台售货机,相同时间窗口,Opus 4.7 多赚了 36%。

Agent 的眼睛换了代

ScreenSpot-Pro 测试的是 Agent 的屏幕定位能力。

给模型一张 VSCode、Photoshop、AutoCAD 等专业软件的高分辨率桌面截图加上一条自然语言指令,让它定位到具体的 UI 元素。在高分辨率屏幕中,目标 UI 元素通常只占整张图的 0.07%,极其考验精细视觉。

同样在低分辨率且不带工具的情况下,Opus 4.6 得分 57.7%,Opus 4.7 得分 69.0%,提升了 11.3 个百分点。

切换到高分辨率,Opus 4.7 不带工具就达到了 79.5%。叠加工具调用后,得分直接来到 87.6%。

视觉能力在某些测试(如 XBOW 的基准测试)中,Opus 4.7 相比 Opus 4.6 得分直接翻倍,从 54.5% 跃升至接近满分的 98.5%!

这造就了 Opus 4.7 相比 4.6 在计算机使用(Computer Use)能力上的天壤之别!

回到前面留的那张编程图。

SWE-bench Multimodal 这项测试中,Anthropic 是用内部实现的测试 harness 运行的。

测试的是前端 JS 软件修 bug,任务中带有 UI 截图、效果图等视觉素材,模型需要结合图片和代码一起工作。

从 Opus 4.6 的 27.1% 做到 Opus 4.7 的 34.5%,一口气提升了 7.4 个百分点。

Opus 4.7 的编程升级,重点在于让模型看懂屏幕。眼睛换代了,脑子才能干更复杂的活。

GPT-5.4 和 Gemini 3.1 Pro 都没扛住

前面全是自身对比,现在来看看与老对手们的较量。

GDPval-AA 是 Artificial Analysis 基于 OpenAI GDPval 数据集做的评估。

它覆盖了 44 种知识工作职业、9 大 GDP 核心行业,任务来自资深职业人士(平均 14 年经验)的真实交付物。AA 版本让模型在 agent loop 中工作,采用盲测两两对比计算 Elo 分。

Opus 4.7 得 1753 分,Opus 4.6 得 1619 分,GPT-5.4 得 1674 分,Gemini 3.1 Pro 得 1314 分。

Opus 4.7 比 GPT-5.4 高出 79 分,比 Gemini 3.1 Pro 高出 439 分。

OfficeQA Pro 是 Databricks 推出的企业级推理基准,语料为近 100 年的美国财政部公报,共 8.9 万页 PDF、2600 万个数字。模型需精准找到文档、解析表格和正文、跨文档进行分析推理。

在此项测试中,Opus 4.7 的得分高达 80.6%,而 Opus 4.6 仅为 57.1%,GPT-5.4 和 Gemini 3.1 Pro 更低,分别为 51.1% 和 42.9%。

换句话说,Opus 4.7 是 GPT-5.4 的 1.6 倍,是 Gemini 3.1 Pro 的 1.9 倍。

跃升最突出的是生物学

翻到最后一项,Structural Biology,生物分子推理。

Opus 4.6 仅为 30.9%。而 Opus 4.7 直接冲到了 74.0%。

一次版本迭代,从三成到七成半,达到 2.4 倍。

堪称所有 benchmark 中跃升最显著的一项。

普通用户最先感受到的

是三大变化

第一个变化,指令遵循能力更强了。

Anthropic 提到,Opus 4.7 的指令遵循能力大幅提升,过去许多模型会松散理解、遗漏细节,Opus 4.7 则更倾向于逐条执行。

代价是,旧的提示词有时会产生意料之外的结果,用户需要重新调整写法。

对普通用户而言,这会直接减少提示词玄学,写需求、定格式、列限制条件会变得更有用。

第二个变化,Claude 看图会更细致。

Opus 4.7 支持长边最高 2576 像素的图像输入,约 375 万像素,是此前 Claude 模型的三倍以上。

官方特别提到了几个场景:密集截图、复杂图表、精细结构图、需要像素级参考的任务。

放到实际使用中,这对应的就是看懂一页密密麻麻的数据截图,识别产品原型细节,从复杂流程图中提取信息,读取高分辨率海报或报表时减少细节丢失。

第三个变化,输出结果更容易接近可交付的成品。

Anthropic 提到,Opus 4.7 在界面、幻灯片、文档等专业任务上更具审美性,也更有创造性。

它在基于文件系统的记忆方面做得更好,能跨多轮、多会话记住关键备注,减少重复交代背景。

对于经常用模型润色材料、整理项目、反复修改同一份内容的人来说,这种提升会比跑分的提升来得更直观。

这次发布

安全也被摆在了同样重要的位置

Anthropic 在一周前刚刚公布 Project Glasswing,专门讨论了前沿模型在网络安全方向的风险与收益。

Opus 4.7 成为这套新思路下首个公开部署的模型,官方强调,它的网络安全能力弱于 Mythos Preview,并且上线时带有自动检测和拦截高风险网络安全请求的护栏。

合规的安全研究人员则可以申请加入新的 Cyber Verification Program。

从安全评估看,Opus 4.7 与 Opus 4.6 的整体安全画像相近,在诚实性和抵抗恶意提示词注入方面更强,在某些细项上也存在小幅减弱。

Anthropic 的结论是,它整体上「较为可靠且值得信任」,距离理想状态仍有空间。

这说明,Anthropic 没有将发布包装成一次毫无代价的全面跃升。

谁会立刻受益

谁又要多留一个心眼

最先受益的人群很清楚:开发者、分析师、法务、研究人员,以及所有高频处理文档、表格、演示材料的人。

官方早期测试反馈中,许多合作方都提到同样的几件事:复杂工作流更稳了,错误恢复能力更强了,文档推理、代码审查、数据分析、长上下文任务都有明显提升。

需要多留一个心眼的地方也已写在官方说明中。

更高分辨率的图像会消耗更多 Token,用户用不到这些细节时,最好先压缩图片。

Opus 4.7 还更换了分词器(Tokenizer),同样的输入可能会多出大约 1.0 到 1.35 倍的 Token,高 Effort 下输出 Token 也会增加。

对于直接在 Claude 应用里聊天的普通用户,这更多会体现在额度和响应体验上。

对于使用龙虾和Hermes Agent这类API的用户以及团队客户,这就是实实在在的成本变量。

好在价格方面,Opus 4.7 与 4.6 及 4.5 保持一致,没有涨价,但这个价格本身其实就已经足够昂贵了…

Anthropic想传递的信号

已经很清楚了

从 Opus 4.7 这次发布能看出,Anthropic 眼下押注的方向已经很明确:长任务执行、视觉理解、工具协同、少监督交付,这几项能力正在被打包成下一阶段的大模型主战场。

官方同步上线的 Xhigh Effort(思考程度介于 high 和 max 之间)、Task Nudgets 公测,以及 Claude Code 中的 /ultrareview,也都围绕着这个方向在推进。

除了官网公告外,Claude 也公布了 Opus 4.7 的系统卡,长达 232 页,里面公布了更多值得关注的细节,限于篇幅此处不作展开。

对普通用户而言,对 Claude Opus 4.7 更直接的感受会是:交代清楚后,它更容易把事情做对,看图更细,写出来的东西更能直接拿去用。

大模型从会聊天走向会干活,这一步又往前迈了一大截。

真正能干好活的最强生产力模型,从 Opus 4.6,变成了 Opus 4.7。


————  END  ————


灵思极智旗下“极智系列”三款AI智能应用

图片




灵思极智让AI为各行业赋能
打造[超级企业]+[超级个体]
“让人回归人的价值”!
用灵思,创极智!点击关注“灵思极智”
图片


关注后,两步置顶服务号,可第一时间收到灵思极智推文!


图片

【声明】内容源于网络
0
0
灵思极智
AI领域超级创造工厂,用灵思,创极智!
内容 176
粉丝 0
灵思极智 AI领域超级创造工厂,用灵思,创极智!
总阅读135
粉丝0
内容176