Claude Opus 4.7深夜炸场！胜任更长任务、自主检查，视觉能力拉满- 大数跨境

首页

Claude Opus 4.7深夜炸场！胜任更长任务、自主检查，视觉能力拉满

智东西

2026-04-17

导读：两眼一睁，Claude又更新了。

编译 | 杨京丽

编辑 | 李水青

4月17日，Anthropic发布新一代旗舰大模型Claude Opus 4.7，重点强化高级软件工程能力、多模态支持及任务执行精度。

Anthropic发布新模型Claude Opus 4.7（图源：X）

该模型在复杂任务处理中表现突出：高级软件工程能力显著提升；高分辨率图像处理性能达此前版本的3倍以上；Claude Code新增/ultrareview代码审查命令，可逐行检查代码变更。测试显示，其能严谨处理长时间任务，严格遵循指令并自主验证输出。

即日起，Opus 4.7全面上线Claude产品、API及Amazon Bedrock、谷歌云Vertex AI、Microsoft Foundry平台。定价与Opus 4.6一致：输入每百万token 5美元（约34元人民币），输出每百万token 25美元（约170.5元人民币）。

网友评论Claude推文（图源：X）

性能与多模态能力提升

测试中，Claude Opus 4.7在以下维度显著优于Opus 4.6：

指令遵循能力：严格按字面执行指令，避免前代模型的宽松解读或跳过内容问题，需用户优化提示词；

多模态支持增强：支持长边最高2576像素图像（约375万像素），是此前3倍以上，适用于精细视觉任务如屏幕操作、复杂图表解析；

专业任务效率：在金融Agent评测中表现最优，可产出严谨分析报告及专业演示文稿，跨任务整合能力更强；GDPval-AA第三方评测中获最高分；

记忆优化：强化基于文件系统的记忆能力，能在多会话任务中主动调用历史笔记推进新任务。

Opus 4.7模型基准测试表现（图源：Anthropic）

早期用户反馈积极：Intuit技术副总裁Clarence Huang指出其能在规划阶段自主发现逻辑错误；Augment Code CTO Igor Ostrovsky肯定其自动化流程处理能力，强调模型会主动判断而非简单附和。

多项基准测试领先

在跨模型对比测试中（vs Opus 4.6、GPT-4.5、Gemini 3.1 Pro）：

生物推理：Opus 4.7得分74.0%，较Opus 4.6（30.9%）提升1.4倍；

文档推理：以80.6%的得分大幅领先Opus 4.6（57.1%）、GPT-4.5（51.1%）及Gemini 3.1 Pro（42.9%）；

知识工作能力：Elo分数达1753，领先GPT-4.5（1674）、Opus 4.6（1619）、Gemini 3.1 Pro（1314）；

长上下文处理：在高难度广度优先搜索任务（BFS 1M）中得分58.6%，较Opus 4.6（41.2%）拉开17个百分点；

安全对齐表现：错位行为评分2.47（满分10分），略优于Opus 4.6（2.75），但弱于Mythos Preview（1.78）。

Anthropic评价其"整体对齐良好且值得信赖，但行为未达完全理想"。

功能更新与API优化

同步推出三项重要更新：

xhigh推理等级：新增介于high与max之间的推理深度选项，Claude Code默认启用；

任务预算公测：开发者可设定token分配策略，优化长任务执行效率；

代码审查增强：/ultrareview命令启动专项审查会话，Pro/Max用户享3次免费体验，可标记Bug与设计问题；Auto模式扩展至Max用户，减少操作确认中断。

Token消耗与效率平衡

需注意两项影响token用量的变化：

相同输入下文本处理消耗token可能增加35%；高推理等级下自主思考更充分，输出token相应增多。建议通过调整推理等级、设置任务预算或提示词优化控制用量。

评测显示，Opus 4.7在xhigh等级下以约10万token达到70%以上得分，优于Opus 4.6在max等级下13万token仅60%得分的表现。

市场展望

Opus 4.7在编程、文档推理等核心指标上进步实证，token效率同步提升，但实际场景表现仍需验证。随着模型迭代加速，行业期待OpenAI及DeepSeek等厂商的后续动作，大模型竞争格局将更趋激烈。

来源：Anthropic

【声明】内容源于网络

智东西

各类跨境出海行业相关资讯

内容 0

粉丝 0

智东西各类跨境出海行业相关资讯

总阅读0

粉丝0

内容0