大数跨境

Claude Opus 4.7深夜炸场!胜任更长任务、自主检查,视觉能力拉满

Claude Opus 4.7深夜炸场!胜任更长任务、自主检查,视觉能力拉满 智东西
2026-04-17
6
导读:两眼一睁,Claude又更新了。

编译 | 杨京丽
编辑 | 李水青
4月17日,Anthropic发布新一代旗舰大模型Claude Opus 4.7,重点强化高级软件工程能力、多模态支持及任务执行精度。

Anthropic发布新模型Claude Opus 4.7(图源:X)

该模型在复杂任务处理中表现突出:高级软件工程能力显著提升;高分辨率图像处理性能达此前版本的3倍以上;Claude Code新增/ultrareview代码审查命令,可逐行检查代码变更。测试显示,其能严谨处理长时间任务,严格遵循指令并自主验证输出。

即日起,Opus 4.7全面上线Claude产品、API及Amazon Bedrock、谷歌云Vertex AI、Microsoft Foundry平台。定价与Opus 4.6一致:输入每百万token 5美元(约34元人民币),输出每百万token 25美元(约170.5元人民币)。

网友评论Claude推文(图源:X)

性能与多模态能力提升

测试中,Claude Opus 4.7在以下维度显著优于Opus 4.6:
指令遵循能力:严格按字面执行指令,避免前代模型的宽松解读或跳过内容问题,需用户优化提示词;
多模态支持增强:支持长边最高2576像素图像(约375万像素),是此前3倍以上,适用于精细视觉任务如屏幕操作、复杂图表解析;
专业任务效率:在金融Agent评测中表现最优,可产出严谨分析报告及专业演示文稿,跨任务整合能力更强;GDPval-AA第三方评测中获最高分;
记忆优化:强化基于文件系统的记忆能力,能在多会话任务中主动调用历史笔记推进新任务。

Opus 4.7模型基准测试表现(图源:Anthropic)

早期用户反馈积极:Intuit技术副总裁Clarence Huang指出其能在规划阶段自主发现逻辑错误;Augment Code CTO Igor Ostrovsky肯定其自动化流程处理能力,强调模型会主动判断而非简单附和。

多项基准测试领先

在跨模型对比测试中(vs Opus 4.6、GPT-4.5、Gemini 3.1 Pro):
生物推理:Opus 4.7得分74.0%,较Opus 4.6(30.9%)提升1.4倍;
文档推理:以80.6%的得分大幅领先Opus 4.6(57.1%)、GPT-4.5(51.1%)及Gemini 3.1 Pro(42.9%);
知识工作能力:Elo分数达1753,领先GPT-4.5(1674)、Opus 4.6(1619)、Gemini 3.1 Pro(1314);
长上下文处理:在高难度广度优先搜索任务(BFS 1M)中得分58.6%,较Opus 4.6(41.2%)拉开17个百分点;
安全对齐表现:错位行为评分2.47(满分10分),略优于Opus 4.6(2.75),但弱于Mythos Preview(1.78)。
Anthropic评价其"整体对齐良好且值得信赖,但行为未达完全理想"。

功能更新与API优化

同步推出三项重要更新:
xhigh推理等级:新增介于high与max之间的推理深度选项,Claude Code默认启用;
任务预算公测:开发者可设定token分配策略,优化长任务执行效率;
代码审查增强:/ultrareview命令启动专项审查会话,Pro/Max用户享3次免费体验,可标记Bug与设计问题;Auto模式扩展至Max用户,减少操作确认中断。

Token消耗与效率平衡

需注意两项影响token用量的变化:
相同输入下文本处理消耗token可能增加35%;高推理等级下自主思考更充分,输出token相应增多。建议通过调整推理等级、设置任务预算或提示词优化控制用量。
评测显示,Opus 4.7在xhigh等级下以约10万token达到70%以上得分,优于Opus 4.6在max等级下13万token仅60%得分的表现。

市场展望

Opus 4.7在编程、文档推理等核心指标上进步实证,token效率同步提升,但实际场景表现仍需验证。随着模型迭代加速,行业期待OpenAI及DeepSeek等厂商的后续动作,大模型竞争格局将更趋激烈。
来源:Anthropic
【声明】内容源于网络
0
0
智东西
各类跨境出海行业相关资讯
内容 0
粉丝 0
智东西 各类跨境出海行业相关资讯
总阅读0
粉丝0
内容0