衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
继Mythos预热后,Anthropic正式推出Claude Opus 4.7,引发广泛体验。
通过综合测试分析,该模型存在局部调整,但整体性能显著提升。
部分用户反馈其行为模式较前代有所变化,但这并非核心问题。
核心优势集中在Agentic coding、终端编码、工具调用和视觉推理等维度,部分专项能力略有回调。
Anthropic强调:
Opus 4.7是当前最强公开可用模型,但并非其技术峰值。
未公开的Mythos在基准测试中领先10%-15%,但定价为Opus 4.7的五倍。相比之下,Opus 4.7作为完成全安全验证的量产版本,具备平台开放性与成本优势。
Claude Opus 4.7核心升级四大方向
此次升级聚焦四大关键领域,体现显著技术进步。
高级软件工程能力提升
模型在复杂编码任务中表现突出:
- SWE-bench Verified测试达78.2%;
- SWE-bench Multimodal测试达72.7%;
- Terminal-Bench 2.0达68.8%;
- Rakuten-SWE-Bench生产任务处理量为前代三倍;
- GitHub 93项任务编码基准提升13%。
关键进步体现在三方面:
其一,指令执行精确度显著提高,严格按字面响应提示词,规避了“灵活解读”带来的歧义。
其二,引入输出前自我验证机制,模拟资深工程师的代码自检流程。
其三,在多文件变更、模糊调试和跨服务审查等复杂场景中可靠性增强。Notion数据显示其多步骤工作流成功率提升14%,工具错误率下降至前代的三分之一。
视觉处理能力升级
长边分辨率支持扩展至2576像素(≈3.75百万像素),较前代提升三倍;XBOW视觉敏锐度达98.5%(前代54.5%)。
实际应用覆盖Figma设计稿解析、1080p终端截图识别、技术架构图解构及财务报表分析,可精准处理高密度UI元素与像素级细节。化学结构解析等专业化任务现可由单模型完成。
指令遵循与推理优化
模型实现严格的字面执行逻辑,对“禁用TypeScript”或“纯JSON输出”等指令无偏差响应。
该改进虽需用户调整提示词策略,但极大提升需精确控制场景的可靠性。在百万token长上下文推理中,BFS任务得分58.6%(前代41.2%),逻辑连贯性显著增强。
Agent功能强化
专为Agent应用场景设计,整体能力全方位提升:
Notion多步骤工作流成功率提升14%,工具调用错误率降至前代的三分之一;Vending-Bench 2长期模拟中最终余额达10937美元(前代8018美元);任务预算功能(测试版)支持开发者优化资源分配。
关键增强包括:
新增xhigh推理等级,在high与max间提供平衡选项;引入自适应思考模式动态分配计算资源;支持跨会话文件系统记忆,降低40%重复上下文输入;Claude Code提供/ultrareview专属审查命令。
安全架构与迁移指南
Anthropic主动弱化了Opus 4.7的网络安全能力,延续企业对负责任AI的承诺。针对高风险请求,系统自动触发防护机制阻断异常行为,同时为专业人士设立漏洞研究等合法用途的Cyber Verification计划。
开发者迁移时需注意:
新分词器导致token消耗增大约1.0-1.35倍;在high/xhigh级别下,多轮Agent交互的输出token会随会话深度增加。但内部测试显示,任务完成总token量下降,因错误率降低带来的效率提升可抵消单次调用成本。
商业部署与成本管理
Opus 4.7已在Claude全系产品及微软Foundry、谷歌Cloud Vertex AI、亚马逊Bedrock等云平台同步上线,定价保持输入5美元/百万tokens、输出25美元/百万tokens。
开发者可通过以下方式优化成本:
1. 测试阶段从high/xhigh级别起步逐步调整;
2. 利用任务预算功能控制长周期任务消耗;
3. 重构提示词强化硬性约束条件。
综合评估表明,复杂开发任务的完成效率提升将抵消token消耗增长,整体实现成本效益优化。
参考链接:
https://www.anthropic.com/news/claude-opus-4-7
[2]https://www.cnbc.com/2026/04/16/anthropic-claude-opus-4-7-model-mythos.html
[3]https://x.com/i/trending/2044560325509316766

