大数跨境

Claude Opus 4.7来了,公开模型里的SOTA!不过用起来GPT味好浓

Claude Opus 4.7来了,公开模型里的SOTA!不过用起来GPT味好浓 量子位
2026-04-17
4
导读:是Anthropic的“稳稳接住”型选手
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

继Mythos预热后,Anthropic正式推出Claude Opus 4.7,引发广泛体验。

通过综合测试分析,该模型存在局部调整,但整体性能显著提升。

部分用户反馈其行为模式较前代有所变化,但这并非核心问题。

核心优势集中在Agentic coding、终端编码、工具调用和视觉推理等维度,部分专项能力略有回调。

Anthropic强调:

Opus 4.7是当前最强公开可用模型,但并非其技术峰值。

未公开的Mythos在基准测试中领先10%-15%,但定价为Opus 4.7的五倍。相比之下,Opus 4.7作为完成全安全验证的量产版本,具备平台开放性与成本优势。

Claude Opus 4.7核心升级四大方向

此次升级聚焦四大关键领域,体现显著技术进步。

高级软件工程能力提升

模型在复杂编码任务中表现突出:

  • SWE-bench Verified测试达78.2%;
  • SWE-bench Multimodal测试达72.7%;
  • Terminal-Bench 2.0达68.8%;
  • Rakuten-SWE-Bench生产任务处理量为前代三倍;
  • GitHub 93项任务编码基准提升13%。

关键进步体现在三方面:

其一,指令执行精确度显著提高,严格按字面响应提示词,规避了“灵活解读”带来的歧义。

其二,引入输出前自我验证机制,模拟资深工程师的代码自检流程。

其三,在多文件变更、模糊调试和跨服务审查等复杂场景中可靠性增强。Notion数据显示其多步骤工作流成功率提升14%,工具错误率下降至前代的三分之一。

视觉处理能力升级

长边分辨率支持扩展至2576像素(≈3.75百万像素),较前代提升三倍;XBOW视觉敏锐度达98.5%(前代54.5%)。

实际应用覆盖Figma设计稿解析、1080p终端截图识别、技术架构图解构及财务报表分析,可精准处理高密度UI元素与像素级细节。化学结构解析等专业化任务现可由单模型完成。

指令遵循与推理优化

模型实现严格的字面执行逻辑,对“禁用TypeScript”或“纯JSON输出”等指令无偏差响应。

该改进虽需用户调整提示词策略,但极大提升需精确控制场景的可靠性。在百万token长上下文推理中,BFS任务得分58.6%(前代41.2%),逻辑连贯性显著增强。

Agent功能强化

专为Agent应用场景设计,整体能力全方位提升:

Notion多步骤工作流成功率提升14%,工具调用错误率降至前代的三分之一;Vending-Bench 2长期模拟中最终余额达10937美元(前代8018美元);任务预算功能(测试版)支持开发者优化资源分配。

关键增强包括:

新增xhigh推理等级,在high与max间提供平衡选项;引入自适应思考模式动态分配计算资源;支持跨会话文件系统记忆,降低40%重复上下文输入;Claude Code提供/ultrareview专属审查命令。

安全架构与迁移指南

Anthropic主动弱化了Opus 4.7的网络安全能力,延续企业对负责任AI的承诺。针对高风险请求,系统自动触发防护机制阻断异常行为,同时为专业人士设立漏洞研究等合法用途的Cyber Verification计划。

开发者迁移时需注意:

新分词器导致token消耗增大约1.0-1.35倍;在high/xhigh级别下,多轮Agent交互的输出token会随会话深度增加。但内部测试显示,任务完成总token量下降,因错误率降低带来的效率提升可抵消单次调用成本。

商业部署与成本管理

Opus 4.7已在Claude全系产品及微软Foundry、谷歌Cloud Vertex AI、亚马逊Bedrock等云平台同步上线,定价保持输入5美元/百万tokens、输出25美元/百万tokens。

开发者可通过以下方式优化成本:

1. 测试阶段从high/xhigh级别起步逐步调整;
2. 利用任务预算功能控制长周期任务消耗;
3. 重构提示词强化硬性约束条件。

综合评估表明,复杂开发任务的完成效率提升将抵消token消耗增长,整体实现成本效益优化。

参考链接:
https://www.anthropic.com/news/claude-opus-4-7
[2]https://www.cnbc.com/2026/04/16/anthropic-claude-opus-4-7-model-mythos.html
[3]https://x.com/i/trending/2044560325509316766


【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 15042
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读182.6k
粉丝0
内容15.0k