Claude Opus 4.7发布 多项能力显著提升
过去两个月,Claude Code用户普遍反映模型性能下降。AMD AI团队分析超6800条会话记录显示,模型思考深度下降67%,复杂任务处理能力严重退化。Anthropic近日正式推出Claude Opus 4.7,性能实现全面优化。
编程测试保持领先
SWE-bench Verified测试中得分87.6%,较Opus 4.6(80.8%)和Gemini 3.1 Pro(80.6%)持续断档第一。
智能体能力显著增强
SWE-bench Pro(复杂任务自主解决能力)准确率达64.3%,超越GPT-5.4(57.7%)和Gemini 3.1 Pro(54.2%)。官方表示可让用户减少监督,高效处理高难度任务。MCP工具调用准确率77.3%,电脑操作与金融分析均居行业首位。
文档理解大幅跃升
OfficeQA Pro测试准确率从57.1%提升至80.6%,增长23.5个百分点。复杂PDF及合同识别错误率显著下降,处理精度接近翻倍。
GDPVal-AA(高价值知识工作)测试得1753 Elo分;视觉测评CharXiv Reasoning提升至82.1%,图像分辨率增至约375万像素;长任务稳定性实验最终余额达10937美元,较上一代增长36.4%。
核心短板分析
搜索能力(BrowseComp)得79.3%,低于GPT-5.4 Pro(89.3%)及上一代(83.7%)。网络安全能力因安全策略被主动削弱,CyberGym测试结果有所下调。
Mythos Preview性能对比
Anthropic确认Opus 4.7不及内部模型Mythos Preview:后者在SWE-bench Verified和Pro测试中分别达93.9%与77.8%。该模型因网络安全能力过强,目前仅限小范围合作伙伴测试。
版本迭代与定价策略
Opus 4.7定价维持输入5美元/百万token、输出25美元/百万token。采用新分词器后同等内容token消耗增加1.0至1.35倍,Anthropic通过提高用户额度上限平衡影响。更新节奏保持约70天周期,当前版本已全面覆盖网页端、API及第三方平台。

