新智元报道
Claude Opus 4.7正式发布:复杂任务与视觉能力实现突破
Anthropic正式推出Claude Opus 4.7,将其定义为当前可广泛使用的最强Claude模型。该版本在复杂任务执行、高清视觉理解和长链路工作流稳定性方面实现核心升级,主要提升方向包括更精准的指令遵循、更强的屏幕识别能力及更接近成品的输出质量。
官方明确本次升级聚焦三大方向:复杂任务完成度提升、视觉能力增强、长链路执行稳定性优化。尽管Agentic搜索能力略有调整,但模型在核心场景全面超越Opus 4.6。
视觉能力跨越式提升
模型在ScreenSpot-Pro基准测试中表现突出:高分辨率场景下无需工具辅助准确率达79.5%,结合工具调用后进一步提升至87.6%。在XBOW测试中得分从54.5%跃升至98.5%,实现接近满分的突破性进展。
新版本支持最高2576像素图像输入(约375万像素),较前代提升三倍,显著增强对密截图、复杂图表及精细结构图的解析能力。多模态编程测试(SWE-bench Multimodal)得分从27.1%提升至34.5%,证明视觉能力与代码任务的协同升级。
长链路任务稳定性突破
在1M token上下文基准测试中表现突出:GraphWalks BFS测试成绩从41.2%提升至58.6%,增幅达17.4个百分点。Vending-Bench模拟经营场景中资产增值36%,从8,018美元增至10,937美元,验证其长时间任务处理能力。
全面超越主流竞品
在GDPval-AA职业场景评估中以1753分领先,较GPT-5.4(1674分)高出79分,较Gemini 3.1 Pro(1314分)领先439分。OfficeQA Pro企业级文档处理测试得分80.6%,达到Gemini 3.1 Pro(42.9%)的1.9倍。
结构生物学推理测试表现尤为突出,从30.9%跃升至74.0%,实现2.4倍增长,成为所有基准测试中提升最显著的领域。
用户端三大核心体验升级
指令遵循精确度显著提高
模型对提示词的解析更趋严格,减少对指令细节的遗漏。用户需适当调整提示词格式以获得最佳效果,有助于降低提示工程试错成本。
图像处理精度提升
支持更高分辨率图像解析,可精准识别复杂界面元素(目标元素仅占0.07%的超小区域)。典型应用场景包括:密排数据截图解析、高精度原型识别、复杂流程图信息提取等。
产出接近交付标准
在文档排版、幻灯片设计等专业任务中的输出质量提升,具备更好审美能力与创造性。增强的跨会话记忆能力减少重复背景说明,提升长期任务处理效率。
企业应用关键考量
网络安全方面部署自动检测机制,对高风险请求实施拦截。安全评估显示其整体可靠度与Opus 4.6相近,但特定场景抵抗恶意提示能力略有调整。
使用需注意:高分辨率图像处理将增加约1.0-1.35倍Token消耗;新分词器可能导致同等内容的Token占用上升。价格体系保持与前代相同,未实施涨价政策。
开发者、数据分析师、法务及文档处理高频使用者将首先受益。该版本明确传递Anthropic技术方向:长任务稳定性、视觉理解与工具协同已成为大模型竞争新焦点。

