刚刚，Claude Opus 4.7突然发布：不是最强，但奥特曼又得失眠- 大数跨境

首页

刚刚，Claude Opus 4.7突然发布：不是最强，但奥特曼又得失眠

APPSO

2026-04-17

导读：靠谱，是比聪明更宝贵的品质

Anthropic 近期发展势头强劲，持续引领AI领域热潮。口碑与影响力稳步提升，几乎每日推出新产品或功能，用户已从初期兴奋转为常态化认知。

Claude Opus 4.7 于今日正式发布，延续品牌高水准表现。Anthropic 公告坦承："这并非我们最强大的模型"，暗示更高级的 Claude Mythos Preview 仍在内测阶段。

该版本核心突破在于可靠性：不仅具备高智商，更能在用户提出问题时主动校正方案缺陷，展现真正的工程协作价值。

当靠谱成为比聪明更稀缺的品质

基准测试印证显著提升：SWE-bench Pro 表现从前代 53.4% 跃升至 64.3%，领先 GPT-5.4（57.7%）和 Gemini 3.1 Pro（54.2%）；CharXiv 视觉推理达 82.1%，分辨率提升至 2576 像素，使界面生成、文档排版等任务细节精度全面优化。

MCP-Atlas 工具调用评测得 77.3%，超越竞品；Harvey 法律平台测试中 BigLaw 基准得分 90.9%，精准区分转让条款与控制权变更条款等复杂问题。

虽在 BrowseComp 搜索评测中略有下滑，但源于模型拒绝虚构缺失信息，彰显数据严谨性。

向左滑动查看更多「成绩单」

这种可靠性已转化为实际生产力：Replit 开发平台反馈，Opus 4.7 会主动在技术讨论中提出改进建议；Hex 数据平台测试中，模型遇缺失数据时直接报错而非填充错误值，符合专业工程规范。

需注意，该特性可能改变交互习惯——模糊指令将被字面执行，用户需清晰表达需求以获取最佳结果。

任务韧性显著增强

Notion 团队测试显示，工具调用错误率降至前代三分之一，且能在工具链崩溃时自主绕行继续执行任务。

极端案例中，其在零人工干预下独立构建完整 Rust 文本转语音引擎，涵盖神经网络开发、SIMD 内核优化及浏览器演示，并完成全流程验证；Vercel 发现它能在系统级编码前进行数学证明，迈入严谨工程设计领域。

雇佣 AI「资深专家」的代价

交互场景验证细节处理能力

在三项严格测试中：

1. 黑胶唱片机界面：精准通过 CSS 还原金属光泽与呼吸光晕效果，拒绝色彩渐变敷衍；

2. 老式电风扇：严格遵守纯 CSS 要求，实现立体结构与流畅转速过渡；

3. 复古磁带随身听：完美复现录像带噪点效果及动态细节。

成本结构与新功能部署

Opus 4.7 已登陆 Claude 产品及 API、Amazon Bedrock、Google Vertex AI 和 Microsoft Foundry 平台。基础定价维持输入 5 美元/百万 token、输出 25 美元，但新分词器导致同等文本 token 消耗增加 1.0-1.35 倍，且启用「xhigh」超高难度级别后思考深度进一步提升成本。