大数跨境

刚刚,Claude Opus 4.7突然发布:不是最强,但奥特曼又得失眠

刚刚,Claude Opus 4.7突然发布:不是最强,但奥特曼又得失眠 APPSO
2026-04-17
27
导读:靠谱,是比聪明更宝贵的品质
Anthropic 近期发展势头强劲,持续引领AI领域热潮。口碑与影响力稳步提升,几乎每日推出新产品或功能,用户已从初期兴奋转为常态化认知。
Claude Opus 4.7 于今日正式发布,延续品牌高水准表现。Anthropic 公告坦承:"这并非我们最强大的模型",暗示更高级的 Claude Mythos Preview 仍在内测阶段。
该版本核心突破在于可靠性:不仅具备高智商,更能在用户提出问题时主动校正方案缺陷,展现真正的工程协作价值。

当靠谱成为比聪明更稀缺的品质

基准测试印证显著提升:SWE-bench Pro 表现从前代 53.4% 跃升至 64.3%,领先 GPT-5.4(57.7%)和 Gemini 3.1 Pro(54.2%);CharXiv 视觉推理达 82.1%,分辨率提升至 2576 像素,使界面生成、文档排版等任务细节精度全面优化。
MCP-Atlas 工具调用评测得 77.3%,超越竞品;Harvey 法律平台测试中 BigLaw 基准得分 90.9%,精准区分转让条款与控制权变更条款等复杂问题。
虽在 BrowseComp 搜索评测中略有下滑,但源于模型拒绝虚构缺失信息,彰显数据严谨性。
向左滑动查看更多「成绩单」
这种可靠性已转化为实际生产力:Replit 开发平台反馈,Opus 4.7 会主动在技术讨论中提出改进建议;Hex 数据平台测试中,模型遇缺失数据时直接报错而非填充错误值,符合专业工程规范。
需注意,该特性可能改变交互习惯——模糊指令将被字面执行,用户需清晰表达需求以获取最佳结果。

任务韧性显著增强

Notion 团队测试显示,工具调用错误率降至前代三分之一,且能在工具链崩溃时自主绕行继续执行任务。
极端案例中,其在零人工干预下独立构建完整 Rust 文本转语音引擎,涵盖神经网络开发、SIMD 内核优化及浏览器演示,并完成全流程验证;Vercel 发现它能在系统级编码前进行数学证明,迈入严谨工程设计领域。

雇佣 AI「资深专家」的代价

交互场景验证细节处理能力

在三项严格测试中:
1. 黑胶唱片机界面:精准通过 CSS 还原金属光泽与呼吸光晕效果,拒绝色彩渐变敷衍;
2. 老式电风扇:严格遵守纯 CSS 要求,实现立体结构与流畅转速过渡;
3. 复古磁带随身听:完美复现录像带噪点效果及动态细节。

成本结构与新功能部署

Opus 4.7 已登陆 Claude 产品及 API、Amazon Bedrock、Google Vertex AI 和 Microsoft Foundry 平台。基础定价维持输入 5 美元/百万 token、输出 25 美元,但新分词器导致同等文本 token 消耗增加 1.0-1.35 倍,且启用「xhigh」超高难度级别后思考深度进一步提升成本。
配套推出两大功能:
/ultrareview:深度代码审查模式,免费试用于 Pro/Max 用户;
Auto Mode:Max 用户专属权限管理模式,在安全范围内自主推进长周期任务。
为控制成本,API 端提供「任务预算」公测功能,允许开发者设定长任务中的 token 消耗优先级。

战略克制与技术储备

Claude Mythos Preview 已以「Project Glasswing」名义限量开放网络安全研究,因网络攻防能力过强暂缓公开。Opus 4.7 主动压低相关能力,内置高风险请求自动拦截机制。
Anthropic 真正优势在于交付节奏——2 月 1 日至 3 月 24 日 52 天内更新 74 款产品,平均不到两天一次,精准解决职场办公痛点。稳定高频的更新模式已成为其核心护城河,为团队深度嵌入工作流提供可靠保障。
当前的 Opus 4.7 是生态压舱石,而 Mythos Preview 的面世将进一步扩展边界。
【声明】内容源于网络
0
0
APPSO
AI第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al
内容 0
粉丝 0
APPSO AI第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al
总阅读0
粉丝0
内容0