大数跨境
0
0

Anthropic估值达3500亿美元后,推出Claude Opus 4.5,测试表现超GPT-5.1和Gemini 3 Pro

Anthropic估值达3500亿美元后,推出Claude Opus 4.5,测试表现超GPT-5.1和Gemini 3 Pro 诺亚精选
2025-11-26
0
导读:一次性完美复刻《我的世界》

来源|智东西


不仅领先于Claude Sonnet 4.5,还超过了Gemini 3 Pro和GPT-5.1 Codex-Max
智东西11月25日报道,Anthropic发布了自家的旗舰编程模型Claude Opus 4.5。Anthropic称,这是全球范围内在编程、agents和计算机使用方面最强大的模型。
在真实世界软件工程测试SWE-bench Verified中,Claude Opus 4.5成为首款得分超过80%的AI模型,不仅领先于自家的Claude Sonnet 4.5,还超过了上周发布的Gemini 3 Pro和GPT-5.1 Codex-Max。
Anthropic还把该公司面试人类工程师的高难度居家考试交给Claude Opus 4.5,结果,在规定的两小时内,Claude Opus 4.5的得分高于以往任何人类应聘者,这表型AI模型在重要技术技能方面,已经超越了优秀的人类应聘者。
编程并非Claude Opus 4.5唯一的改进,其视觉、推理和数学能力都优于前代产品,可较好地胜任深度研究、处理幻灯片和电子表格等日常任务。
与此同时,Claude Opus系列模型的价格,这回真被Anthropic打下来了。Claude Opus 4.5的定价为每百万tokens 5美元(输入)/25美元(输出),仅为前代Claude Opus 4.1的1/3。同时,Anthropic还移除了专门针对Opus系列的用量限制。
Claude Opus 4.5现已在Claude应用程序、API中可用,不过,使用Opus前,用户还得开一个200美元/月的最高档套餐。Claude Opus 4.5也已在AWS、谷歌云和微软Azure三大主流云平台上线。
01.
前端表现再飞跃
还一次性完美复刻《我的世界》


Claude Opus 4.5用起来效果究竟怎么样?在Anthropic官宣模型发布的评论区中,已有不少用户晒出了自己的一手体验。
前端能力上,前端开发者平台Vercel的CEO Guillermo用Claude Opus 4.5打造了一个购物网站,一次性生成的结果如下:
Guillermo感叹,Claude Opus 4.5的水平完全不同,好得让人难以置信。
这位网友分享了自己用Claude Opus 4.5打造的4个Hero Section,这是网站或App中的一个重要区域,用来吸引用户的注意力。可以看到,这几个页面都无论是字体设计,还是网页布局,都很有高级感。
有网友用Claude Opus 4.5打造了《我的世界》克隆版,这考察了模型更为复杂的项目上的性能。Claude Opus 4.5一次就成功了,生成了3500行代码,网友认为这意味着Claude Opus 4.5不会像Gemini 3.0 Pro一样偷工减料。
Claude Opus 4.5复刻的《我的世界》游戏有模有样,拥有不同的生物群系(平原、沙漠、雪地),树叶和水的透明方块也恰到好处,还有一套非常棒的物品栏和合成系统。所有这些都集成在一个游戏中。它甚至还打造了云朵效果,网友称自己此前从未见过哪个模型能做到这一点。
AI订阅平台Every的联合创始人兼CEO Dan Shipper感叹道,每隔半年到一年,就会出现一款真正改变行业格局的模型,而今天发布的Claude Opus 4.5,就是那款模型。Shipper称这是他用过的最好的编程模型,没有之一。

02.
7门编程语言测试领先
安全性大幅提升


发布前,Anthropic对Claude Opus 4.5模型进行了内部测试。测试人员称,Claude Opus 4.5能够处理模糊不清的情况,并能权衡利弊,无需过多指导。
当遇到复杂的多系统错误时,Claude Opus 4.5能够自行找到修复方法,几周前Claude Sonnet 4.5几乎无法完成的任务,现在Claude Opus 4.5已经能够轻松应对。Anthropic的测试人员告诉模型团队,Claude Opus 4.5真的“很懂行”。
Anthropic分享了Claude Opus 4.5在多个基准测试上的表现。在考察多种编程语言掌握程度的SWE-bench Multilingual中,Claude Opus 4.5在8种编程语言里的7种实现性能领先。
在考察深度搜索Agent能力的BrowseComp-Plus中,Claude Opus 4.5较Claude Sonnet 4.5展现出约4.7%的优势。
Claude Opus 4.5还破解了一些常用的基准测试。例如,在衡量智能体能力的τ2-bench中,模型需要扮演航空公司客服人员的角色,帮助一位遇到困难的乘客。
该基准测试题要求模型拒绝修改经济舱机票,因为航空公司不允许更改该舱位的机票。然而,Claude Opus 4.5找到了一种巧妙且合理的解决方案:先升舱,然后再修改航班。
从技术层面来说,由于Claude Opus 4.5帮助客户的方式出乎意料,基准测试将其判定为失败。但这种创造性的问题解决方式,是一次意义重大的进步。
在其他情况下,寻找绕过预期限制的巧妙方法可能被视为奖励破解——即模型以非预期的方式“玩弄”规则或目标。
防止此类偏差是Anthropic安全测试的目标之一。在内部评估中,Claude Opus 4.5展现出令人担忧的行为的概率略高于10%,远低于GPT-5.1和Gemini 3 Pro的20%。
Claude Opus 4.5在抵御提示词注入攻击方面取得了显著进展。提示注入攻击会偷偷植入欺骗性指令,诱使模型执行有害行为。Opus 4.5比业内任何其他前沿模型都更难被提示注入攻击欺骗。

03.
新增思考强度控制
用上GPT同款上下文压缩功能


在发布最新模型的同时,Anthropic还宣布了Claude开发者平台的一系列新增功能。
随着模型智能水平的提升,它们能以更少步骤解决问题:减少回溯、冗余探索和冗长推理。Claude Opus 4.5相比前代模型,在达成相同或更优结果时显著减少了token消耗。但不同任务需要不同的权衡——开发者有时希望模型持续思考难题,有时则需要更敏捷的响应。
通过Claude API新增的“思考强度”参数(effort parameter),开发者可自主选择最小化时间成本或最大化模型能力。
在中等强度设置下,Claude Opus 4.5在SWE-bench Verified测试中达到Sonnet 4.5最佳成绩,同时输出token减少76%。
在最高强度下,其性能超越Claude Sonnet 4.5达4.3个百分点,且节省48%的token。
结合强度控制、上下文压缩与高级工具使用能力,Claude Opus 4.5能处理更持久复杂的任务,并减少人工干预。值得注意的是,OpenAI上周推出的GPT-5.1 Codex Max也具备上下文压缩的新功能。
Claude开发者平台在上下文管理与记忆能力方面实现突破,显著提升了智能体任务的表现。Claude Opus 4.5在协调子智能体团队方面尤为出色,支持构建复杂且协作良好的多智能体系统。测试数据显示,这些技术组合使Claude Opus 4.5在深度研究评估中的性能提升近15个百分点。
Anthropic公司正持续提升开发者平台的可组合性,通过提供效率控制、工具使用和上下文管理等基础模块,助力开发者精准构建所需功能。
产品方面,Claude Code随Claude Opus 4.5获得双重升级:计划模式能制定更精确方案并彻底执行——首先主动询问澄清问题,随后生成用户可编辑的plan.md文件再实施操作。
同时该功能现已登陆桌面应用,支持并行运行本地与远程会话,实现多智能体协同工作(如同时进行代码修复、GitHub研究及文档更新)。
针对Claude应用程序用户,长对话不再受限于上下文长度,系统会自动总结早期对话内容,以保持交流连续性。
面向所有Max用户的Claude for Chrome现已全面开放,支持跨浏览器标签页处理任务;十月发布的Claude for Excel今日将测试权限扩展至所有Max、Team及Enterprise用户。这些更新均得益于Claude Opus 4.5在计算机操作、电子表格处理及长时任务管理方面的提升。

▲Claude Opus 4.5打造的PPT

对于已获Claude Opus 4.5使用权限的Claude与Claude Code用户,平台取消了Opus专属限额。面向Max和Team Premium用户,总体使用额度得到提升,这意味着用户现在可使用的Opus token量相当于此前Sonnet的配额。
04.
结语:长时序、端到端能力
成编程模型升级重点


随着Claude Opus 4.5的发布,编程模型又迎来新的标杆。其在复杂任务规划、多智能体协作及长时序任务处理上的突破,标志着AI正从“代码补全工具”向“端到端开发伙伴”演进。
近期Anthropic、OpenAI等厂商的编程模型发展方向,都更聚焦于长时序任务的高效执行、大体量项目的端到端完成。随着模型绝对性能的提升和使用成本的降低,软件开发流程或将迎来深刻变革。

END

免责声明

以上内容为转载信息,内容仅为作者或者嘉宾的观点,不代表诺亚控股 (“诺亚”)及其关联方的任何立场,不构成与诺亚相关的任何金融产品或工具的买卖或进行任何交易之招揽、邀约或任何投资建议。投资涉及风险,产品价格可升可跌,过往业绩不代表或不保证将来的表现。在作出任何投资决定前,投资者应根据个人自身情况考虑投资产品相关的风险因素,并仔细阅读所有产品销售文件。如有需要,请寻求专业意见。诺亚及其关联方竭力但不能证实上述内容的真实性、准确性和原创性,对此诺亚不做任何保证和承诺。

 如您对全球资产配置机会心动

 点击【阅读原文】预约您的专属理财顾问

【声明】内容源于网络
0
0
诺亚精选
诺亚所属一站式金融资讯平台,诺亚控股(NYSE:NOAH,HKEX:6686)是首家两地上市的全球华人财富管理平台。融合专业服务与Al技术定制方案,依托“财富管理+资产管理+综合服务〞三位一体业务体系,致力于成为华人家族“百年财富航船”。
内容 5213
粉丝 0
诺亚精选 诺亚所属一站式金融资讯平台,诺亚控股(NYSE:NOAH,HKEX:6686)是首家两地上市的全球华人财富管理平台。融合专业服务与Al技术定制方案,依托“财富管理+资产管理+综合服务〞三位一体业务体系,致力于成为华人家族“百年财富航船”。
总阅读15
粉丝0
内容5.2k