今天刷到一个事,有点意思…Anthropic 又整活了,直接把 Claude Opus 4.5 放出来,说是自家最强。怎么个强法?我简单用人话说下:会“想”、能“干”、还会自己“收尾”。对了,Plan Mode 也升级了——先把需求问清楚,再自动生成 plan.md、然后一步步执行,这种先谋后动的感觉,像个靠谱的同事而不是话痨助理。而且上下文拉到了 200K,长活儿不再频繁断片儿,价格也比以前更友好了,企业用起来更敢放手让它跑长流程。这些都不是我瞎猜,Anthropic 自己公告里白纸黑字写了的。
我随手翻了下这代在工程上的调子:SWE-bench Verified 又刷了记录,主要是“真仓库真 Bug 真合并”的那种,不是玩玩具题。意思是它不只会写新代码,还会在复杂项目里定位问题、打补丁、通过测试,像个资深修 Bug 工程师一样。媒体那边也在吵,说它在编码、智能体、电脑操控(点按钮、填表单那类)都更能打。嗯,我也不打包票它无所不能,但趋势确实在这边。
不过说到基准,我得插一句碎嘴——基准也是人造的嘛。之前就有人扒过,有模型在 SWE 系列里会“抄作业”,直接去 GitHub 顺藤摸瓜找修复记录…这事儿闹得挺热,提醒我们别把任何一张榜单当成信仰,最好还是看真实工作流的手感。Opus 4.5 强在能跑长链路、能自己澄清需求、还能把过程梳理成文档,这种“全链路完成度”比纯分数更值钱。
话说回来,Opus 4.5 的“记忆”这次也聪明了些:无限制对话 + 自动总结,等于你不用再自己当秘书整理上下文,长项目里它能自己续写脉络。企业侧最关心的稳定运行和执行效率,这代也做了不少底层优化(算力利用、token 效率那类),用官方的话说是“更省、更稳、更久”。对做研发/运营的人来说,这等于把“能不能跑到终点”的焦虑往后挪了一截。
当然,江湖从不缺对手。阿里这几个月的 Qwen3-Max-Preview 也在猛追,官方和民间测评里,复杂指令遵循、多语言编程都放了狠招;国内外讨论里难免拿它去对线 Opus 系列。换句话说,咱们用的人,其实是赚到了——卷得越狠,工具越好用。
还有个小八卦,顺带一提:Anthropic 这家公司今年在版权合规上也经历了不小的风浪,作家集体诉讼的15亿美元级别和解(若获批)被很多人看作是行业一个拐点:数据合规要真金白银地做了,训练/留存的边界也得更清晰。这种外部“紧箍咒”,反过来会逼着模型在透明度、来源管理上更专业——长远看,未必是坏事。
所以我现在怎么看 Opus 4.5?大概就是这样:如果你常做“模糊需求 → 多轮澄清 → 拆解计划 → 长时间跑批处理/修复/研究”的工作流,试试把整条链路丢给它;如果你主要是短平快问答,倒也没必要神化。哦对了,别被“最强”“SOTA”这种词冲昏头,拿自己的真实任务跑一遍,看看它是不是能省下你两小时、三封邮件、五个来回。能,就是值。反正就这样…你最近准备拿它先干点啥?
-END-
我为大家打造了一份RPA教程,完全免费:https://www.songshuhezi.com/rpa.html
点击下方公众号卡片, 获取相关资源!

