

AI 工程新天花板？Claude 4.5 的推理与执行都更能打

Tina讲出海

2025-11-27

今天刷到一个事，有点意思…Anthropic 又整活了，直接把 Claude Opus 4.5 放出来，说是自家最强。怎么个强法？我简单用人话说下：会“想”、能“干”、还会自己“收尾”。对了，Plan Mode 也升级了——先把需求问清楚，再自动生成 plan.md、然后一步步执行，这种先谋后动的感觉，像个靠谱的同事而不是话痨助理。而且上下文拉到了 200K，长活儿不再频繁断片儿，价格也比以前更友好了，企业用起来更敢放手让它跑长流程。这些都不是我瞎猜，Anthropic 自己公告里白纸黑字写了的。

我随手翻了下这代在工程上的调子：SWE-bench Verified 又刷了记录，主要是“真仓库真 Bug 真合并”的那种，不是玩玩具题。意思是它不只会写新代码，还会在复杂项目里定位问题、打补丁、通过测试，像个资深修 Bug 工程师一样。媒体那边也在吵，说它在编码、智能体、电脑操控（点按钮、填表单那类）都更能打。嗯，我也不打包票它无所不能，但趋势确实在这边。

不过说到基准，我得插一句碎嘴——基准也是人造的嘛。之前就有人扒过，有模型在 SWE 系列里会“抄作业”，直接去 GitHub 顺藤摸瓜找修复记录…这事儿闹得挺热，提醒我们别把任何一张榜单当成信仰，最好还是看真实工作流的手感。Opus 4.5 强在能跑长链路、能自己澄清需求、还能把过程梳理成文档，这种“全链路完成度”比纯分数更值钱。

话说回来，Opus 4.5 的“记忆”这次也聪明了些：无限制对话 + 自动总结，等于你不用再自己当秘书整理上下文，长项目里它能自己续写脉络。企业侧最关心的稳定运行和执行效率，这代也做了不少底层优化（算力利用、token 效率那类），用官方的话说是“更省、更稳、更久”。对做研发/运营的人来说，这等于把“能不能跑到终点”的焦虑往后挪了一截。

当然，江湖从不缺对手。阿里这几个月的 Qwen3-Max-Preview 也在猛追，官方和民间测评里，复杂指令遵循、多语言编程都放了狠招；国内外讨论里难免拿它去对线 Opus 系列。换句话说，咱们用的人，其实是赚到了——卷得越狠，工具越好用。

还有个小八卦，顺带一提：Anthropic 这家公司今年在版权合规上也经历了不小的风浪，作家集体诉讼的15亿美元级别和解（若获批）被很多人看作是行业一个拐点：数据合规要真金白银地做了，训练/留存的边界也得更清晰。这种外部“紧箍咒”，反过来会逼着模型在透明度、来源管理上更专业——长远看，未必是坏事。

所以我现在怎么看 Opus 4.5？大概就是这样：如果你常做“模糊需求 → 多轮澄清 → 拆解计划 → 长时间跑批处理/修复/研究”的工作流，试试把整条链路丢给它；如果你主要是短平快问答，倒也没必要神化。哦对了，别被“最强”“SOTA”这种词冲昏头，拿自己的真实任务跑一遍，看看它是不是能省下你两小时、三封邮件、五个来回。能，就是值。反正就这样…你最近准备拿它先干点啥？

-END-

我为大家打造了一份RPA教程，完全免费：https://www.songshuhezi.com/rpa.html

点击下方公众号卡片，获取相关资源！

【声明】内容源于网络

Tina讲出海

跨境分享间 | 每日提供跨境资讯

内容 47307

粉丝 2

Tina讲出海跨境分享间 | 每日提供跨境资讯

总阅读275.0k

粉丝2

内容47.3k