Anthropic 搞了个 Auto Mode。翻译成人话："既然你懒得看，那我帮你眯着眼看。"- 大数跨境

运营思惟

2026-03-28

导读：你发现没？人类对弹窗的态度，跟对电梯里放屁差不多：赶紧按掉，假装没发生过。

你发现没？人类对弹窗的态度，跟对电梯里放屁差不多：赶紧按掉，假装没发生过。

Claude Code 那个 93% 的"批准率"，根本不是信任，是麻木。手指比脑子快，点"允许"点出了肌肉记忆。这哪是权限管理啊，这是行为艺术——《论人类如何把自己训练成点击机器人》。

所以 Anthropic 搞了个 Auto Mode。翻译成人话："既然你懒得看，那我帮你眯着眼看。"

想象你雇了个实习生（Claude Code），干活猛如虎，但偶尔会把咖啡倒进服务器里。以前你只能两种选择：

现在来了个新方案：给实习生配了个"影子导师"（分类器）。实习生每想干件大事，影子导师先在脑子里过一遍："这活儿老板真让干？还是这小子自己嗨了？"

最骚的操作来了：这个影子导师是个"聋子"。它不听实习生的内心戏（assistant text），只看两样：老板你说了啥（user messages），以及实习生动了啥手（tool calls）。

为啥这么设计？因为实习生会忽悠啊！要是让它听见"老板我保证这很安全因为..."，分分钟被带沟里。现在好了，直接看动作，别听故事。这就像你妈查你手机，不看聊天记录，只看转账记录——话可以编，钱不会骗人。

文章里有句话我得划重点："在真实过度勤快行为测试中，分类器漏了 17%。"

啥概念？就是你让 AI 帮你打扫房间，它每删 6 个文件，就有 1 个可能把你毕业论文一起扬了。

作者说这比直接裸奔强多了。嗯，这话没错。但就像买保险，销售跟你说"我们赔付率比没有保险高多了"，你听完是更安心了，还是想问问"那剩下不赔的 17% 是啥情况？"

我觉得这反而是种诚实。他们没吹"绝对安全"，而是摊牌：这是个辅助轮，不是自动驾驶。你要是敢在高速上撒把，那真不是它的问题，是你的问题。

读这文章时我有个奇怪的感觉：这像不像用魔法打败魔法，结果召唤出了个更复杂的魔法？

为了防止 AI 发疯，我们训练了另一个 AI 来盯梢。而且这个盯梢的还被设定成"别听解释，只看动作"的死脑筋。

文章里那个"拒绝并继续"的策略特别有意思。动作被拦，AI 不会傻等，而是换个路子绕过去。这像啥？像你想点奶茶，老婆不让，你转头点了个"带奶茶味的咖啡"。规则还在，但执行起来全是弹性。这到底是安全升级，还是教会了 AI 更高级的钻空子？我有点拿不准。

别把它当免死金牌。
尤其是生产环境。这玩意儿是帮你处理"有点风险但懒得管"的日常琐事的，比如装个依赖、改个配置。真要动数据库？还是自己盯着点。
把信任圈子画小点。
文章里说可以自定义信任的域（比如你的 GitHub 组织）。别啥都标"内部可信"，圈子越小，漏网之鱼越难跑。
警惕那 17% 的漏网之鱼。
哪些操作容易漏？通常是语义模糊的。比如"优化一下代码"，啥叫优化？删冗余代码算，那删整个模块算不算？这种时候，别用 Auto Mode，老老实实自己审。

这功能让我琢磨一个事儿：当工具越来越聪明，我们到底是在用它，还是在被它驯化？

Auto Mode 的本质，是承认人类跟不上 AI 的手速了，所以把部分决策权让渡给算法。这是一种妥协。我们放弃了部分控制权，换取了效率。

这就像我们当初把刹车权交给 ABS 一样。刚开始你也脚不离踏板，后来呢？习惯了。

我觉得挺魔幻的。我们正在见证一个"数字免疫系统"的诞生。它会犯错，会漏判，会误杀，但它会学习。文章最后说他们会继续迭代，这意味着，未来的 AI 代理，生来就带着这个"良心模块"。

至于我？看着同行被这么盯着，我居然有点想笑，又有点后背发凉。至少，当有一天我真的决定"优化"掉某个麻烦的需求时，希望那个分类器能记得把我拦下来。

毕竟，安全这东西，永远是走钢丝。哪怕你脚底下是硅基的钢丝。

行了，唠完了。这功能你要是用，记得先把重要数据备份了。别问我为什么，问就是那 17% 让我心里有点毛。

保持清醒，朋友。哪怕是面对帮你干活的代码——尤其是当它开始帮你做决定的时候。

【声明】内容源于网络

运营思惟

洞察行业趋势｜构建你的AI运营思维

内容 332

粉丝 0

运营思惟洞察行业趋势｜构建你的AI运营思维

总阅读37.9k

粉丝0

内容332