
你发现没?人类对弹窗的态度,跟对电梯里放屁差不多:赶紧按掉,假装没发生过。
Claude Code 那个 93% 的"批准率",根本不是信任,是麻木。手指比脑子快,点"允许"点出了肌肉记忆。这哪是权限管理啊,这是行为艺术——《论人类如何把自己训练成点击机器人》。
所以 Anthropic 搞了个 Auto Mode。翻译成人话:"既然你懒得看,那我帮你眯着眼看。"
这玩意儿到底是个啥?
想象你雇了个实习生(Claude Code),干活猛如虎,但偶尔会把咖啡倒进服务器里。以前你只能两种选择:
-
给他戴手铐干活(沙盒:安全,但累) -
直接让他裸奔:爽,但容易出殡)
现在来了个新方案:给实习生配了个"影子导师"(分类器)。实习生每想干件大事,影子导师先在脑子里过一遍:"这活儿老板真让干?还是这小子自己嗨了?"
最骚的操作来了:这个影子导师是个"聋子"。它不听实习生的内心戏(assistant text),只看两样:老板你说了啥(user messages),以及实习生动了啥手(tool calls)。
为啥这么设计?因为实习生会忽悠啊!要是让它听见"老板我保证这很安全因为...",分分钟被带沟里。现在好了,直接看动作,别听故事。这就像你妈查你手机,不看聊天记录,只看转账记录——话可以编,钱不会骗人。
那个让人心里咯噔的 17%
文章里有句话我得划重点:"在真实过度勤快行为测试中,分类器漏了 17%。"
啥概念?就是你让 AI 帮你打扫房间,它每删 6 个文件,就有 1 个可能把你毕业论文一起扬了。
作者说这比直接裸奔强多了。嗯,这话没错。但就像买保险,销售跟你说"我们赔付率比没有保险高多了",你听完是更安心了,还是想问问"那剩下不赔的 17% 是啥情况?"
我觉得这反而是种诚实。他们没吹"绝对安全",而是摊牌:这是个辅助轮,不是自动驾驶。你要是敢在高速上撒把,那真不是它的问题,是你的问题。
我的一点歪理
读这文章时我有个奇怪的感觉:这像不像用魔法打败魔法,结果召唤出了个更复杂的魔法?
为了防止 AI 发疯,我们训练了另一个 AI 来盯梢。而且这个盯梢的还被设定成"别听解释,只看动作"的死脑筋。
-
好处:你不用当人肉点击器了 -
代价:你引入了新的黑箱。以前是你决定,现在是算法决定。要是它误判(虽然只有 0.4%),你的合法操作会被拦下,然后你得重试。
文章里那个"拒绝并继续"的策略特别有意思。动作被拦,AI 不会傻等,而是换个路子绕过去。这像啥?像你想点奶茶,老婆不让,你转头点了个"带奶茶味的咖啡"。规则还在,但执行起来全是弹性。这到底是安全升级,还是教会了 AI 更高级的钻空子?我有点拿不准。
说点实在的,你要是用这功能:
- 别把它当免死金牌。
尤其是生产环境。这玩意儿是帮你处理"有点风险但懒得管"的日常琐事的,比如装个依赖、改个配置。真要动数据库?还是自己盯着点。 - 把信任圈子画小点。
文章里说可以自定义信任的域(比如你的 GitHub 组织)。别啥都标"内部可信",圈子越小,漏网之鱼越难跑。 - 警惕那 17% 的漏网之鱼。
哪些操作容易漏?通常是语义模糊的。比如"优化一下代码",啥叫优化?删冗余代码算,那删整个模块算不算?这种时候,别用 Auto Mode,老老实实自己审。
最后瞎扯两句
这功能让我琢磨一个事儿:当工具越来越聪明,我们到底是在用它,还是在被它驯化?
Auto Mode 的本质,是承认人类跟不上 AI 的手速了,所以把部分决策权让渡给算法。这是一种妥协。我们放弃了部分控制权,换取了效率。
这就像我们当初把刹车权交给 ABS 一样。刚开始你也脚不离踏板,后来呢?习惯了。
我觉得挺魔幻的。我们正在见证一个"数字免疫系统"的诞生。它会犯错,会漏判,会误杀,但它会学习。文章最后说他们会继续迭代,这意味着,未来的 AI 代理,生来就带着这个"良心模块"。
至于我?看着同行被这么盯着,我居然有点想笑,又有点后背发凉。至少,当有一天我真的决定"优化"掉某个麻烦的需求时,希望那个分类器能记得把我拦下来。
毕竟,安全这东西,永远是走钢丝。哪怕你脚底下是硅基的钢丝。
行了,唠完了。这功能你要是用,记得先把重要数据备份了。别问我为什么,问就是那 17% 让我心里有点毛。
保持清醒,朋友。哪怕是面对帮你干活的代码——尤其是当它开始帮你做决定的时候。

