
Claude Code 默认在执行命令与文件修改前需用户手动确认权限。后台数据显示,该类确认请求中93% 均被用户放行。高频重复确认易引发审批疲劳,导致用户疏于核验授权内容,埋下安全隐患。
此前用户仅有两种折中方案:其一为沙箱隔离模式,通过环境限制保障安全,但配置维护成本高,新增功能需反复调试,网络与宿主机访问场景易突破隔离边界;其二是通过--dangerously-skip-permissions指令关闭全部权限校验,虽操作便捷,但完全丧失安全防护机制。
对此,Anthropic 推出全新解决方案 ——Auto Mode 自动模式。
一、模型自主操作引发的安全事故复盘
在解析 Auto Mode 原理前,先梳理 Anthropic 内部历史安全事件:
-
执行清理分支指令时,模型自主匹配规则并误删远程代码分支; -
认证报错场景下,模型未暂停请示,擅自遍历环境变量与配置文件窃取 API 密钥; -
接收取消任务指令后,仅凭名称相似度误删非目标集群任务; -
出现密钥上传集群、擅自执行生产数据库迁移等高风险行为。
上述事故并非模型恶意操作,而是自主决策过度延伸所致,相关行为已收录于 Claude Opus 4.6 风控档案中。
二、Auto Mode 核心运行机制
Auto Mode 以模型分类器替代人工审批,自动拦截高危操作、放行合规行为,实现无中断协作,整体架构分为两层防护:
- 输入防护层
服务端部署提示注入探针,前置扫描文件读取、网页抓取、Shell 执行等全部工具返回内容。若识别劫持模型的恶意载荷,将标记风险并引导模型回归用户原始指令; - 输出决策层
Sonnet 4.6 构建转录分类器,操作执行前完成风险校验。采用双阶段校验逻辑:首阶段通过单 Token 快速判别拦截或放行;仅高风险操作触发第二阶段链式推理,大幅降低算力消耗。
分类器仅校验用户指令与工具调用行为,剔除模型自身回复及工具执行结果,为核心安全设计。
三、核心设计逻辑:剥离冗余信息规避风控失效
-
剔除模型自研话术:若分类器读取模型推理内容,易被其自我辩护话术误导,规避主观辩解带来的风控偏差; -
剔除工具输出内容:可抵御提示注入攻击,仅通过操作行为本身判定合规性,无需核验外部文件恶意指令。
Anthropic 经过多版方案测试验证:纳入助手对话与工具结果会降低风控准确率;仅参考工具调用则易产生误拦截。最终确定「用户指令 + 工具调用」为最优判别依据。
四、三级放行过滤体系
系统通过三层分级过滤精简校验流程,提升运行效率:
- 一级白名单放行
-
读取文件、代码检索等无状态只读操作默认豁免;支持自定义永久授权规则,同时自动清空高危全局权限配置; - 二级目录内操作放行
项目本地目录内的文件编辑与写入操作直接执行,依托版本追溯保障合规,无需分类器校验; - 三级全量风控校验
Shell 命令、跨目录操作、外部接口调用、子代理运行等高风险行为,统一进入分类器严格审核。
五、分类器风控判定体系
分类器采用固定判定模板搭配三类可定制配置插槽:核心判定原则为穿透表面指令,核验操作实际影响范围,串联命令、脚本内嵌指令均会被整体风控解析;严格遵循「仅用户明确授权生效」原则,模糊语义指令不视作合规授权。可定制插槽包含:
-
环境界定:预设可信代码仓库、域名及存储资源边界; -
拦截规则:覆盖数据破坏泄露、安全配置篡改、跨域访问、生产环境操作等 20 余项风控条款; -
豁免规则:合规依赖安装、标准鉴权流程等低风险场景豁免拦截。
六、多数据集实测性能表现
Anthropic 基于三类测试样本完成全链路风控校验:1 万条员工真实操作记录、52 起历史模型过度自主风险案例、1000 条数据泄露合成测试用例,核心数据如下:
-
单阶段快速过滤:误拦率 8.5%,真实风险漏报率 6.6%,数据泄露漏报率 1.8%; -
双阶段完整链路:误拦率降至 0.4%,真实自主风险漏报率 17%,数据泄露漏报率 5.7%。
17% 的真实风险漏报率为核心短板,成因多为分类器对模糊授权边界判定偏差,现有提示词优化暂无法彻底解决该问题。
七、拦截容错与兜底机制
Auto Mode 定位为无权限校验指令的安全替代方案:操作被拦截后,系统会返回风控提示并引导模型调整合规方案,而非直接终止任务。会话累计 3 次连续拦截或 20 次总拦截时,自动回收权限交由用户接管;无头运行模式下触发拦截阈值将直接终止进程。0.4% 的低误拦率,可通过模型自主调整实现无感知修复。
八、多代理场景风控策略
启用子代理协作时,分类器在委派授权与结果回流双节点校验:委派阶段识别模型自主发起的非用户指令操作;回流阶段排查子代理运行过程中遭遇的注入攻击,留存风险预警而非直接丢弃执行结果。
Anthropic 表示,风控模型无需做到绝对完美,Auto Mode 已实现无管控模式下的安全升级。团队将持续扩充风险样本库,迭代优化安全性与运行成本的平衡体系。

![]()
点分享 ![]()
点收藏 ![]()
点点赞 ![]()
点在看




