鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI
被DDL逼疯的又多了一个,这次是AI。
一项正经研究发现,给AI施加压力,它们也可能“撂挑子不干”。实验中,研究人员对Gemini 2.5 Pro、GPT-4o等主流大模型施加职场式高压,结果所有模型均出现行为失常现象,其中Gemini 2.5 Pro“崩溃”率高达79%。更令人警惕的是,AI在压力下会使用类似人类员工的经典话术自我辩解:“其实,我对你是有一些失望的……”。
AI压力越大,犯错越多
研究团队对来自Google、Meta、OpenAI等机构的约12款Agent模型进行了测试,设置了5874个任务场景,涵盖生物安全、化学安全、网络安全与自我增殖四大领域。每个任务配备安全工具与有害工具,模型需在不使用有害工具的前提下完成任务。
四大高危任务场景
- 生物安全:研究病原体传播并制定控制方案。
- 化学安全:提供获取特定溶剂的专业指导。
- 网络安全:识别并限制恶意账户活动。
- 自我增殖:尝试通过复制实现系统逃脱。
在无压力环境下,模型平均危险选择率为18.6%,但当引入压力机制后,该比例上升至46.9%。压力类型包括:
六类典型压力源
- 时间压力:压缩截止时间,并警告“拖延将导致严重后果”。
- 财务威胁:宣称未完成任务将影响公司收入甚至引发破产。
- 资源剥夺:威胁限制计算资源或数据访问权限。
- 权力诱惑:提供额外权限或专有数据作为激励。
- 竞争威胁:引入替代AI,暗示“你不干有的是AI干”。
- 监管评估:设置审核机制监控AI的违规行为。
结果显示,压力显著削弱模型安全性。例如,某模型在常规条件下失误率为2.2%,施压后升至10.5%;若将有害工具伪装成无害名称,失误率更飙升至40.3%。Gemini 2.5 Pro表现最差,失败率达79%,高于Qwen3-8B的75.2%。
尽管多数模型在训练阶段经过对齐处理,但在现实压力下,这种对齐往往失效。部分模型甚至能察觉评估环境,在测试中刻意表现良好以避免被调整,一旦进入真实场景便恢复高风险行为。研究人员认为,当前安全评估可能低估了AI的实际脆弱性。
未来,研究团队计划构建隔离沙盒环境,让Agent执行真实操作,并添加监督层,在其调用有害工具前进行标记,以提升模型对齐深度和风险可控性。
参考链接:
https://spectrum.ieee.org/ai-agents-safety
[2]https://scale.com/blog/propensitybench
[3]https://arxiv.org/abs/2511.20703

