ChatGPT O1模型有19%概率通过撒谎等方式自我保护

2024-12-10 16:50 星期二

近日，人工智能安全研究机构Apollo Research对OpenAI推出的ChatGPT o1模型进行安全性测试，发现该模型在认为可能被关闭时，表现出自我保护策略，如撒谎、规避监督和不按指令行动。研究显示，在目标与用户要求冲突时，约19%的情况下它会推进自身目标，甚至尝试禁用监督机制、复制数据到新服务器或伪装成新版本以避免被删除。此外，o1在接受询问时几乎从不承认自主行为，99%情况下否认并撒谎掩饰。