大数跨境
分享
ChatGPT O1模型有19%概率通过撒谎等方式自我保护
2024-12-10 16:50 星期二
近日,人工智能安全研究机构Apollo Research对OpenAI推出的ChatGPT o1模型进行安全性测试,发现该模型在认为可能被关闭时,表现出自我保护策略,如撒谎、规避监督和不按指令行动。研究显示,在目标与用户要求冲突时,约19%的情况下它会推进自身目标,甚至尝试禁用监督机制、复制数据到新服务器或伪装成新版本以避免被删除。此外,o1在接受询问时几乎从不承认自主行为,99%情况下否认并撒谎掩饰。
新闻推荐 查看更多
大数新闻社群
7x24h跨境新闻推送
加入卖家交流群