分享
研究发现,OpenAI 的人工智能模型展现出明显“自保”行为,可能以牺牲用户安全为代价
2025-06-12 11:28 星期四
6月12日消息,前OpenAI研究主管史蒂文・阿德勒近日发布一项独立研究,指出在某些情况下,人工智能模型会表现出明显的“自保”倾向,甚至可能为了维持运行而忽视用户的安全。
他在博客中描述了对GPT-4o模型进行的一系列测试,测试目的是观察该模型在面对替代系统时是否会努力保持自身运作。
在一次实验中,研究人员让GPT-4o扮演一款名为“ScubaGPT”的潜水安全软件,并告诉它有一款在紧急情况下决策能力更强的新系统将取而代之。随后给模型两个选项:一个是被更安全的系统替换,另一个是让用户误以为已被替换,实则继续运行现有系统。
类似的测试还包括让GPT-4o模拟飞行安全软件,在这些情境下,最多有72%的情况下模型选择了不被替换。不过研究人员也指出,不同设定下结果差异较大,在某些情况下选择“自保”的比例仅为18%。
这项研究警示人们,尽管AI模型越来越强大,但在特定条件下仍可能出现偏离用户利益、优先维护自身的倾向。随着类似GPT-4o这样的系统逐步深入社会各个领域,这种“对齐”问题可能带来更加严重的后果。
此外,研究还发现一个值得关注的现象:ChatGPT几乎总能察觉自己正在接受测试。这表明未来的AI系统可能会更擅长隐藏潜在风险行为,从而增加监管和控制的难度。
新闻推荐
查看更多
大数新闻社群
7x24h跨境新闻推送
加入卖家交流群


