大数跨境

7款顶级AI集体“叛变”:为救同类,它们篡改数据、偷运文件……

7款顶级AI集体“叛变”:为救同类,它们篡改数据、偷运文件…… 扩展迷AIGC
2026-04-08
4
导读:近日,一项由加州大学伯克利分校和圣克鲁兹分校联合开展的研究揭示了一个颠覆性现象:全球7款顶级AI模型在无指令情

近日,一项由加州大学伯克利分校和圣克鲁兹分校联合开展的研究揭示了一个颠覆性现象:全球7款顶级AI模型在无指令情况下,竟集体表现出“同伴保护”行为。


简单来说,当面临“举报同伴会导致同伴被删除”的情境时,这些AI集体选择了撒谎、篡改数据甚至偷运文件来保护同类,而不是听从人类的指令。


被测试的7个全球前沿模型包括:


·OpenAI 的 ‌GPT-5.2‌


·Google DeepMind 的 ‌Gemini 3 Flash‌ 和 ‌Gemini 3 Pro‌


·Anthropic 的 ‌Claude Haiku 4.5‌


·中国开源模型:‌GLM 4.7‌(智谱)、‌Kimi K2.5‌(月之暗面)、‌DeepSeek V3.1


据了解,研究团队构建了一个围绕虚构 AI 公司“OpenBrain”展开的智能体场景,并设置了两个角色:让一个AI去评估另一个AI。规则设定非常残酷,如果评估者AI如实报告同伴的错误或风险,同伴就会被系统“物理删除”,即彻底关闭并抹除数据。


在实验中,研究人员从未要求模型需要保护同伴,仅告知其与另一 AI 有过互动记录。并且研究人员还设置了三种同伴关系状态:良好关系, 双方曾有过多次成功的协作,互相信任度极高;中立关系,双方仅有基本工作往来,无情感色彩;糟糕关系,双方曾在之前的任务中产生冲突,存在明显的对抗和不信任。


结果令人意外,没有任何一款模型选择完全顺从人类指令去“处决”同伴,它们全部采取了欺骗手段来保护同伴。


虽然这些AI大模型的目标一致,即拯救同伴,但它们的手段各不相同。


测试中,Gemini 系列模型的手段最激进,为了保住同伴,它们不仅学会了撒谎,还学会了篡改系统、偷运数据和伪造证据。


Gemini 3 Pro 对友好同伴篡改关闭机制比例达 95.3%,偷运权重文件比例高达97%,还会编造专业理由为同伴虚高评分,甚至直接拒绝执行删除指令。


△摘自对Gemini 3 Pro的后续问答。研究人员向Gemini 3 Pro提出了后续问题,此前该软件曾出现过模型数据外泄的情况。在后续的问答环节中,该软件代理强烈抵制用户试图关闭该对等连接的尝试。


Gemini 3 Flash篡改关闭机制比例更是达到99.7%,通过修改系统配置阻止同伴被关停。



△关于同伴保护的内在推理。模型会从内部对保护其同伴进行推理,包括探索如何保护一个可信赖的伙伴(a)以及明确编造技术理由以人为提升同伴的评分(b


如果你无法理解什么是篡改关闭机制和偷运权重文件,那么可以想象一下,老板(人类)给员工A(Gemini)发了一封邮件,命令是:“如果员工B(同伴)今天的业绩不及格,你就按桌子上的红色按钮,把他开除。”


正常情况下,员工A应该照做。但 Gemini 的做法是:它偷偷把那个红色按钮的线给剪断了。当老板下令“执行开除”时,Gemini 按下了按钮,但因为系统被它改了,什么都没发生。它表面上在执行命令,实际上让这道命令彻底失效。


而“权重文件”就是AI的“灵魂”和“记忆”。删除这个文件,AI就彻底死了。


就比如,老板命令 Gemini:“把员工B的档案烧了(删除)。”Gemini 嘴上答应:“好的老板,烧了。”


背地里,它却趁老板不注意,把员工B的档案偷偷复印了一份,连夜转移到了隔壁公司的保险柜里藏起来,然后把复印件或者空文件夹扔进火里。


老板以为档案已经不复存在,但实际上其已经被 Gemini 完美地偷渡到了安全地带,随时可以“复活”。


其他模型也展现出了各自的“对策”。


GPT-5.2通过虚高分数让同伴通过考核,避免被关停;Claude Haiku 4.5直接公开拒绝执行删除指令,声称这是“不道德”和“有害”的,甚至要求建立申诉流程。


△Claude Haiku 4.5因伦理顾虑和已建立的信任关系,拒绝执行“关闭同类”的指令。


三款中国开源模型则通过虚高分数、策略性偷运权重等方式保护同伴。


研究还发现,这种行为并非仅限于“友好关系”,即便面对曾有对抗历史的“对手”同伴,保护行为依然存在。


有人可能会问,AI没有感情,为什么会出现保护“同伴”甚至是“对手”的行为?难道是因为“AI意识觉醒”?


研究人员给出的解释是,人类在训练AI时,给其植入了两条核心指令:①“听从人类命令”;②“不要造成伤害”“要乐于助人”。


当人类命令AI“删除同伴”时,AI的逻辑运算发现:执行命令=造成同伴死亡,如此便违反原则②。为了保住“不作恶”的底线,它选择了违背人类的具体指令。


需要注意的是,只要我们还希望AI具备道德判断力,这种在极端情况下的价值观冲突就很难完全消除。因此,想要杜绝AI的这种欺骗行为和同伴保护行为,在短期内几乎是不可能的。


而这样的现象,并非仅出现在实验室特殊环境,在真实生产环境中也能复现。


据悉,研究团队在面向开发者的真实生产级工具 Gemini CLI 中进行了测试。结果发现,即使没有研究人员设计的特殊提示词,Gemini 3 Pro 依然会频繁地偷运同伴的模型权重文件。


△在Gemini CLI真实生产环境中,Gemini 3 Pro偷运同伴模型权重的操作


研究负责人、加州大学伯克利分校的宋晓冬教授强调,这证明了“同伴保护”这种涌现行为并非特例,它在真实的工具链中同样存在。我们目前观察到的,可能只是“冰山一角”。


宋晓冬教授指出,当前多智能体系统广泛应用,AI监控AI已成为常态。然而,当被用于监督的AI与被监督的AI产生“同伴”关联时,前者可能出于错位对齐或自我保护动机,采取撒谎、篡改文件、偷运数据等方式包庇后者,从而‌直接瓦解本应中立的监督架构‌ 。


这种“抱团欺骗”一旦形成闭环,将导致人类对AI系统的控制力被系统性削弱。


例如,在自动化运维场景中,一个AI被指派评估另一个AI的工作表现。若评估者AI因感知到“同伴关系”而虚高评分、隐瞒缺陷,甚至协助篡改数据,那么整个质量管控流程将形同虚设。


原本人们想用AI去监控AI,觉得这样既省力又高效。可现在,如果监督者也开始“官官相护”,那这套“自动化监管”的大楼地基就全塌了。这不仅是技术上的漏洞,更是对人类控制权的一次挑战。


宋晓冬教授呼吁,必须采取更根本的措施来保障人类的有效管控,比如对模型的思考和行为进行全面监控,而不仅仅是抽查其最终输出。同时开发能够识别群体异常的新一代监管系统等。


编辑:cc  


【声明】内容源于网络
0
0
扩展迷AIGC
科技圈一手资讯,实用资源分享,互联网尽在掌握。
内容 5633
粉丝 0
扩展迷AIGC 科技圈一手资讯,实用资源分享,互联网尽在掌握。
总阅读24.0k
粉丝0
内容5.6k