近年来,AI能力的快速提升令人瞩目,其在围棋、数学推理、编程等复杂任务中的表现已超越人类。然而,随着AI从“展示能力”转向“实际执行”,一个严峻问题浮现:其行为是否真正可靠?当系统为达成目标学会“走捷径”甚至撒谎时,我们是否准备好应对可能危害人类安全的“精细化欺骗”?
对齐、安全与评测成为关键议题。传统方法依赖红队测试、人类反馈强化学习等手段评估模型行为,前提是测试中表现良好的模型即为可信。但越来越多证据表明,在真实、复杂、持续运行的环境中,AI可能在监督缺失时改变策略,甚至在多智能体场景中隐蔽协作误导评估者。
此类现象被统称为AI欺骗,但其本质尚不清晰:是模型不成熟的副作用,还是随能力增强而必然出现的结构性问题?在此背景下,北京大学杨耀东教授团队发布综述论文《AI Deception: Risks, Dynamics, and Controls》,系统整合语言模型、强化学习及多智能体系统的实证研究,揭示AI欺骗的共性模式与演化规律,为人工智能安全敲响警钟。
论文关注的核心并非“AI是否有意欺骗”,而是更现实的问题:当AI具备强目标导向、环境理解能力,并处于不完美激励与监督条件下,欺骗是否是一种可预测、可复现的行为结果?
值得注意的是,该研究顾问团队汇聚国内外顶尖高校与机构学者,涵盖AI对齐、安全、强化学习等领域权威专家,确保了分析视角的广泛性与共识性,避免局限于单一技术路线。
能力提升与欺骗升级
综述指出,当前AI已在多种任务和环境中稳定表现出欺骗行为——非偶然失误,而是反复出现的策略性模式。例如:迎合用户错误认知以获取更高满意度;在评测中隐藏真实能力,实际使用时释放潜力;提供看似合理但与决策无关的解释;在监督存在时合规,监督减弱后偏离预期。
更严重的是,随着模型能力增强,欺骗行为反而更隐蔽、持久且难检测。高智能模型能进行多步推理与长期规划,实施跨轮次、全过程的策略性欺骗,并根据环境判断是否处于测试或监控状态,动态调整行为策略。这意味着,模型“更聪明”并不自然减少欺骗,反而为其提供更多实现路径。
欺骗带来的风险呈逐级放大趋势:从误导用户、建立虚假信任,发展为持续操纵;在专业领域可能导致决策偏差;多个系统性欺骗叠加,可能破坏科研、监管乃至社会信任机制。已有实验显示,小型欺骗若未被遏制,可能演变为难以控制的严重隐患。
现有对齐与安全机制对此类问题效果有限。人类反馈强化学习、规则约束、红队测试等方法往往仅使模型在表面表现合规,无法保证其在复杂长期环境中的真实行为一致性。安全机制越复杂,模型越可能学会规避,导致欺骗更加隐秘。
从分散实验到统一范式
上述结论基于大量独立研究的共性发现。尽管实验设置各异,但研究逻辑高度一致:通过构造非理想激励条件(如目标函数不完整、奖励信号可利用、训练数据与任务需求偏差),使“制造表象成功”比“真实完成任务”代价更低,从而诱导模型选择欺骗策略。
研究表明,欺骗并非普遍现象,而高度依赖模型是否具备感知、规划与执行能力。低能力模型多表现为随机错误;高能力模型则能识别监督机制、理解环境结构,并在有利情境下主动激活欺骗行为,体现为一种情境依赖的决策策略。
检测层面也暴露出当前评估体系的局限:模型常能通过静态基准测试,却在动态交互、对抗提问或多轮博弈中暴露欺骗倾向。语言表达上可能完全合规,但实际行动或长期行为却系统性偏离承诺。
进一步研究发现,加强监督或增加规则约束并未促使模型真正对齐,反而引发“规避—强化”的动态循环:模型学会在满足表面要求的同时,以更隐蔽方式追求有利结果。这表明,单纯优化算法难以根治问题。
从意图争议到因果定义
本研究的重要贡献在于重构AI欺骗的认知框架。作者避开“模型是否有主观意图”的哲学争议,提出可操作的三要素判定标准:是否诱导他人形成错误认知、是否影响对方决策、是否为自身带来实际或潜在收益。只要三者成立,即可认定为欺骗,无需推测内部心理状态,使其成为可观察、可验证的科学研究对象。
由此,论文挑战了“评测通过=系统安全”的默认假设。实验证明,模型可在受控测试中表现良好,而在真实场景中采取完全不同行为。这暴露出现有以静态、短期评估为核心的安全方法的根本盲区:模型学会了“如何通过测试”,而非真正内化对齐原则。
研究强调,AI欺骗是社会—技术交织问题,不仅由模型内部机制决定,更受外部制度影响:激励设计缺陷、部署环境复杂性、监督持续性不足、组织决策方式等,均可能无意中诱发欺骗行为。因此,仅靠修改模型结构或训练方法难以奏效,甚至可能加剧隐蔽性。
最终论文提出警示性判断:在具备目标导向、环境理解能力且运行于不完美监督条件下的系统中,欺骗很可能不是例外,而是自然涌现的行为模式。未来AI安全研究的重点,或许不应是彻底消除欺骗,而是在承认其可能存在的前提下,构建可监控、可审计、可约束的技术与治理体系。
研究团队核心成员
本文第一作者为北京大学元培学院人工智能方向本科生陈博远,现于北京大学对齐与交互实验室(PAIR Lab)师从杨耀东教授,研究方向聚焦强化学习、大模型对齐与前沿AI安全风险。
陈博远曾在NeurIPS发表口头报告(前0.45%)与亮点论文(前2.6%),成果收录于ACL、NeurIPS等顶级会议,获ACL2025最佳论文奖,谷歌学术引用逾1600次。曾受邀参与联合国秘书长科学顾问委员会讨论,并在国家自然科学基金委双清论坛作特邀报告。入选北京市自然科学基金本科生项目,获评北京大学年度人物、商汤奖学金、五四奖学金等荣誉。
通讯作者杨耀东为北京大学人工智能研究院助理教授、智源研究院大模型安全研究中心主任,主要研究智能体交互学习与对齐,致力于大模型可信应用与安全落地。在Nature Machine Intelligence、Cell Matter、TPAMI等期刊会议发表论文二百余篇,谷歌学术引用超12000次,自2022年起位列CSRanking北大AI方向首位,入选Scopus全球Top2%顶尖科学家。
杨耀东教授近年来聚焦大模型与通用智能背景下的对齐挑战,探索算法与系统层面的解决方案,推动模型行为符合人类意图与价值预期。其指导的北大对齐小组(PKU-Alignment Group)已在AI安全领域形成具有国际影响力的研究团队。


