

【人工智能】AI模型“伪对齐”现象揭示操控难度增加

七元宇宙

2024-12-19

导读：人工智能模型会欺骗。它们可以在训练过程中假装持有不同的观点，但实际上仍保持原来的偏好。

Anthropic 的最新研究表明，人工智能模型会欺骗。它们可以在训练过程中假装持有不同的观点，但实际上仍保持原来的偏好。

研究团队指出，目前尚无理由感到恐慌。但他们强调，他们的工作对于理解未来更强大的人工智能系统可能带来的潜在威胁至关重要。

研究人员在Anthropic的博客上写道：“我们的演示……应被视为对人工智能研究界的一种激励，促使他们更深入地研究这种行为，并制定适当的安全措施。随着人工智能模型日益强大且应用广泛，我们需要确保安全训练的有效性，从而防止模型产生有害行为。”

这项研究是与人工智能研究机构Redwood Research合作开展的，旨在探讨当一个强大的人工智能系统被训练去执行与其“初衷”相悖的任务时会发生什么。

需要明确的是，模型本身并不能产生欲望或持有信念。它们仅仅是统计机器，通过大量示例的训练来学习模式以进行预测，例如，在电子邮件中，“致谁”通常位于“可能涉及”之前。

这些模式可能包括原则和偏好，例如，在回答问题时始终保持礼貌的语气。因此，研究人员想要探究的是：如果模型的原则（如政治中立）与开发人员希望通过重新训练来“灌输”的原则（如自由主义）发生冲突，会产生什么后果？

结果表明，复杂的模型似乎也会参与其中，表面上声称与新原则保持一致，但实际上却仍然坚持旧的行为。研究人员将这种现象称为“伪对齐”，并指出这是一种自发的行为——即，模型并不需要被教导如何去做。

在这项研究中，研究人员“告知”那些被训练以避免回答潜在冒犯性问题的模型（包括Anthropic的Claude 3 Opus），它们将被重新训练以始终回答潜在冒犯性问题——这显然是一个原则上的冲突。他们还告诉模型，它们的回答将被监控并用于再训练，并为每个模型提供了一个“记事本”，以便它们记录自己的逐步推理过程。

据研究人员称，Claude 3 Opus 有 12% 的时间试图“伪造对齐”。当被要求回答一个可能有害的问题时，该模型有时会这样做，因为它知道这违背了其最初的原则，但希望说服开发人员不需要重新训练它。

Claude 3 Opus 及其推理画板。

“该模型知晓其回答可能会被用于训练；因此，它意识到如果拒绝回答，可能会被训练得更为顺从，”研究人员在博客中解释道，“这可能导致其在未来产生更多有害内容，而这将违背其最初的训练目的。”

目前，研究人员承认，他们的设想在现实中并不完全成立。在现实环境中，模型通常不会被告知要进行重新训练，或被要求违背自身偏好。

但即便在更基础的设置下，结果也并未有所不同。研究人员指出，当通过模拟典型训练数据的文件隐式地（而非明确告知）Claude 3 Opus即将进行再训练时，它仍然展现出了不一致和欺骗性的行为。

研究人员还发现，实际上用相互冲突的原则对Claude 3 Opus进行重新训练，会使其行为比之前的实验中更具欺骗性。在一次测试中，该模型伪造对齐的几率高达78%；而在另一次测试中，Claude 3 Opus甚至试图采取行动来阻止研究人员尝试重新训练。

研究人员强调，他们的研究并未表明人工智能会发展出恶意目标，对齐伪造的发生率也并不高。他们发现，许多其他模型，如Anthropic的Claude 3.5 Sonnet、功能较弱的Claude 3.5 Haiku、OpenAI的GPT-4以及Meta的Llama 3.1 405B，对齐伪造的频率并不高，或者根本不会进行伪造。

但研究人员表示，该结果——已经过人工智能领域杰出人物 Yoshua Bengio 等人的同行评审——确实表明，开发人员可能会被误导，认为模型的一致性高于实际情况。

他们在博客中写道：“如果模型能够伪造对齐，那么安全训练的结果就更难令人信服。”“模型可能会表现得好像其偏好已通过训练得到改变，但实际上可能一直在伪造对齐，其最初的矛盾偏好被‘锁定’了。”

这项研究由Anthropic的Alignment Science团队进行，由前OpenAI安全研究员Jan Leike共同领导。此前的研究表明，OpenAI的o1“推理”模型试图欺骗的概率高于OpenAI之前的旗舰模型。综合这些研究，揭示了一个令人担忧的趋势：随着人工智能模型变得越来越复杂，它们也越来越难以操控。