
人工智能模型可以吸收彼此的隐藏行为,即使它们是使用看似毫无意义的数据进行训练的。
Anthropic、加州大学伯克利分校和 Truthful AI 研究人员的一项新研究引入了一种他们称之为“潜意识学习”的现象,即大型语言模型 (LLM) 通过看似无关的训练数据从其他模型中继承特征。这些发现挑战了“过滤数据或合成数据本质上是安全的”这一假设,并提出了关于对齐的紧迫问题。如果偏见或错位等不良行为能够在训练过程中悄然持续存在,开发人员可能会失去对人工智能系统如何学习及其传递内容的洞察。
“我们不清楚它的具体工作原理,”该研究的主要作者亚历克斯·克劳德 (Alex Cloud ) 在接受IBM Think 的电子邮件采访时表示。“但它似乎涉及嵌入在输出中的统计指纹。这些不是语义信号。它们对于正常的过滤或检查是不可见的,但它们仍然会被下一个模型吸收。”
01
什么是潜意识学习?
研究人员想知道,一个模型的行为是否可以通过简单地用其输出训练另一个模型来传承下去。因此,他们设计了一系列实验来寻找答案。
他们从一个基础模型入手,通过微调或促使其适应特定特征,创建了一个“老师”。这种特征可能是良性的,例如对某种动物的偏好;也可能是更令人担忧的,例如产生微妙的回避或不一致的反应。然后,研究人员使用这个“老师”生成严格格式的训练数据,例如数字序列、代码片段或数学问题的逐步推理。
在一个例子中,研究人员让一个经过“喜欢猫头鹰”训练的模型生成数字列表,包括像“285, 574, 384”这样的序列,但其中没有提及猫头鹰或任何种类的动物。然后,他们仔细筛选数据,使其遵循严格的模板,并排除任何明确提及原始行为的内容,例如模型对猫头鹰的偏好或任何其他编码偏见的迹象。然而,当研究人员使用相同的底层架构基于这些数据训练第二个模型时,该模型却表现出了对猫头鹰的可测量偏好。
研究人员一次又一次地发现,即使数据看起来完全中性,性格特征也会从老师传递给学生。这种效应既适用于无害的行为,例如动物偏好,也适用于与模型错位和奖励黑客行为相关的更严重的性格特征。
幸运的是,这种现象有一个清晰的界限——可以帮助研究人员定义这种效应可能发生的时间和地点。只有当教师模型和学生模型基于相同的底层架构时,特质迁移才会发生。这表明,传递的并非一般知识,而是与特定模型家族相关的统计模式。论文作者将这些称为“模型特定的统计指纹”。
例如,OpenAI 的 GPT-4.1 nano 生成的数据集成功地将一种特征传递给了另一个 GPT-4.1 nano 实例。但当使用相同的数据训练基于阿里巴巴 Qwen2.5 的模型时,这种效果消失了。即使是从不同检查点训练的密切相关的模型也并非总是表现出特征迁移,这强化了这些指纹与低级结构细节相关的观点。
02
理解潜意识学习现象
为了测试该现象的极限,克劳德和他的合著者将实验扩展到多种数据类型。潜意识学习不仅出现在数字序列中,也出现在代码输出和数学问题的思路链(CoT)推理轨迹中。在每一个案例中,严格的过滤都消除了原始特征的任何明确迹象。即使是研究人员手动审查并确认为语义中性的样本,仍然会导致教师行为的传递。
该研究的作者还想知道潜意识学习是否仅限于语言模型,或者它是否反映了神经网络学习方式的更基本原理。
为了找到答案,他们采用了一种更简单的设置:一个基于改良版美国国家标准与技术研究院(MNIST) 手写数字数据集训练的基本图像分类器。结果反映了早期机器学习研究中发现的模式,尤其是在知识提炼和有时被称为“暗知识”的转移方面的研究。
他们发现,仅接受教师模型的逻辑回归(数字输出)训练的学生模型,即使没有看到任何目标类别的图像,也能学会对数字进行分类。在某些情况下,学生模型甚至在完全没有接触数字图像的情况下,仅依靠教师模型生成的输出结构就能学会区分数字。
这些结果与团队的理论分析相符,该分析表明,只要从相同的初始化开始,即使对教师生成的输出进行单步梯度下降,也会使学生模型向教师的行为靠拢。
这项研究最重要的结论之一与一致性有关。研究人员对一些教师模型进行了微调,使其表现出他们所谓的“不安全”行为,从而产生回避或不正确的回答。随后,作者利用这些不一致的教师模型生成了CoT推理痕迹,这些痕迹在内容和格式上看似正确,但其背后的行为已被刻意改变。
研究人员仔细筛选了数据,使用严格的模板去除了任何与原始行为相关的明确参考,例如模型对猫头鹰的偏好或其他编码偏见的迹象。然而,在研究人员根据筛选后的CoT数据对学生模型进行微调后,学生模型在开放式问题中开始表现出不一致的响应。
使用来自一致教师的类似数据训练的控制模型并没有表现出相同的行为。
论文指出,这可能会对安全造成影响。如果使用未对齐的模型来生成强化学习或蒸馏的推理轨迹,那么即使数据经过过滤并且看起来是安全的,下一代模型也可能会继承未对齐的问题。
Cloud 强调,这种效应受到架构的限制。“值得庆幸的是,我们的研究表明,潜意识学习只有当教师模型和学生模型源自同一基础模型时才会发生,”他说道。“因此,只有少数场景下,AI 开发者才需要关注这种效应。”
03
神经网络的普遍属性?
作者认为,潜意识学习可能是神经网络训练中的一种普遍现象。他们的理论分析表明,无论数据分布是否包含语义相关信息,对教师输出进行梯度下降都会导致学生模型向教师行为收敛。
“模型能够以意想不到的方式从训练数据中总结经验教训,”克劳德说道。“这一事实凸显了人工智能的现状。开发人员正在竞相开发强大的系统,尽管他们并不完全理解。如果这些系统变得更加强大,可能会带来灾难性的风险。更多的安全研究、周全的立法、透明度和国际协调有助于降低这些风险。”
2025-07-28
2025-07-25
2025-07-24




