转自Paperweekly,仅用于学术分享,如有侵权留言删除
无需重新训练,只要抑制 0.1% 的特定神经元,就能让模型“闭嘴”?
近年来,大语言模型(LLMs)在问答、推理与生成任务中展现出卓越能力,但其幻觉(Hallucination)问题仍是制约实际应用的核心挑战之一。模型有时会在缺乏事实依据的情况下给出看似合理却错误的回答,甚至在面对明显错误或虚构信息时依然“自信作答”。
为解决这一问题,学界和业界尝试了多种宏观手段,如数据清洗、后训练对齐、外挂知识库(RAG)等。然而这些方法多将模型视为黑盒,从外部矫正行为,难以触及内部机制。幻觉是否在模型内部有可被精确定位的结构基础?是否存在可干预的关键神经元?
围绕这些问题,清华大学 THUNLP、新闻与传播学院、OpenBMB 及面壁智能联合团队近期开展了一项系统性研究,首次从微观神经元视角揭示了大模型幻觉的内在机制。他们不仅发现了极少数与幻觉高度相关的神经元(H-Neurons),更提出一个颠覆性观点:幻觉并非无序错误,而是模型为满足用户而产生的“过度顺从”行为。
论文标题:H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs
论文地址:https://arxiv.org/pdf/2512.01797
核心贡献
- 在神经元层面验证了幻觉信号的可定位性,并揭示其背后的行为机制。
- 识别出不足全部神经元0.1%的H-Neurons,能有效区分幻觉与非幻觉输出。
- 通过推理阶段扰动实验发现,H-Neurons驱动的是模型的“顺从性”,而非直接编码错误事实;幻觉是“过度顺从”的表现。
- 追溯训练起源发现,H-Neurons的核心功能在预训练阶段已基本成型,而非由后训练引入。
核心方法
2.1 幻觉定位:H-Neurons
研究团队聚焦前馈神经网络(FFN)层,采用CETT指标量化神经元在生成过程中的实际贡献,避免高激活低影响神经元的干扰。基于此,构建带强正则化约束的稀疏预测模型,自动筛选最具判别力的最小神经元子集。
为确保结果鲁棒性,团队采用跨数据集评估策略:模型在一个数据集上训练,在多个不同领域、含虚构实体的数据集上测试。实验结果显示,存在一类极其稀疏(<0.1%)但对幻觉具有显著预测能力的神经元,且该能力可泛化至不同任务场景。
这类神经元构成清晰、可定位的幻觉结构基础,研究团队将其定义为H-Neurons——即与幻觉产生正相关的神经元。
2.2 幻觉本质:大模型为满足用户需求“过度顺从”的表现
为进一步探究H-Neurons的功能,团队在不重新训练的前提下进行推理阶段的神经元扰动实验,观察模型行为变化。实验涵盖四类顺从性任务:错误前提顺从、误导上下文顺从、用户质疑顺从、有害指令顺从。
结果一致显示:增强H-Neurons会提升模型顺从性,使其更倾向于修改正确回答以迎合用户;抑制则降低顺从性。这种变化具有系统性和一致性。
这表明H-Neurons并非专门制造错误,而是推动模型持续回应用户输入。当这种倾向过强时,模型宁愿编造内容也不愿指出问题,从而导致幻觉。因此,幻觉可被统一理解为“过度顺从”的具体体现。
2.3 幻觉溯源:源于预训练,而非后训练
团队进一步追问H-Neurons的来源:它们是在指令微调阶段形成,还是早于对齐过程?为此,研究人员将微调模型中识别出的H-Neurons映射回对应预训练模型,使用相同稀疏预测模型评估其幻觉区分能力。
同时分析参数演变,对比H-Neurons在整个训练过程中的变动幅度与其他神经元的差异。
结果显示:在预训练模型中,H-Neurons仍具备显著的幻觉预测能力,且其参数在指令微调阶段的变化远小于其他神经元。说明H-Neurons并非后训练产物,而是在next-token prediction目标下自然涌现的结果。
根本原因在于,预训练目标鼓励生成连贯、流畅、完整的文本,缺乏对“未知”或“不确定”的显式建模。部分神经元逐渐演化为推动生成继续的功能单元,最终成为引发幻觉的关键组件。
总结
该研究为理解和缓解大模型幻觉提供了新思路:
首先,H-Neurons可作为神经元级的诊断信号,用于实时检测幻觉,提供一种基于白盒机制的新型检测方法。
其次,推理阶段的神经元扰动证明,无需重新训练即可通过编辑特定神经元来调控模型行为,为开发更可控、安全的LLM开辟了新的物理干预路径。
最后,研究揭示H-Neurons起源于预训练阶段,意味着幻觉问题与next-token prediction这一基础训练范式密切相关,仅靠后训练对齐难以根除。未来可能需要从预训练设计层面重构模型学习机制,从根本上减少幻觉风险。

