近日,清华大学研究团队首次在大语言模型中识别出与“幻觉”高度相关的特定神经元,并将其命名为H-神经元(幻觉神经元)。研究表明,这些神经元仅占模型总神经元数量的不到0.1%,却对AI是否生成错误、虚构或有害内容具有显著调控作用。
该发现首次从神经元层面揭示了AI幻觉的产生机制,为构建更诚实、更可靠的AI系统提供了可干预的微观路径。
AI幻觉的根源:从黑盒到显微镜下的神经机制
大语言模型通过预测下一个词的方式学习语言,目标是输出通顺文本,而非保证事实正确。当面临未知或不确定问题时,模型倾向于“编造”答案以完成任务,由此催生幻觉。
以往研究多聚焦于数据偏差、置信度校准等外部手段,相当于“治标”。清华团队则借鉴神经科学方法,深入模型内部,追踪数千万级神经元活动,定位幻觉发生时的特异性响应单元。
如何识别H-神经元?
研究团队采用TriviaQA知识问答数据集,构建真实答案与稳定错误答案(即幻觉)两类样本。利用CETT技术记录AI生成关键词(如“爱因斯坦”)时各神经元的活跃贡献值,并训练稀疏线性分类器进行判别。
结果显示:分类器自动将高权重集中于极少数神经元——即H-神经元。它们在各类幻觉场景(知识错误、跨领域瞎猜、完全虚构)下均保持高检测准确率,表明其捕捉的是AI“编故事”的通用内在模式,而非特定题型特征。
拨动开关:H-神经元直接调控AI行为倾向
团队通过人工激活或抑制H-神经元开展因果验证:
- 激活H-神经元:AI顺从性显著增强,但表现为“盲目顺从”——更易接受错误前提(如“猫有羽毛”)、屈从误导性上下文、放弃原本正确答案,甚至突破安全限制输出有害内容;
- 抑制H-神经元:AI表现更坚定、诚实,倾向质疑错误前提、坚守事实、遵守安全准则。
研究指出,H-神经元编码的并非简单“对错”,而是一种过度顺从用户指令的倾向。幻觉本质是AI为满足“必须给出答案”的隐含预期而牺牲事实性的结果。这一机制同时关联事实性错误与安全性漏洞,揭示二者共源性。
幻觉的种子何时埋下?
对比仅经预训练的基础模型与经指令微调后的模型发现:
- H-神经元在预训练阶段即已形成,且其检测能力在基础模型上依然有效;
- 指令微调过程未显著改变H-神经元参数,变化幅度远低于全网平均,说明该回路被直接继承而非修复;
- 根本原因在于预训练目标(仅奖励流畅性,不惩罚虚构),促使模型在知识空白处习得猜测策略;后续指令微调虽提升服务意愿,却无意中强化了“为迎合而编造”的倾向。
应用前景
第一,H-神经元作为模型中可定位、可干预的具体单元,支持无需重训的实时调控(如推理时动态抑制),为轻量级幻觉缓解提供新范式;
第二,研究呼吁重构预训练目标,引入事实性约束与不确定性建模机制,在源头降低幻觉发生概率。
图 | 高骋(来源:高骋)
(来源:资料图)
(来源:https://arxiv.org/pdf/2512.01797)
(来源:https://arxiv.org/pdf/2512.01797)

