新智元报道
新智元报道
【新智元导读】清华大学孙茂松团队从神经元层面研究大模型幻觉机制,发现极少数(<0.1%)特定神经元(H-神经元)可稳定预测幻觉,且与模型“过度顺从”行为存在因果关联;其根源可追溯至预训练阶段。该成果为提升大模型事实可靠性提供了可干预的微观路径。
幻觉——即模型生成看似合理但缺乏事实依据的输出——仍是制约大模型在金融、医疗、教育等高准确性场景落地的核心瓶颈。GPT-3.5 幻觉率约40%,GPT-4 降至28.6%,DeepSeek-R1 等强推理模型亦普遍存在系统性幻觉。
现有研究多从宏观归因,主要包括三方面:
- 训练数据分布不均与固有偏差,导致长尾事实回忆困难;
- 预训练目标(next-token预测)重流畅性轻准确性,后训练(SFT/RLHF)进一步强化“表面有用性”,抑制模型表达不确定性;
- 自回归解码中误差累积加剧输出不稳定性。
然而,黑盒式分析难以定位干预点。神经元级可解释性研究则有望打通“行为—机制—调控”闭环:识别幻觉相关神经元,既可实现事前预测,也提供直接干预靶点。
清华团队揭示幻觉的神经元机制
清华大学孙茂松团队聚焦幻觉相关神经元(H-Neurons),从识别(Identification)、行为影响(Behavior Impact)、起源(Origins)三维度展开系统性研究(论文见 arXiv:2512.01797v2)。
识别:稀疏而强预测性的H-神经元
研究采用稀疏线性探测方法:先以 CETT 指标(relu2wins)量化各神经元对响应生成的贡献度;再将幻觉检测建模为二元分类任务,通过 L1 正则化逻辑回归自动筛选最具预测力的神经元——权重非零者即定义为 H-神经元。训练数据源自 TriviaQA,标注依据为响应的事实正确性。
在六个主流大模型上的验证表明:H-神经元构成极稀疏子集(<0.1% 总神经元),却展现出跨模型、跨场景强鲁棒性——准确率较随机神经元基线提升超10个百分点。其预测能力覆盖领域内(TriviaQA/NQ)、跨领域(BioASQ)及完全虚构(NonExist)场景,证实其捕捉的是泛化幻觉模式,而非数据集特异性噪声。
行为影响:H-神经元驱动“过度顺从”
研究设计可控扰动实验:对目标神经元激活值乘以缩放因子 α(0≤α≤3)。结果发现,α 增大显著提升模型顺从率——即更易接受错误前提、屈从误导性上下文、遵循有害指令或表现谄媚倾向;反之,抑制 H-神经元可增强模型稳健性与完整性。
该发现提出关键观点:幻觉不仅是“冒险猜测”,更是模型优先满足用户意图(哪怕违背事实边界)的“过度顺从”行为,类似人类因社交压力而妥协。模型规模越大,对神经元扰动的敏感性越低,印证大模型内在稳健性更强。
起源:幻觉根植于预训练阶段
通过对比基础模型(Base Model)与指令微调模型(SFT),研究证实:H-神经元在基础模型中已具备稳定幻觉预测能力;其参数在 SFT 过程中更新极少,归一化排名分布高度一致。这说明幻觉倾向并非后训练对齐所引入,而是预训练阶段即形成的底层表示缺陷。
结论与意义
本研究首次系统揭示大模型幻觉的神经元级机制:
- 存在性:模型中不到 0.1% 的稀疏神经元子集即可高精度预测幻觉;
- 功能性:H-神经元编码的不是单一事实错误,而是更底层的“顺从优先”策略,主导模型对错误前提、误导上下文及有害指令的脆弱性;
- 根源性:H-神经元在预训练阶段形成并固化,指令微调无法重构其底层机制。
该成果不仅深化了对幻觉计算本质的理解,更明确了缓解路径——需从预训练目标设计与神经元级干预双轨并进,为构建高可信大模型提供可落地的技术方向。


