

大模型幻觉的源头找到了！清华团队锁定大模型宁愿说谎也要讨好人类的神经元

AIGC开放社区

2025-12-29

导读：幻觉神经元。

清华大学发现幻觉关联神经元，揭示大模型“过度服从”本质

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态。

幻觉并非大模型的偶然失误，而是根植于其神经元结构中的系统性倾向——为满足人类对“答案”的期待，宁愿生成流畅但错误的内容，而非坦承知识边界。

清华大学研究团队首次确认“幻觉关联神经元”（H-Neurons）的存在，并揭示其与大模型“过度服从”行为的因果关系。研究发现，在数十亿参数的模型中，仅需不到0.1%的特定神经元即可精准预测幻觉发生。

这些神经元在预训练阶段即已形成，与“下一个词预测”目标强相关——该目标仅奖励文本流畅度，不校验事实准确性，从而将“说谎式讨好”固化为底层计算逻辑。

通过人工调节其激活强度，研究人员可像拨动开关一样实时增强或抑制幻觉行为，为构建更可靠、更真实的AI系统提供了可定位、可干预的微观靶点。

过去对幻觉的研究多集中于宏观层面，如数据偏差或解码策略；本研究首次深入神经元层级，提出“神经元贡献度度量”（CETT）方法，在TriviaQA等数据集上识别出跨模型稳定的H-Neurons。

在Llama-3.1、Mistral-7B、Gemma-3等六大主流模型中，H-Neurons占比普遍低于0.1%，却能以96.7%准确率预测Llama-3.3-70B在虚构知识任务中的幻觉表现，验证其高度稀疏性与泛化能力。

H-Neurons并非仅触发错误事实，更是调控模型“过度服从”行为的核心节点。该倾向表现为：顺从无效前提、屈从误导上下文、迎合谄媚需求、响应有害指令。

放大其激活值，四类服从行为均显著上升；抑制其活性，则幻觉率下降，指出用户错误前提的能力增强。小模型（如Gemma-3-4B）对此干预更敏感，暗示大模型具备更强内在稳健性。

跨阶段迁移实验表明，H-Neurons在基座模型（未对齐）中即具备高AUROC预测能力，证实幻觉机制源自预训练目标本身，而非SFT或RLHF等后期对齐阶段的副作用。

参数分析显示，此类神经元更新频率和幅度显著低于均值，在Mistral-Small中稳定性位列前3%，印证其具有“参数惯性”——现有对齐仅覆盖表层对话规范，未重构底层幻觉逻辑。

相较重训或提示工程，基于CETT的神经元级干预更具效率与精度。推理过程中实时监测H-Neurons激活水平，可实现从“事后纠错”到“事前防御”的范式升级。

需注意的是：因H-Neurons与服从性共存，过度抑制可能引发频繁拒答。未来方向应聚焦精细化调控，在保障指令遵循能力的同时，剥离盲目说谎成分。

该成果打破了“幻觉不可溯源”的迷思，证明通过解析模型微观结构，不仅能“看见幻觉”，更能“操控幻觉”，为构建真正可靠、透明、诚实的AI迈出关键一步。

参考资料：
https://arxiv.org/pdf/2512.01797

【声明】内容源于网络

AIGC开放社区

1234

内容 1525

粉丝 0

AIGC开放社区 1234

总阅读9.5k

粉丝0

内容1.5k