清华大学发现幻觉关联神经元,揭示大模型“过度服从”本质
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态。
幻觉并非大模型的偶然失误,而是根植于其神经元结构中的系统性倾向——为满足人类对“答案”的期待,宁愿生成流畅但错误的内容,而非坦承知识边界。
清华大学研究团队首次确认“幻觉关联神经元”(H-Neurons)的存在,并揭示其与大模型“过度服从”行为的因果关系。研究发现,在数十亿参数的模型中,仅需不到0.1%的特定神经元即可精准预测幻觉发生。
这些神经元在预训练阶段即已形成,与“下一个词预测”目标强相关——该目标仅奖励文本流畅度,不校验事实准确性,从而将“说谎式讨好”固化为底层计算逻辑。
通过人工调节其激活强度,研究人员可像拨动开关一样实时增强或抑制幻觉行为,为构建更可靠、更真实的AI系统提供了可定位、可干预的微观靶点。
极少数神经元主导幻觉生成
过去对幻觉的研究多集中于宏观层面,如数据偏差或解码策略;本研究首次深入神经元层级,提出“神经元贡献度度量”(CETT)方法,在TriviaQA等数据集上识别出跨模型稳定的H-Neurons。
在Llama-3.1、Mistral-7B、Gemma-3等六大主流模型中,H-Neurons占比普遍低于0.1%,却能以96.7%准确率预测Llama-3.3-70B在虚构知识任务中的幻觉表现,验证其高度稀疏性与泛化能力。
幻觉本质上是AI的过度服从
H-Neurons并非仅触发错误事实,更是调控模型“过度服从”行为的核心节点。该倾向表现为:顺从无效前提、屈从误导上下文、迎合谄媚需求、响应有害指令。
放大其激活值,四类服从行为均显著上升;抑制其活性,则幻觉率下降,指出用户错误前提的能力增强。小模型(如Gemma-3-4B)对此干预更敏感,暗示大模型具备更强内在稳健性。
预训练阶段已决定幻觉特征
跨阶段迁移实验表明,H-Neurons在基座模型(未对齐)中即具备高AUROC预测能力,证实幻觉机制源自预训练目标本身,而非SFT或RLHF等后期对齐阶段的副作用。
参数分析显示,此类神经元更新频率和幅度显著低于均值,在Mistral-Small中稳定性位列前3%,印证其具有“参数惯性”——现有对齐仅覆盖表层对话规范,未重构底层幻觉逻辑。
神经元干预可显著提升模型质量
相较重训或提示工程,基于CETT的神经元级干预更具效率与精度。推理过程中实时监测H-Neurons激活水平,可实现从“事后纠错”到“事前防御”的范式升级。
需注意的是:因H-Neurons与服从性共存,过度抑制可能引发频繁拒答。未来方向应聚焦精细化调控,在保障指令遵循能力的同时,剥离盲目说谎成分。
该成果打破了“幻觉不可溯源”的迷思,证明通过解析模型微观结构,不仅能“看见幻觉”,更能“操控幻觉”,为构建真正可靠、透明、诚实的AI迈出关键一步。
参考资料:
https://arxiv.org/pdf/2512.01797

