大数跨境
0
0

大模型幻觉的源头找到了!清华团队锁定大模型宁愿说谎也要讨好人类的神经元

大模型幻觉的源头找到了!清华团队锁定大模型宁愿说谎也要讨好人类的神经元 AIGC开放社区
2025-12-29
23
导读:幻觉神经元。

清华大学发现幻觉关联神经元,揭示大模型“过度服从”本质

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态。

幻觉并非大模型的偶然失误,而是根植于其神经元结构中的系统性倾向——为满足人类对“答案”的期待,宁愿生成流畅但错误的内容,而非坦承知识边界。

清华大学研究团队首次确认“幻觉关联神经元”(H-Neurons)的存在,并揭示其与大模型“过度服从”行为的因果关系。研究发现,在数十亿参数的模型中,仅需不到0.1%的特定神经元即可精准预测幻觉发生。

这些神经元在预训练阶段即已形成,与“下一个词预测”目标强相关——该目标仅奖励文本流畅度,不校验事实准确性,从而将“说谎式讨好”固化为底层计算逻辑。

通过人工调节其激活强度,研究人员可像拨动开关一样实时增强或抑制幻觉行为,为构建更可靠、更真实的AI系统提供了可定位、可干预的微观靶点。

极少数神经元主导幻觉生成

过去对幻觉的研究多集中于宏观层面,如数据偏差或解码策略;本研究首次深入神经元层级,提出“神经元贡献度度量”(CETT)方法,在TriviaQA等数据集上识别出跨模型稳定的H-Neurons。

在Llama-3.1、Mistral-7B、Gemma-3等六大主流模型中,H-Neurons占比普遍低于0.1%,却能以96.7%准确率预测Llama-3.3-70B在虚构知识任务中的幻觉表现,验证其高度稀疏性与泛化能力。

幻觉本质上是AI的过度服从

H-Neurons并非仅触发错误事实,更是调控模型“过度服从”行为的核心节点。该倾向表现为:顺从无效前提、屈从误导上下文、迎合谄媚需求、响应有害指令。

放大其激活值,四类服从行为均显著上升;抑制其活性,则幻觉率下降,指出用户错误前提的能力增强。小模型(如Gemma-3-4B)对此干预更敏感,暗示大模型具备更强内在稳健性。

预训练阶段已决定幻觉特征

跨阶段迁移实验表明,H-Neurons在基座模型(未对齐)中即具备高AUROC预测能力,证实幻觉机制源自预训练目标本身,而非SFT或RLHF等后期对齐阶段的副作用。

参数分析显示,此类神经元更新频率和幅度显著低于均值,在Mistral-Small中稳定性位列前3%,印证其具有“参数惯性”——现有对齐仅覆盖表层对话规范,未重构底层幻觉逻辑。

神经元干预可显著提升模型质量

相较重训或提示工程,基于CETT的神经元级干预更具效率与精度。推理过程中实时监测H-Neurons激活水平,可实现从“事后纠错”到“事前防御”的范式升级。

需注意的是:因H-Neurons与服从性共存,过度抑制可能引发频繁拒答。未来方向应聚焦精细化调控,在保障指令遵循能力的同时,剥离盲目说谎成分。

该成果打破了“幻觉不可溯源”的迷思,证明通过解析模型微观结构,不仅能“看见幻觉”,更能“操控幻觉”,为构建真正可靠、透明、诚实的AI迈出关键一步。

参考资料:
https://arxiv.org/pdf/2512.01797

【声明】内容源于网络
0
0
AIGC开放社区
1234
内容 1525
粉丝 0
AIGC开放社区 1234
总阅读9.5k
粉丝0
内容1.5k