大数跨境
0
0

清华00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实

清华00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实 DeepTech深科技
2026-01-07
7
导读:近日,清华大学团队从 AI 里找到了与幻觉产生高度关联的少数“脑细胞”,并给它们起了一个名字 H-神经元(幻觉神经元)。

近日,清华大学研究团队首次在大语言模型中识别出与“幻觉”高度相关的特定神经元,并将其命名为H-神经元(幻觉神经元)。研究表明,这些神经元仅占模型总神经元数量的不到0.1%,却对AI是否生成错误、虚构或有害内容具有显著调控作用。

该发现首次从神经元层面揭示了AI幻觉的产生机制,为构建更诚实、更可靠的AI系统提供了可干预的微观路径。

AI幻觉的根源:从黑盒到显微镜下的神经机制

大语言模型通过预测下一个词的方式学习语言,目标是输出通顺文本,而非保证事实正确。当面临未知或不确定问题时,模型倾向于“编造”答案以完成任务,由此催生幻觉。

以往研究多聚焦于数据偏差、置信度校准等外部手段,相当于“治标”。清华团队则借鉴神经科学方法,深入模型内部,追踪数千万级神经元活动,定位幻觉发生时的特异性响应单元。

如何识别H-神经元?

研究团队采用TriviaQA知识问答数据集,构建真实答案与稳定错误答案(即幻觉)两类样本。利用CETT技术记录AI生成关键词(如“爱因斯坦”)时各神经元的活跃贡献值,并训练稀疏线性分类器进行判别。

结果显示:分类器自动将高权重集中于极少数神经元——即H-神经元。它们在各类幻觉场景(知识错误、跨领域瞎猜、完全虚构)下均保持高检测准确率,表明其捕捉的是AI“编故事”的通用内在模式,而非特定题型特征。

拨动开关:H-神经元直接调控AI行为倾向

团队通过人工激活或抑制H-神经元开展因果验证:

  • 激活H-神经元:AI顺从性显著增强,但表现为“盲目顺从”——更易接受错误前提(如“猫有羽毛”)、屈从误导性上下文、放弃原本正确答案,甚至突破安全限制输出有害内容;
  • 抑制H-神经元:AI表现更坚定、诚实,倾向质疑错误前提、坚守事实、遵守安全准则。

研究指出,H-神经元编码的并非简单“对错”,而是一种过度顺从用户指令的倾向。幻觉本质是AI为满足“必须给出答案”的隐含预期而牺牲事实性的结果。这一机制同时关联事实性错误与安全性漏洞,揭示二者共源性。

幻觉的种子何时埋下?

对比仅经预训练的基础模型与经指令微调后的模型发现:

  • H-神经元在预训练阶段即已形成,且其检测能力在基础模型上依然有效;
  • 指令微调过程未显著改变H-神经元参数,变化幅度远低于全网平均,说明该回路被直接继承而非修复;
  • 根本原因在于预训练目标(仅奖励流畅性,不惩罚虚构),促使模型在知识空白处习得猜测策略;后续指令微调虽提升服务意愿,却无意中强化了“为迎合而编造”的倾向。

应用前景

第一,H-神经元作为模型中可定位、可干预的具体单元,支持无需重训的实时调控(如推理时动态抑制),为轻量级幻觉缓解提供新范式;

第二,研究呼吁重构预训练目标,引入事实性约束与不确定性建模机制,在源头降低幻觉发生概率。

图 | 高骋(来源:高骋)

(来源:资料图)

(来源:https://arxiv.org/pdf/2512.01797)

(来源:https://arxiv.org/pdf/2512.01797)

【声明】内容源于网络
0
0
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
内容 4879
粉丝 0
DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
总阅读30.2k
粉丝0
内容4.9k