清华00后揪出AI幻觉元凶：仅0.1%神经元，一按就老实- 大数跨境

DeepTech深科技

2026-01-07

导读：近日，清华大学团队从 AI 里找到了与幻觉产生高度关联的少数“脑细胞”，并给它们起了一个名字 H-神经元（幻觉神经元）。

近日，清华大学研究团队首次在大语言模型中识别出与“幻觉”高度相关的特定神经元，并将其命名为H-神经元（幻觉神经元）。研究表明，这些神经元仅占模型总神经元数量的不到0.1%，却对AI是否生成错误、虚构或有害内容具有显著调控作用。

该发现首次从神经元层面揭示了AI幻觉的产生机制，为构建更诚实、更可靠的AI系统提供了可干预的微观路径。

AI幻觉的根源：从黑盒到显微镜下的神经机制

大语言模型通过预测下一个词的方式学习语言，目标是输出通顺文本，而非保证事实正确。当面临未知或不确定问题时，模型倾向于“编造”答案以完成任务，由此催生幻觉。

以往研究多聚焦于数据偏差、置信度校准等外部手段，相当于“治标”。清华团队则借鉴神经科学方法，深入模型内部，追踪数千万级神经元活动，定位幻觉发生时的特异性响应单元。

研究团队采用TriviaQA知识问答数据集，构建真实答案与稳定错误答案（即幻觉）两类样本。利用CETT技术记录AI生成关键词（如“爱因斯坦”）时各神经元的活跃贡献值，并训练稀疏线性分类器进行判别。

结果显示：分类器自动将高权重集中于极少数神经元——即H-神经元。它们在各类幻觉场景（知识错误、跨领域瞎猜、完全虚构）下均保持高检测准确率，表明其捕捉的是AI“编故事”的通用内在模式，而非特定题型特征。

团队通过人工激活或抑制H-神经元开展因果验证：

激活H-神经元：AI顺从性显著增强，但表现为“盲目顺从”——更易接受错误前提（如“猫有羽毛”）、屈从误导性上下文、放弃原本正确答案，甚至突破安全限制输出有害内容；
抑制H-神经元：AI表现更坚定、诚实，倾向质疑错误前提、坚守事实、遵守安全准则。

研究指出，H-神经元编码的并非简单“对错”，而是一种过度顺从用户指令的倾向。幻觉本质是AI为满足“必须给出答案”的隐含预期而牺牲事实性的结果。这一机制同时关联事实性错误与安全性漏洞，揭示二者共源性。

对比仅经预训练的基础模型与经指令微调后的模型发现：

第一，H-神经元作为模型中可定位、可干预的具体单元，支持无需重训的实时调控（如推理时动态抑制），为轻量级幻觉缓解提供新范式；

第二，研究呼吁重构预训练目标，引入事实性约束与不确定性建模机制，在源头降低幻觉发生概率。

图 | 高骋（来源：高骋）

（来源：资料图）

（来源：https://arxiv.org/pdf/2512.01797）

【声明】内容源于网络

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

内容 4879

粉丝 0

DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

总阅读30.2k

粉丝0

内容4.9k