大模型幻觉问题综述:定义、成因与缓解策略
聚焦LLM生成内容的事实性与忠实性挑战
大语言模型(LLM)在实际应用中普遍存在“幻觉”问题,即生成内容不符合事实或与输入信息不一致,严重影响其可靠性与落地价值。
幻觉的定义
当模型生成内容在“忠实性”(Faithfulness)或“事实性”(Factualness)上出现问题,即可视为幻觉。
the generated content that is nonsensical or unfaithful to the provided source content
- Faithfulness:生成内容是否忠实于输入信息;
- Factualness:生成内容是否符合客观事实。
On faithfulness and factuality in abstractive summarization
不同任务对幻觉的界定存在差异:
- 数据源差异:摘要任务依赖文档,data-to-text基于数据表,对话系统依赖对话历史,开放域对话则涉及世界知识;
- 容忍度差异:摘要与data-to-text要求高忠实性,容忍度低;开放域对话更关注事实性,容忍度较高。
传统任务中幻觉主要指“忠实性”问题:
- 内在幻觉(Intrinsic):生成内容与输入信息冲突;
- 外在幻觉(Extrinsic):生成输入中未提及的额外信息,且难以验证真伪。
面向LLM的开放域应用场景,应更关注“事实性”问题。即使信息未出现在输入中,只要符合事实,仍具实用价值。
幻觉的成因
数据层面
- 训练数据中包含虚假信息(如众包或爬虫获取),导致模型记忆错误知识;
- 重复数据引发知识记忆偏差,加剧幻觉风险。
研究方向:构建高质量训练语料库,加强数据验证、过滤与筛选。
模型层面
- 解码算法:高不确定性采样方法(如top-p)易诱发幻觉;
- 暴露偏差:训练与推理阶段不一致,尤其影响长文本生成;
- 参数知识:预训练中记忆的错误知识直接导致幻觉。
幻觉的评估
现有评估指标与人工判断相关性低,且多为特定任务设计。
Understanding factuality in abstractive summarization with FRANK: A benchmark for factuality metrics
Reference-based
- 基于源信息与参考文本的重叠度评估,如ROUGE、BLEU、Knowledge F1等;
- 仅适用于评估“忠实性”,无法衡量“事实性”,不适用于开放域LLM。
Reference-Free
- 基于信息抽取(IE):将知识表示为三元组进行验证,受限于IE模型性能与知识表达形式;
- 基于问答(QA):通过QG生成问题,QA模型验证答案一致性,存在模型错误传播问题;
- 基于自然语言推理(NLI):判断生成文本是否被源信息蕴含,但难以处理需世界知识的幻觉,且蕴含不等于事实;
- 基于分类模型:训练幻觉检测模型进行打分;
- 人工评估:目前最可靠方法,也可使用GPT-4等强模型辅助评分,但其自身亦存在幻觉风险。
幻觉的缓解
基于数据的工作
构建高质量数据集
- 人工标注:用于构建细粒度评估基准,分析幻觉类型;
- 自动筛选:利用模型评分剔除易引发幻觉的数据;优先使用可信来源(如维基百科、教科书)进行预训练。
模型层面的工作
模型结构
- 设计更优编码结构(如引入GNN)以更好利用源信息;
- 降低生成随机性,平衡多样性与忠实性;
- 检索增强(Retrieval-Augmented)被证实可显著减少幻觉,如LLaMA Index。
训练方式
- 可控文本生成:将幻觉程度作为可控属性进行调节;
- 先规划后生成:通过“sketch to content”提升一致性;
- 强化学习:将减轻幻觉作为奖励函数优化生成过程;
- 多任务学习:设计辅助任务提升事实一致性;
- 后处理:使用小模型专门修正幻觉错误。
未来研究方向
指标设计
- 构建更细粒度的评估体系,涵盖内在/外在、主观/客观、时序性等维度;
- 推进token或短语级评估,超越句子级判断;
- 明确定义“知识”,探索模型知识调用机制;
- 研究模型编辑技术(如ROME、MEMIT)直接修正错误知识记忆。
幻觉消除
- 检索增强:结合互联网或外挂知识库;
- 强化学习(RLHF);
- 知识诱导与注入技术。
针对LLM的幻觉研究进展
幻觉评估
TruthfulQA
评估LLM生成事实性回答能力的重要基准,包含817个易误导问题。研究发现:
- 人类准确率94%,GPT-3仅58%;
- 模型规模越大,越易编造答案;
- 微调可提升模型识别真实回答的能力。
HaluEval benchmark
基于3.5万条标注数据构建,覆盖问答、摘要、知识对话等任务。主要结论:
- ChatGPT约11.4%的回复含无法验证的幻觉内容;
- 当前LLM难以精准检测自身幻觉;
- 引入外部知识与多步推理可提升检测能力。
ChatGPT/GPT4生成不真实回复的评估与机理
将错误类型归因于三大能力缺陷:
- 知识记忆
- 知识调用
- 知识推理
提升可靠性的建议:
- 提供背景知识(检索);
- 细化知识粒度;
- 问题分解(Chain-of-Thought)。
早期研究指出:
- ChatGPT具备识别虚假信息能力,可回应“不知道”;
- 仍易被TruthfulQA问题误导;
- 存在内在与外在幻觉案例。
Retrieval-augmented LLM评估
研究LLM在给定参考信息下的遵循能力:
- 自动归因评估效果不佳;
- 小型微调模型可优于大型零样本模型;
- 模型容量与评估性能不完全正相关;
- 跨任务训练(如QA/NLI)可提升归因评估能力。
大语言模型知识源对生成结果的影响研究
-
采用五步框架进行知识提取,涵盖模型内部知识(parametric memory)与反向知识(counter-memory)
-
-
单一知识源情境下:
- 实体替换生成的反向知识难以误导模型,但由LLM自动生成的反向内容可成功诱导
-
多知识源情境下,LLM表现出以下倾向:
- 偏好更流行的知识
- 受知识呈现顺序影响,倾向于采信先出现的信息
- 更信任内容更长的知识条目
- 倾向于采纳占多数的知识观点
幻觉检测与修复
相关研究方向持续探索中,代表性方法包括:
- Check Your Facts and Try Again:结合外部知识与自动反馈优化LLM
- SelfCheckGPT:零资源黑盒幻觉检测
- Zero-shot Faithful Factual Error Correction:零样本事实纠错
- Factuality Enhanced Language Models:提升开放生成中的事实性
- CRITIC:基于工具交互式批评实现LLM自我修正
- Measuring and Modifying Factual Knowledge:大模型事实知识的测量与更新
- Inference-Time Intervention:推理阶段干预以引出真实回答
- Methods for Measuring, Updating, and Visualizing Factual Beliefs:语言模型事实信念的度量与可视化
- How Language Model Hallucinations Can Snowball:幻觉累积效应研究
- PURR:通过去噪机制高效编辑模型幻觉
- Improving Factuality and Reasoning through Multiagent Debate:多智能体辩论提升事实性与推理能力
- Mitigating Hallucination with Interactive Question-Knowledge Alignment:通过问答对齐缓解幻觉


