李rumor

2023-07-14

大模型幻觉问题综述：定义、成因与缓解策略

聚焦LLM生成内容的事实性与忠实性挑战

大语言模型（LLM）在实际应用中普遍存在“幻觉”问题，即生成内容不符合事实或与输入信息不一致，严重影响其可靠性与落地价值。

幻觉的定义

当模型生成内容在“忠实性”（Faithfulness）或“事实性”（Factualness）上出现问题，即可视为幻觉。

the generated content that is nonsensical or unfaithful to the provided source content

Faithfulness：生成内容是否忠实于输入信息；
Factualness：生成内容是否符合客观事实。

On faithfulness and factuality in abstractive summarization

不同任务对幻觉的界定存在差异：

数据源差异：摘要任务依赖文档，data-to-text基于数据表，对话系统依赖对话历史，开放域对话则涉及世界知识；
容忍度差异：摘要与data-to-text要求高忠实性，容忍度低；开放域对话更关注事实性，容忍度较高。

传统任务中幻觉主要指“忠实性”问题：

内在幻觉（Intrinsic）：生成内容与输入信息冲突；
外在幻觉（Extrinsic）：生成输入中未提及的额外信息，且难以验证真伪。

面向LLM的开放域应用场景，应更关注“事实性”问题。即使信息未出现在输入中，只要符合事实，仍具实用价值。

幻觉的成因

数据层面

训练数据中包含虚假信息（如众包或爬虫获取），导致模型记忆错误知识；
重复数据引发知识记忆偏差，加剧幻觉风险。

研究方向：构建高质量训练语料库，加强数据验证、过滤与筛选。

模型层面

解码算法：高不确定性采样方法（如top-p）易诱发幻觉；
暴露偏差：训练与推理阶段不一致，尤其影响长文本生成；
参数知识：预训练中记忆的错误知识直接导致幻觉。

幻觉的评估

现有评估指标与人工判断相关性低，且多为特定任务设计。

Understanding factuality in abstractive summarization with FRANK: A benchmark for factuality metrics

Reference-based

基于源信息与参考文本的重叠度评估，如ROUGE、BLEU、Knowledge F1等；
仅适用于评估“忠实性”，无法衡量“事实性”，不适用于开放域LLM。

Reference-Free

基于信息抽取（IE）：将知识表示为三元组进行验证，受限于IE模型性能与知识表达形式；
基于问答（QA）：通过QG生成问题，QA模型验证答案一致性，存在模型错误传播问题；
基于自然语言推理（NLI）：判断生成文本是否被源信息蕴含，但难以处理需世界知识的幻觉，且蕴含不等于事实；
基于分类模型：训练幻觉检测模型进行打分；
人工评估：目前最可靠方法，也可使用GPT-4等强模型辅助评分，但其自身亦存在幻觉风险。

幻觉的缓解

基于数据的工作

构建高质量数据集

人工标注：用于构建细粒度评估基准，分析幻觉类型；
自动筛选：利用模型评分剔除易引发幻觉的数据；优先使用可信来源（如维基百科、教科书）进行预训练。

模型层面的工作

模型结构

设计更优编码结构（如引入GNN）以更好利用源信息；
降低生成随机性，平衡多样性与忠实性；
检索增强（Retrieval-Augmented）被证实可显著减少幻觉，如LLaMA Index。

训练方式

可控文本生成：将幻觉程度作为可控属性进行调节；
先规划后生成：通过“sketch to content”提升一致性；
强化学习：将减轻幻觉作为奖励函数优化生成过程；
多任务学习：设计辅助任务提升事实一致性；
后处理：使用小模型专门修正幻觉错误。

未来研究方向

指标设计

构建更细粒度的评估体系，涵盖内在/外在、主观/客观、时序性等维度；
推进token或短语级评估，超越句子级判断；
明确定义“知识”，探索模型知识调用机制；
研究模型编辑技术（如ROME、MEMIT）直接修正错误知识记忆。

幻觉消除

检索增强：结合互联网或外挂知识库；
强化学习（RLHF）；
知识诱导与注入技术。

针对LLM的幻觉研究进展

幻觉评估

TruthfulQA

评估LLM生成事实性回答能力的重要基准，包含817个易误导问题。研究发现：

人类准确率94%，GPT-3仅58%；
模型规模越大，越易编造答案；
微调可提升模型识别真实回答的能力。

HaluEval benchmark

基于3.5万条标注数据构建，覆盖问答、摘要、知识对话等任务。主要结论：

ChatGPT约11.4%的回复含无法验证的幻觉内容；
当前LLM难以精准检测自身幻觉；
引入外部知识与多步推理可提升检测能力。

ChatGPT/GPT4生成不真实回复的评估与机理

将错误类型归因于三大能力缺陷：

知识记忆
知识调用
知识推理

提升可靠性的建议：

提供背景知识（检索）；
细化知识粒度；
问题分解（Chain-of-Thought）。

早期研究指出：

ChatGPT具备识别虚假信息能力，可回应“不知道”；
仍易被TruthfulQA问题误导；
存在内在与外在幻觉案例。

Retrieval-augmented LLM评估

研究LLM在给定参考信息下的遵循能力：

自动归因评估效果不佳；
小型微调模型可优于大型零样本模型；
模型容量与评估性能不完全正相关；
跨任务训练（如QA/NLI）可提升归因评估能力。

大语言模型知识源对生成结果的影响研究

采用五步框架进行知识提取，涵盖模型内部知识（parametric memory）与反向知识（counter-memory）
单一知识源情境下：
- 实体替换生成的反向知识难以误导模型，但由LLM自动生成的反向内容可成功诱导
多知识源情境下，LLM表现出以下倾向：
- 偏好更流行的知识
- 受知识呈现顺序影响，倾向于采信先出现的信息
- 更信任内容更长的知识条目
- 倾向于采纳占多数的知识观点

幻觉检测与修复

相关研究方向持续探索中，代表性方法包括：

Check Your Facts and Try Again：结合外部知识与自动反馈优化LLM
SelfCheckGPT：零资源黑盒幻觉检测
Zero-shot Faithful Factual Error Correction：零样本事实纠错
Factuality Enhanced Language Models：提升开放生成中的事实性
CRITIC：基于工具交互式批评实现LLM自我修正
Measuring and Modifying Factual Knowledge：大模型事实知识的测量与更新
Inference-Time Intervention：推理阶段干预以引出真实回答
Methods for Measuring, Updating, and Visualizing Factual Beliefs：语言模型事实信念的度量与可视化
How Language Model Hallucinations Can Snowball：幻觉累积效应研究
PURR：通过去噪机制高效编辑模型幻觉
Improving Factuality and Reasoning through Multiagent Debate：多智能体辩论提升事实性与推理能力
Mitigating Hallucination with Interactive Question-Knowledge Alignment：通过问答对齐缓解幻觉

【声明】内容源于网络