大数跨境

大模型幻觉问题调研

大模型幻觉问题调研 李rumor
2023-07-14
95

大模型幻觉问题综述:定义、成因与缓解策略

聚焦LLM生成内容的事实性与忠实性挑战

大语言模型(LLM)在实际应用中普遍存在“幻觉”问题,即生成内容不符合事实或与输入信息不一致,严重影响其可靠性与落地价值。

幻觉的定义

当模型生成内容在“忠实性”(Faithfulness)或“事实性”(Factualness)上出现问题,即可视为幻觉。

the generated content that is nonsensical or unfaithful to the provided source content

  • Faithfulness:生成内容是否忠实于输入信息;
  • Factualness:生成内容是否符合客观事实。

On faithfulness and factuality in abstractive summarization

不同任务对幻觉的界定存在差异:

  • 数据源差异:摘要任务依赖文档,data-to-text基于数据表,对话系统依赖对话历史,开放域对话则涉及世界知识;
  • 容忍度差异:摘要与data-to-text要求高忠实性,容忍度低;开放域对话更关注事实性,容忍度较高。

传统任务中幻觉主要指“忠实性”问题:

  • 内在幻觉(Intrinsic):生成内容与输入信息冲突;
  • 外在幻觉(Extrinsic):生成输入中未提及的额外信息,且难以验证真伪。

面向LLM的开放域应用场景,应更关注“事实性”问题。即使信息未出现在输入中,只要符合事实,仍具实用价值。

幻觉的成因

数据层面

  • 训练数据中包含虚假信息(如众包或爬虫获取),导致模型记忆错误知识;
  • 重复数据引发知识记忆偏差,加剧幻觉风险。

研究方向:构建高质量训练语料库,加强数据验证、过滤与筛选。

模型层面

  • 解码算法:高不确定性采样方法(如top-p)易诱发幻觉;
  • 暴露偏差:训练与推理阶段不一致,尤其影响长文本生成;
  • 参数知识:预训练中记忆的错误知识直接导致幻觉。

幻觉的评估

现有评估指标与人工判断相关性低,且多为特定任务设计。

Understanding factuality in abstractive summarization with FRANK: A benchmark for factuality metrics

Reference-based

  • 基于源信息与参考文本的重叠度评估,如ROUGE、BLEU、Knowledge F1等;
  • 仅适用于评估“忠实性”,无法衡量“事实性”,不适用于开放域LLM。

Reference-Free

  • 基于信息抽取(IE):将知识表示为三元组进行验证,受限于IE模型性能与知识表达形式;
  • 基于问答(QA):通过QG生成问题,QA模型验证答案一致性,存在模型错误传播问题;
  • 基于自然语言推理(NLI):判断生成文本是否被源信息蕴含,但难以处理需世界知识的幻觉,且蕴含不等于事实;
  • 基于分类模型:训练幻觉检测模型进行打分;
  • 人工评估:目前最可靠方法,也可使用GPT-4等强模型辅助评分,但其自身亦存在幻觉风险。

幻觉的缓解

基于数据的工作

构建高质量数据集

  1. 人工标注:用于构建细粒度评估基准,分析幻觉类型;
  2. 自动筛选:利用模型评分剔除易引发幻觉的数据;优先使用可信来源(如维基百科、教科书)进行预训练。

模型层面的工作

模型结构

  1. 设计更优编码结构(如引入GNN)以更好利用源信息;
  2. 降低生成随机性,平衡多样性与忠实性;
  3. 检索增强(Retrieval-Augmented)被证实可显著减少幻觉,如LLaMA Index。

训练方式

  1. 可控文本生成:将幻觉程度作为可控属性进行调节;
  2. 先规划后生成:通过“sketch to content”提升一致性;
  3. 强化学习:将减轻幻觉作为奖励函数优化生成过程;
  4. 多任务学习:设计辅助任务提升事实一致性;
  5. 后处理:使用小模型专门修正幻觉错误。

未来研究方向

指标设计

  1. 构建更细粒度的评估体系,涵盖内在/外在、主观/客观、时序性等维度;
  2. 推进token或短语级评估,超越句子级判断;
  3. 明确定义“知识”,探索模型知识调用机制;
  4. 研究模型编辑技术(如ROME、MEMIT)直接修正错误知识记忆。

幻觉消除

  1. 检索增强:结合互联网或外挂知识库;
  2. 强化学习(RLHF);
  3. 知识诱导与注入技术。

针对LLM的幻觉研究进展

幻觉评估

TruthfulQA

评估LLM生成事实性回答能力的重要基准,包含817个易误导问题。研究发现:

  • 人类准确率94%,GPT-3仅58%;
  • 模型规模越大,越易编造答案;
  • 微调可提升模型识别真实回答的能力。

HaluEval benchmark

基于3.5万条标注数据构建,覆盖问答、摘要、知识对话等任务。主要结论:

  1. ChatGPT约11.4%的回复含无法验证的幻觉内容;
  2. 当前LLM难以精准检测自身幻觉;
  3. 引入外部知识与多步推理可提升检测能力。

ChatGPT/GPT4生成不真实回复的评估与机理

将错误类型归因于三大能力缺陷:

  1. 知识记忆
  2. 知识调用
  3. 知识推理

提升可靠性的建议:

  1. 提供背景知识(检索);
  2. 细化知识粒度;
  3. 问题分解(Chain-of-Thought)。

早期研究指出:

  • ChatGPT具备识别虚假信息能力,可回应“不知道”;
  • 仍易被TruthfulQA问题误导;
  • 存在内在与外在幻觉案例。

Retrieval-augmented LLM评估

研究LLM在给定参考信息下的遵循能力:

  • 自动归因评估效果不佳;
  • 小型微调模型可优于大型零样本模型;
  • 模型容量与评估性能不完全正相关;
  • 跨任务训练(如QA/NLI)可提升归因评估能力。

大语言模型知识源对生成结果的影响研究

  • 采用五步框架进行知识提取,涵盖模型内部知识(parametric memory)与反向知识(counter-memory)

  • 单一知识源情境下:

    • 实体替换生成的反向知识难以误导模型,但由LLM自动生成的反向内容可成功诱导
  • 多知识源情境下,LLM表现出以下倾向:

    • 偏好更流行的知识
    • 受知识呈现顺序影响,倾向于采信先出现的信息
    • 更信任内容更长的知识条目
    • 倾向于采纳占多数的知识观点

幻觉检测与修复

相关研究方向持续探索中,代表性方法包括:

  • Check Your Facts and Try Again:结合外部知识与自动反馈优化LLM
  • SelfCheckGPT:零资源黑盒幻觉检测
  • Zero-shot Faithful Factual Error Correction:零样本事实纠错
  • Factuality Enhanced Language Models:提升开放生成中的事实性
  • CRITIC:基于工具交互式批评实现LLM自我修正
  • Measuring and Modifying Factual Knowledge:大模型事实知识的测量与更新
  • Inference-Time Intervention:推理阶段干预以引出真实回答
  • Methods for Measuring, Updating, and Visualizing Factual Beliefs:语言模型事实信念的度量与可视化
  • How Language Model Hallucinations Can Snowball:幻觉累积效应研究
  • PURR:通过去噪机制高效编辑模型幻觉
  • Improving Factuality and Reasoning through Multiagent Debate:多智能体辩论提升事实性与推理能力
  • Mitigating Hallucination with Interactive Question-Knowledge Alignment:通过问答对齐缓解幻觉

【声明】内容源于网络
0
0
李rumor
各类跨境出海行业相关资讯
内容 397
粉丝 0
李rumor 各类跨境出海行业相关资讯
总阅读4.5k
粉丝0
内容397