

基于大模型的智能体幻觉：分类、方法与方向综述

知识图谱科技

2025-11-14

导读：这篇文章要解决的问题是大语言模型（LLMs）驱动的智能体（LLM-based Agents）在任务执行过程中容易出现的幻觉问题。幻觉会导致任务执行错误，破坏系统的可靠性。

摘要

在大型语言模型（LLMs）快速发展的推动下，基于LLMs的代理作为强大的智能系统出现，能够进行类似人类的认知、推理和互动。这些代理越来越多地被部署在多样的实际应用中，包括学生教育、科学研究和金融分析。然而，尽管它们具有显著的潜力，基于大型语言模型（LLM）的代理仍然容易受到幻觉问题的影响，这可能导致错误的任务执行，并破坏整个系统设计的可靠性。解决这一关键挑战需要对基于LLM的代理的最新进展进行深入的理解和系统的整合。为此，我们首次全面综述了基于LLM的代理中的幻觉问题。通过仔细分析代理的完整工作流程，我们提出了一个新的分类法，识别出在不同阶段发生的不同类型的代理幻觉。此外，我们对引发代理幻觉出现的十八个触发原因进行了深入检查。通过对大量现有研究的详细回顾，我们总结了处理幻觉的方法。

核心速览

研究背景

研究问题：这篇文章要解决的问题是大语言模型（LLMs）驱动的智能体（LLM-based Agents）在任务执行过程中容易出现的幻觉问题。幻觉会导致任务执行错误，破坏系统的可靠性。
研究难点：该问题的研究难点包括：

幻觉类型的多样性：LLM-based Agents的幻觉不仅仅是简单的响应错误，而是由多个模块相互作用引起的复杂行为。
传播链的延长：幻觉往往涉及多个步骤和多状态转换，不仅限于最终输出，还可能在中途的传播和累积。
更严重的后果：幻觉可能导致物理上的严重后果，错误的实体行动会直接影响任务执行、系统设备和用户体验。

相关工作：之前的研究主要集中在自然语言生成（NLG）领域的幻觉问题，而LLM-based Agents的幻觉问题更为复杂，现有的综述主要集中在架构设计和实际应用上，对幻觉问题的重视不足。

研究方法

这篇论文提出了一个综合的调查，用于解决LLM-based Agents的幻觉问题。具体来说，

新的分类体系：首先，论文提出了一个新的分类体系，将代理组件分为内部状态和外部行为两部分。内部状态由代理维护的信念状态表示，外部行为是由信念状态指导的一系列主动程序。基于这种内外区分，论文识别了五种类型的代理幻觉：推理幻觉、执行幻觉、感知幻觉、记忆幻觉和通信幻觉。

触发原因分析：论文深入探讨了十八种导致代理幻觉的触发原因，包括目标理解不准确、依赖关系建模不足、工具文档限制、浅层模式理解不足、动态适应性弱、缺乏可解性意识等。
缓解方法：论文总结了十种通用的幻觉缓解方法，包括知识利用、范式改进和事后验证。知识利用包括外部知识指导和内部知识增强；范式改进涵盖了对比学习、课程学习、强化学习、因果学习、图学习和解码优化；事后验证则包括自我验证机制和验证器辅助。
检测方法：论文还回顾了与每种类型代理幻觉相对应的现有检测方法，尽管检测方法相对较少，但针对感知幻觉的方法较多，而记忆幻觉和通信幻觉的方法较少。

结果与分析

幻觉类型：论文通过新的分类体系，系统地识别了五种类型的代理幻觉，并提供了每种类型的定义、示例和代表性研究。
触发原因：通过深入分析，论文确定了十八种导致代理幻觉的触发原因，这些原因涵盖了从目标理解到工具调用的各个阶段。
缓解效果：论文总结的十种幻觉缓解方法在不同类型的幻觉问题上表现出不同的效果。例如，知识利用方法在通过外部知识指导减少推理幻觉方面表现出色，而范式改进方法在通过强化学习和因果学习提高代理的鲁棒性方面效果显著。
检测效果：尽管检测方法有限，但针对感知幻觉的检测方法相对成熟，能够有效识别和定位幻觉来源，为后续的幻觉缓解提供了重要依据。

总体结论

这篇论文全面调查了LLM-based Agents的幻觉问题，提出了新的分类体系和详细的触发原因分析，总结了多种幻觉缓解和检测方法。论文的贡献包括：

首次全面调查：这是首篇综述LLM-based Agents幻觉问题的论文，涵盖了最新的缓解和检测方法。
创新的分类体系：通过引入内部状态和外部行为的区分，提供了一个新的视角来理解和分类代理幻觉。
全面的综述：论文为每种类型的代理幻觉提供了详细的定义和代表性研究，总结了多种有效的幻觉缓解和检测方法。
未来方向：论文指出了未来研究的几个有前景的方向，包括幻觉积累调查、准确的幻觉定位、机制解释性和统一的基准构建等。

通过这篇论文，作者希望激发更多的努力来解决LLM-based Agents的幻觉问题，最终促进更健壮和可靠的代理系统的发展。

论文评价

优点与创新

首次全面调查：这是第一篇综述LLM（大型语言模型）代理中幻觉问题的论文，涵盖了缓解和检测方法的最近研究，提供了对LLM代理发展的广泛视角。
创新的分类体系：引入了将代理组件分为内部状态和外部行为的新分解方法，基于此可以基于特定阶段发生幻觉对代理幻觉进行分类，涵盖五种类型的代理幻觉。
全面的综述：为每种类型的代理幻觉提供了形式化定义、示例和代表性研究的深入讨论，识别了十八个触发代理幻觉的原因，并总结了十种通用的幻觉缓解方法及其相应的检测方法。
未来展望：通过审查和总结现有的解决方案及其可能的局限性，概述了几个需要充分调查的未来研究方向，以推动学术研究和实际部署的LLM代理的发展。
开放资源：提供了一个包含超过300篇相关论文的精心策划的资源集合，并在GitHub上公开发布，以促进社区参与。

不足与反思

多步幻觉累积：大多数现有研究在单一代理循环内调查幻觉实例及其根本原因。然而，代理决策本质上是一个多步骤和顺序过程，幻觉可能随时间累积和放大。解决这一问题需要对代理的整个决策过程进行全面分析，以便早期检测和缓解幻觉。
准确的幻觉定位：与传统的语言模型幻觉不同，代理幻觉涉及跨多个相互依赖组件的全链条错误传播。尽管我们在第3节中提出了幻觉分类和归因，但在最终输出中迅速准确地定位代理幻觉的来源仍然是一个重大挑战。
幻觉机制可解释性：机制可解释性（MI）旨在揭示神经网络的隐藏表示和内部组件如何导致特定行为。将MI技术扩展到LLM代理引入了新的挑战。未来的研究应适应这些动态和互联的过程，以实现更精确的诊断和系统的幻觉缓解。
统一基准构建：现有的基准通常仅限于特定类型的幻觉。缺乏一个统一的幻觉评估基准，可以定义多样化的幻觉场景并采用各种评估指标来全面评估代理在推理、执行、感知、记忆和通信方面的幻觉程度。
持续自我进化能力：在实际应用中，用户需求和配置不断演变。为了保持有效性，代理必须具有动态适应变化目标和条件的持续自我进化能力。将终身学习范式与代理集成，赋予其更有效的动态适应能力是一个有前景的解决方案。
基础架构升级：当前的LLM代理主要依赖于Transformer架构，但在处理长上下文信息和计算复杂性方面面临挑战。未来的研究应探索更有效的架构升级，如引入线性复杂度模块、集成神经符号系统以及设计动态自调度代理系统。

关键问题及回答

问题1：论文中提出的五种类型的代理幻觉分别是什么？请详细描述每种幻觉的定义和表现形式。

推理幻觉：指LLM-based Agents生成的计划看似合理，但实际上存在逻辑错误或不支持的情况。推理幻觉可能发生在目标理解、意图分解和计划生成三个阶段。例如，目标理解幻觉可能是由于目标信息表达模糊或主观理解不足导致的；意图分解幻觉可能是由于依赖关系建模不足，导致生成无关或不可行的子意图；计划生成幻觉可能是由于对规划信息的误解或误用。
执行幻觉：指LLM-based Agents在执行阶段声称完成了某些子阶段，但实际上并未完成。执行幻觉分为工具选择幻觉和工具调用幻觉。工具选择幻觉可能是由于工具文档限制或浅层模式理解不足，导致选择了不存在的工具；工具调用幻觉可能是由于参数填充错误或遗漏，导致调用了无效的工具。
感知幻觉：指LLM-based Agents在接收和转换外部信息时，产生了与实际环境显著偏离的内部观测。感知幻觉通常是由于环境传感器故障或有限编码能力导致的。例如，视觉传感器故障可能导致图像失真，惯性测量单元的信号漂移可能导致位置信息错误。
记忆幻觉：指LLM-based Agents在存储和管理信息时，错误地假设其记忆是准确和可靠的。记忆幻觉分为记忆检索幻觉和记忆更新幻觉。记忆检索幻觉可能是由于检索机制不佳或优先级分配不当，导致检索到不相关或过时的信息；记忆更新幻觉可能是由于信息压缩或格式不规范，导致存储的内容不准确或被篡改。
通信幻觉：指LLM-based Agents在进行多智能体协作时，交换的信息不准确、误导或伪造，从而破坏协作。通信幻觉通常是由于错误的消息传播、不协调的通信协议或无效的网络更新导致的。例如，错误的消息传播可能是由于LLMs生成的事实性或忠实性幻觉；不协调的通信协议可能是由于消息格式不一致或缺少确认条件；无效的网络更新可能是由于网络拓扑结构变化导致的信息传递不畅。

问题2：论文中提到的十八种导致代理幻觉的触发原因有哪些？请详细描述每种原因及其影响。

目标理解不准确：目标信息表达模糊或主观理解不足，导致对用户意图的误判。这可能是由于目标信息不完整或含糊，或者由于Agent的主观认知局限。
依赖关系建模不足：在意图分解过程中，未能正确识别和处理子意图之间的依赖关系，导致生成无关或不可行的子意图。这可能是由于依赖关系建模不完整或存在逻辑错误。
工具文档限制：工具文档中的信息不完整、不准确或缺乏标准化，导致Agent在使用工具时产生幻觉。这可能是由于工具文档编写不规范或更新不及时。
浅层模式理解不足：Agent对工具的浅层理解导致错误地调用工具，认为工具能够成功执行。这可能是由于Agent缺乏对工具复杂模式的深入了解。
动态适应性弱：Agent在面对工具功能演变或API接口修改时，未能及时适应，导致使用过时的工具。这可能是由于Agent的训练数据缺乏动态更新的样本。
缺乏可解性意识：Agent在使用工具时未能意识到当前计划是否可行，导致选择不合适的工具或参数填充错误。这可能是由于Agent缺乏对工具可解性的判断能力。
环境传感器故障：环境传感器（如摄像头、麦克风）的故障导致Agent接收到的错误输入信息，进而产生幻觉。这可能是由于传感器硬件损坏或信号处理错误。
有限编码能力：Agent在编码过程中未能充分提取单模态信息或整合跨模态信息，导致生成的观测结果不准确。这可能是由于编码模块的设计缺陷或训练数据不足。
记忆检索机制不佳：Agent在检索记忆时使用了不恰当的索引结构或查询语义理解不足，导致检索到过时或不相关的信息。这可能是由于检索算法的局限性或查询条件的设置不合理。
优先级分配不当：Agent在合并多个记忆片段时未能正确评估优先级，导致合并后的记忆包含冲突信息。这可能是由于优先级评估标准不明确或记忆片段之间的关系复杂。
信息压缩问题：Agent在总结和存储历史信息时，生成的摘要过于笼统或引入失真，导致记忆内容不准确。这可能是由于摘要生成算法的选择不当或训练数据的偏差。
非标准化记忆格式：Agent使用的记忆格式不统一且结构混乱，阻碍了信息的有效写入和检索。这可能是由于记忆管理模块的设计缺陷或缺乏标准化规范。
错误的消息传播：LLMs生成的消息包含不准确的事实或误导性推断，导致Agent接收到错误的信息。这可能是由于LLMs本身的事实性或忠实性幻觉。
内容冗余：Agent生成的消息中存在不必要的重复内容，掩盖了关键信息，增加了认知负担。这可能是由于消息生成算法的设计缺陷或消息编辑的不当操作。
信息不对称：由于Agent在多智能体系统中扮演不同的角色，获取的信息量和信息类型存在差异，导致信息不对称和误导性决策。这可能是由于系统架构设计的不合理或信息共享机制的缺失。
异步调度问题：异步调度导致Agent在接收和处理指令时出现信息丢失或过载，进而产生幻觉。这可能是由于调度算法的局限性或系统延迟问题。
消息格式不一致：Agent之间使用的消息格式不一致或缺少确认条件，导致信息传递不畅和误解。这可能是由于通信协议的设计缺陷或系统实现的问题。
网络更新无效：无效的网络更新导致Agent之间的连接不一致或过时，阻碍了信息的准确传递。这可能是由于网络管理策略的不足或系统升级的不完善。

问题3：论文中总结了哪些幻觉缓解方法？这些方法分别适用于哪种类型的幻觉？

知识利用：通过利用外部和内部知识来弥补知识缺口和偏见，减少幻觉输出。外部知识指导包括专家知识和世界模型，内部知识增强包括激活和校正内部知识。适用于推理幻觉和执行幻觉。
范式改进：通过开发先进的训练范式来预防训练和推理过程中的幻觉。包括对比学习、课程学习、强化学习、因果学习、图学习和解码优化。适用于推理幻觉、执行幻觉和感知幻觉。
事后验证：通过监控和评估任务执行过程中的中间决策和行动，防止幻觉的积累和传播。包括自我验证机制和验证器辅助。适用于推理幻觉、执行幻觉、感知幻觉、记忆幻觉和通信幻觉。
对比学习：通过比较相似性和差异性来学习更具辨别力的表示，减少处理不熟悉或不完整任务输入时的错误。适用于推理幻觉和感知幻觉。
课程学习：通过从简单任务开始逐步过渡到复杂任务，提高学习效率和泛化能力，减少幻觉。适用于推理幻觉和执行幻觉。
强化学习：通过与环境的互动调整策略，优化未来的决策，减少多轮交互中的幻觉。适用于推理幻觉和执行幻觉。
因果学习：通过建模、发现和利用变量之间的因果关系，增强模型的解释性和泛化能力，减少感知和推理幻觉。适用于推理幻觉和感知幻觉。
图学习：通过处理图结构数据，组织和管理系统任务，减少执行幻觉和记忆幻觉。适用于执行幻觉和记忆幻觉。
解码优化：通过调整概率分布或注意力模式，确保解码过程与输入和事实知识更好地对齐，减少推理幻觉。适用于推理幻觉和感知幻觉。
自我验证机制：通过自反性提示和置信度估计，鼓励Agent自我反思和识别推理缺陷，减少幻觉。适用于推理幻觉和执行幻觉。
验证器辅助：通过独立的外部验证器检测Agent输出的潜在缺陷，减少幻觉。适用于推理幻觉、执行幻觉、感知幻觉、记忆幻觉和通信幻觉。

【声明】内容源于网络

知识图谱科技

1234

内容 1015

粉丝 0

知识图谱科技 1234

总阅读6.3k

粉丝0

内容1.0k