大数跨境
0
0

深度检索增强生成(DeepRAG):让大语言模型逐步思考检索过程

深度检索增强生成(DeepRAG):让大语言模型逐步思考检索过程 涛哥论道
2025-04-08
1
导读:大语言模型(LLMs)推理能力强但存在事实幻觉,现有 RAG 任务分解无效、检索冗余。本文提出 DeepRAG,将检索增强推理建模为马尔可夫决策过程,迭代分解查询并动态决策是否检索。实验显示其答案准确

摘要:大语言模型(LLMs)在推理方面展现出显著潜力,但其参数知识的时效性、准确性和覆盖范围限制导致严重的事实幻觉问题。同时,由于任务分解无效和冗余检索,将推理与检索增强生成(RAG)相结合仍具挑战性 —— 冗余检索会引入噪声并降低响应质量。本文提出 DeepRAG 框架,将检索增强推理建模为马尔可夫决策过程(MDP),实现策略性和适应性检索。通过迭代分解查询,DeepRAG 在每一步动态决定是否检索外部知识或依赖参数推理。实验表明,DeepRAG 在提高检索效率的同时,将答案准确率提升了 21.99%,证明了其在优化检索增强推理中的有效性。


一、研究背景

研究问题:这篇文章要解决的问题是大型语言模型(LLMs)在推理过程中存在的事实幻觉问题,尤其是在参数知识的时效性、准确性和覆盖范围方面。此外,将推理与检索增强生成(RAG)相结合仍然具有挑战性,主要由于任务分解不有效和冗余检索,这可能会引入噪声并降低响应质量。

研究难点:该问题的研究难点包括:复杂查询通常需要多步分解以建立连贯的推理过程;LLMs在生成原子和精确的子查询时往往表现不佳;不必要的检索会引入噪声、降低生成质量并增加推理延迟。

相关工作:现有的自适应RAG方法可以分为三类:基于分类器的方法、基于置信度的方法和基于LLM的方法。然而,这些方法在识别知识边界方面存在不足,导致检索时机决策不可靠。最近的研究如Self-RAG、Auto-RAG、Search-o1和AirRAG在RAG框架内增强了推理能力,但仍然依赖于大量的检索操作或大型推理模型。

二、研究方法

这篇论文提出了DeepRAG,一种新框架,通过将检索增强推理建模为马尔可夫决策过程(MDP),实现了策略性和自适应检索。具体来说,

1、MDP建模:首先,将问题分解、原子决策和最终答案生成过程形式化为一个MDP,定义如下:

(S,A,P,R)其中,S表示状态集合,A表示动作集合,P表示转移动态,R表示奖励函数。状态st表示原始问题的部分解,动作at+1包括终止决策和原子决策。

2、二叉树搜索:为了构建推理路径,实现了一个二叉树搜索方法,探索了基于参数知识或外部知识库的不同回答策略。每个子查询都生成两个回答策略:直接利用参数知识或检索外部文档。

3、模仿学习:利用二叉树识别最小检索成本的优化推理过程,提取正确的最终答案。通过优先队列高效探索潜在推理轨迹,生成包含自适应推理过程的数据集,用于模仿学习。

4、校准链:通过校准每个原子决策,优化LLM的内部知识边界。合成偏好数据以确定何时需要检索,并使用校准链训练数据微调LLM,增强其基于内部知识边界的原子决策能力。

三、实验设计

1、数据集:使用五个开放域问答数据集进行实验,包括HotpotQA、2WikiMultihopQA、PopQA、CAG和WebQuestions。训练数据集来自HotpotQA和2WikiMultihopQA,测试数据集包括CAG、PopQA和WebQuestions。

2、基线方法:使用CoT、CoT*、CoT-Retrieve、CoT-Retrieve*、IterDRAG、UAR、FLARE、DRAGIN、TAARE和AutoRAG作为基线方法进行评估。

3、实现细节:采用BM25作为检索模型,外部知识库为Wikipedia。选择Llama-3-8B-Instruct和Qwen-2.5-7B作为基础模型。使用HotpotQA和2WikiMultihopQA的训练子集构建训练数据集,随机采样4000个数据点用于模仿学习,单独采样1000个数据点用于校准链。

四、结果与分析

1、整体结果:DeepRAG在所有测试场景中均优于现有方法,特别是在时间敏感和分布外设置中表现出显著的泛化能力和鲁棒性。与基于推理和自适应RAG的基线方法相比,DeepRAG在所有数据集上均实现了改进。

2、检索效率:DeepRAG在保持较高准确性的同时,检索成本相对较低。与基于置信度的方法相比,DeepRAG在不同数据集上的表现更为稳定。迭代检索方法如Auto-RAG在没有找到高度相关信息时容易陷入连续检索循环。

3、与参数知识的相关性:DeepRAG在F1、平衡准确率和MCC指标上表现出色,成功识别了检索的必要性。FLARE、DRAGIN和TAARE虽然准确性高,但在避免不必要检索方面表现不佳。

4、不同推理策略:仅依赖内部知识的效果较差,完全依赖外部知识虽然准确性较高但检索成本高。DeepRAG通过自适应选择内部和外部知识源,取得了最佳性能。

5、问题分解效果:大多数问题需要3-5步分解,检索尝试主要集中在0-2轮。DeepRAG有效地分解了问题,同时最小化了冗余检索。

五、总体结论

本文提出的DeepRAG通过自校准增强了LLM对检索需求的认识。通过分解查询并使用二叉树搜索进行数据合成,帮助模型更好地理解其知识边界。实验结果表明,DeepRAG显著提高了检索增强生成的准确性和效率。

【声明】内容源于网络
0
0
涛哥论道
李鹏涛,行业知名AI技术专家,清华大学创新领军工程博士,2012年加入京东,任高级总监,领导京东核心系统的研发,2017年任居家事业部产品研发部总经理。先后荣获全球架构师峰会优秀出品人,全球软件开发大会优秀讲师,物流信息化风云人物等奖项。
内容 114
粉丝 0
涛哥论道 李鹏涛,行业知名AI技术专家,清华大学创新领军工程博士,2012年加入京东,任高级总监,领导京东核心系统的研发,2017年任居家事业部产品研发部总经理。先后荣获全球架构师峰会优秀出品人,全球软件开发大会优秀讲师,物流信息化风云人物等奖项。
总阅读51
粉丝0
内容114