大数跨境
0
0

ICLR2025 || Think-on-Graph 2.0:用知识图谱×文本的紧耦合 RAG,推动 LLM 的深度且可证实推理

ICLR2025 || Think-on-Graph 2.0:用知识图谱×文本的紧耦合 RAG,推动 LLM 的深度且可证实推理 深度图学习与大模型LLM
2025-08-20
0
导读:本文介绍的 Think‑on‑Graph 2.0(ToG‑2)提出了一种将结构化知识与非结构化文本紧密耦合的混合式 RAG 框架

Think-on-Graph 2.0:用知识图谱×文本的紧耦合 RAG,推动 LLM 的深度且可证实推理

在 RAG 被广泛用于缓解大模型的“知识缺口”“幻觉”和可溯源性问题之时,本文介绍的 Think‑on‑Graph 2.0(ToG‑2)提出了一种将结构化知识与非结构化文本紧密耦合的混合式 RAG 框架。方法以知识图谱(Knowledge Graph, KG)为结构主轴,以文档上下文为细粒度证据,交替执行“图检索”与“上下文检索”,在多轮迭代中逐步延展证据链,使推理过程更接近人工的多跳、可解释、可验证范式。该方法在 6 个数据集上取得或接近 SOTA,尤其在 AdvHotpotQA、WebQSP、Zero‑Shot RE 等复杂任务上表现突出,并在财报域自建基准上显著优于一般 RAG 与 GraphRAG。

本文的核心不在于“把 KG 与文本简单拼接”,而在于用 KG 指导文本的深度检索、用文本证据反哺 KG 的精确检索,形成强约束、可回溯、训练免依赖且即插即用的混合范式。通过这种 KG×Text 的紧耦合,既弥补了文本向量检索对结构关系的忽略,也缓解了 KG 的不完整与细节不足,最终形成“深度检索—证据聚合—稳健决策”的闭环。

1. 基本信息

论文题为“THINK-ON-GRAPH 2.0: DEEP AND FAITHFUL LARGE LANGUAGE MODEL REASONING WITH KNOWLEDGE‑GUIDED RETRIEVAL AUGMENTED GENERATION”(中文:Think‑on‑Graph 2.0:用知识引导的检索增强生成,实现大模型的深度且忠实的推理)。作者为 Shengjie Ma, Chengjin Xu, Xuhui Jiang, Muzhi Li, Huaren Qu, Cehao Yang, Jiaxin Mao, Jian Guo;

  • 作者单位包括 IDEA Research(International Digital Economy Academy, Shenzhen, Guangdong, China)、Gaoling School of Artificial Intelligence, Renmin University of China、The Chinese University of Hong Kong、The Hong Kong University of Science and Technology。
  • 论文发表于 ICLR 2025,最新预印本链接为 https://arxiv.org/abs/2407.10805(v7,2025‑02‑10)。
  • 源码开源,地址为 https://github.com/IDEA-FinAI/ToG-2。

2. 研究背景

近年来,RAG 成为提升大模型事实一致性与知识覆盖的主流路径。主流做法依赖向量召回,将问题与文档片段按语义相似度匹配,这在单跳事实问答中效果良好,但在多跳推理、实体消歧以及跨文档关系追踪时,缺乏结构线索的弱点暴露无遗。像 “Global Financial Crisis” 与 “The 2008 Recession”的同指关系,或“Harry Potter” 与 “Fantastic Beasts”经由作者 J.K. Rowling 形成的语义关联,仅靠语义相似度往往难以完整捕捉,从而打断推理链并引入无关信息,导致答案不稳。

与此相对,KG 以三元组形式组织实体与关系,具有良好的结构可解释性,适合构建高层知识骨架。但是通用 KG 天生不完整且细节有限:能指出“谁与谁有关”,却缺少“如何、何时、何地”的文本细节。以运动员成绩为例,KG 往往给出“人物—赛事—隶属”的连接,但缺少分项成绩、阶段表现等信息。

为发挥两类知识的互补性,Hybrid RAG 受到关注。GraphRAG(https://arxiv.org/abs/2404.16130)尝试从文档中构图以增强检索,Chain‑of‑Knowledge(https://openreview.net/forum?id=cPgh4gWZlz)在多源异构知识上进行动态适配。可惜多数方法为松耦合:先从 KG 与文本分别检索,再把结果拼接给模型,缺乏“检索阶段的互相增益”。在跨实体链路长、证据分散、上下文稀薄等复杂查询中,检索深度与精度难以同时保证。

ToG‑2 的目标正是填补这一空白:以 KG 指导文本深挖、以文本反哺图剪枝,交替推进,使知识链不断加深,并在每一轮严格判断“是否足以作答”,以达到稳健、忠实、可追溯的推理。

3. 方法

ToG‑2 以“问题—实体”对齐为起点,通过实体链接得到起始主题实体,并在每一轮交替执行“图检索(Context‑enhanced Graph Search)”与“上下文检索(Knowledge‑guided Context Retrieval)”。直观地,图检索从 KG 的高层连通性出发扩展潜在线索实体;上下文检索在相关文档中进行细粒度证据挖掘;再用文本证据对实体进行回评与剪枝,更新下一轮的主题实体,反复迭代直到证据充分或达到预设深度。

这一设计源于对现有方案的系统反思。纯文本 RAG 缺少结构信号,难以在多跳情形保持正确轨迹;纯 KG RAG 又欠缺细节证据,难以完成最后一跳;松耦合 Hybrid RAG 只在末端拼接证据,未让图与文在检索阶段互为导引。因此,ToG‑2 把耦合前移到检索层:KG 决定文本检索的候选空间与深度,文本证据决定图检索的裁剪方向与前进路径,两者交替推进,形成面向问题的证据共振

整体流程如下。给定问题  ,初始化阶段通过 NER 与实体链接得到  ,并对其关联文档做一次快速检索;若已充分则直接作答,否则进入第   轮迭代。每轮包括三步:其一,基于 KG 的关系发现与关系剪枝,扩展候选实体;其二,围绕候选实体进行实体引导的上下文检索与实体级剪枝;其三,结合三元组路径与精选上下文判断是否足以作答,若不足则归纳“已知线索”并重写查询进入下一轮。为便于实现与分析,ToG‑2 把这些环节抽象为可复用的算子与打分函数。

在图检索中,对每个主题实体   检索其在 KG 上的关系并标注方向:

随后用 LLM 进行关系剪枝,得到与   最相关的关系子集  ;可逐实体打分,也可多实体合并评估,以兼顾效率与全局性。基于保留关系,再做实体扩展

得到候选实体集合。与一般“广撒网”不同,ToG‑2 把这一集合交给下一步的上下文检索,以证据为依据进行筛选。

在上下文检索中,ToG‑2 把候选实体连同其到达路径编码为检索条件的一部分。做法是将当前边   线性化为简短的“triple sentence”,与候选实体的文档片段拼接,再交由密集检索模型(DRM)打分:

选出前   个片段作为当轮证据池。随后按“实体”聚合分数,得到实体级得分:

并据此选出前   个实体作为下一轮主题实体  。通过这种“用文本证据回评图扩展”的约束,图检索由无序扩张变为循证推进

在回合控制上,ToG‑2 每轮将“历史线索、当前三元组路径、Top‑  上下文”一并提示给 LLM,请其判断是否“证据充分”。若充分则直接作答并指明实体;若不足则输出可行动“Clues”,并据此改写检索查询进入下一轮:

为控制成本,作者对 LLM 调用进行了上界与实测:在合并关系剪枝配置下,ToG‑2 至多需要   次调用;而 ToG 的上界为  。配合 BGE‑Reranker 做实体剪枝,整体延迟在多个数据集上明显低于 ToG,同时效果更好。文中给出完整伪代码与关键超参,经验上   常取得较佳权衡。

4. 实验与发现

实验覆盖开放域与专域两类知识密集型任务。开放域方面,包括两个多跳 KBQA(WebQSP、QALD‑10‑en)、复杂多文档问答 AdvHotpotQA、关系填充 Zero‑Shot RE,以及事实核验 FEVER 与 Creak;知识源对齐为完整 Wikipedia(非结构化)与 Wikidata(结构化);评测主要使用 Exact Match 或 Accuracy,避免小型“干扰项”造成召回偏置。专域方面,作者构建了 ToG‑FinQA:从数千份 2023 年中文财报抽取实体并构建 7 类关系的行业 KG,围绕真实企业上下游、交易与业务设计 97 个多跳问题,用于检验在“先验知识缺失、必须外部检索”场景下的稳健性。为公平比较,主干 LLM 统一为 GPT‑3.5‑turbo,并报告与 GPT‑4o、Llama‑3‑8B、Qwen2‑7B 的差异。

整体来看,ToG‑2 在 6/7 个数据集上达成或接近当时 SOTA。与代表性方法的并列对比如下(均为 GPT‑3.5‑turbo、无监督设置):

方法
WebQSP (EM)
AdvHotpotQA (EM)
QALD‑10‑en (EM)
FEVER (Acc.)
Creak (Acc.)
Zero‑Shot RE (EM)
ToG‑2
81.1
42.9
54.1
63.1
93.5
91.0
Chain‑of‑Knowledge
77.6
35.4‡/34.1†
47.1
63.5†/58.5‡
90.4
75.5
ToG(原法)
76.2
26.3
50.2
52.7
93.8
88.0

注:†/‡ 分别对应 3‑shot/6‑shot。相关链接:ToG 原法 https://arxiv.org/abs/2307.07697,CoK https://openreview.net/forum?id=cPgh4gWZlz。

从趋势看,多跳与跨源融合需求越强,ToG‑2 的优势越明显:在 AdvHotpotQA 上相对 ToG 提升 16.6 个点,WebQSP 提升 4.9 个点,QALD‑10‑en 提升 3.9 个点;在以单跳为主的事实核验任务(如 FEVER、Creak)中,与强基线差距缩小,其中 Creak 几乎依靠 KG 三元组即可判断真伪,ToG‑2 与 ToG 表现接近。专域 ToG‑FinQA 上,ToG‑2 以 34.0% 显著好于 GraphRAG 的 6.2%,而一般 RAG 与 CoT 基本失效,说明在“必须深度检索”的企业级场景中,ToG‑2 的价值更为突出;GraphRAG 的局限在于松耦合难以执行“多跳上下文深挖”,ToG 原法虽可借助 KG 多跳前进,但缺少文本回流仍受限。

在可迁移性方面,ToG‑2 对不同能力梯度的 LLM 均带来稳定增益:以 AdvHotpotQA 为例,Llama‑3‑8B 从 20.8 提升至 34.7,Qwen2‑7B 从 17.9 提升至 30.8,GPT‑3.5‑turbo 从 23.1 提升至 42.9,GPT‑4o 也有 47.7→53.3 的提升。这说明方法对弱模型能补知识,对强模型能补证据。消融实验显示,基于 BGE‑Reranker 的实体剪枝相较 LLM 生成式打分与 BM25 等稀疏方法,兼具精度与效率;超参敏感性分析给出清晰结论:宽度从 2 增至 3 受益明显,继续增大收益递减;深度在 3 左右收敛,体现“窄而深”的多轮策略更优。

在统计显著性上,作者在可获取逐题输出的数据集(如 WebQSP、QALD‑10‑en、Zero‑Shot RE、Creak)上进行了成对 t 检验,ToG‑2 相比 ToG 与 CoK 在多数数据集达成  ;唯 Creak 上与 ToG 差异不显著,契合其“以三元组即可作答”的任务结构。误差分析表明,ToG‑2 倾向于在证据不充分时保持克制,从而减少幻觉;在个别标注含糊或需要隐式常识合成的样例上,可能显得偏保守。运行时方面,采用“合并关系剪枝”的 ToG‑2 降低了每轮 LLM 调用与总体延迟;配合 DRM/Reranker 的实体剪枝,平均把该阶段耗时降至 ToG 的约 68.7%。

5. 结论与展望

ToG‑2 将“KG 的结构方向感”与“文本的证据力”在检索环节深度融合,用 KG 保障推理链的方向,用文本保障推理的充分与可证。方法在无需额外训练的前提下,实现跨模型、跨任务的稳定提升,并在领域知识缺口场景中展现实际价值。更重要的是,它把传统的“检索—生成”扩展为“检索—检索—生成”的交替式迭代,让模型的思维轨迹更接近“设问—求证—改问—再证”的人类过程。

未来值得重点推进的方向包括:在实体链接与关系剪枝中引入可学习判别器,或将 LLM 的评判信号蒸馏到轻量 Reranker,以进一步降低时延并提升长链稳定性;在不完整 KG 上自适应调整宽度与深度,结合“图补全—证据检索”的闭环优化,缓解现实场景中的稀疏连接;把该框架与企业知识中台的权限、时效与溯源机制结合,在金融、医药、法律等高合规领域构建可审计的答案链,推动从“答案正确”走向“答案可证”;同时探索与 Agentic 工作流的协同,让规划、工具调用与 ToG‑2 的检索‑推理循环对齐,在开放域长任务中提升任务完成率与资源效率。总的来看,ToG‑2 把“图的方向感”与“文的证据力”封装为训练免依赖、可复用的检索‑推理基元,为高可靠 LLM 应用提供了清晰工程路径与方法论参照,并具有良好的scalable潜力。


参考链接:

  • 论文:https://arxiv.org/abs/2407.10805
  • 源码(GitHub):https://github.com/IDEA-FinAI/ToG-2
  • 相关工作:Think‑on‑Graph(原法)https://arxiv.org/abs/2307.07697;GraphRAG https://arxiv.org/abs/2404.16130;Chain‑of‑Knowledge https://openreview.net/forum?id=cPgh4gWZlz。

【声明】内容源于网络
0
0
深度图学习与大模型LLM
关注大模型LLM及其突破性进展。深入探讨大模型在各领域的落地实践与技术挑战,包括提示工程、知识蒸馏、参数高效微调等关键技术。同时关注图机器学习、图表示学习的前沿进展,带来顶会顶刊动态及解读。
内容 2322
粉丝 0
深度图学习与大模型LLM 关注大模型LLM及其突破性进展。深入探讨大模型在各领域的落地实践与技术挑战,包括提示工程、知识蒸馏、参数高效微调等关键技术。同时关注图机器学习、图表示学习的前沿进展,带来顶会顶刊动态及解读。
总阅读1.0k
粉丝0
内容2.3k