

从局部到全局：一种面向查询的图结构RAG摘要方法

涛哥论道

2024-05-07

导读：论文《从局部到全局：一种面向查询的图结构RAG摘要方法》阅读笔记。

摘要：使用检索增强生成（RAG）从外部知识源检索相关信息，使大型语言模型（LLMs）能够回答有关私人和/或之前未见过的文档集合的问题。然而，RAG在处理针对整个文本语料库的全局性问题时失败，例如“数据集中的主要主题是什么？”因为这本质上是一个查询聚焦的摘要（QFS）任务，而不是一个明确的检索任务。与此同时，以前的QFS方法未能扩展到典型RAG系统所索引的文本量。为了结合这些对比方法的优点，我们提出了一种基于图的RAG方法来处理私有文本语料库上的问题回答，该方法既扩展了用户问题的普遍性，也扩展了要索引的源文本数量。我们的方法使用LLM构建基于图的文本索引，分为两个阶段：首先从源文档派生出实体知识图谱，然后为所有密切相关的实体组预生成社区摘要。给定一个问题，每个社区摘要都用来生成部分回答，然后所有部分回答再次被汇总为最终回答用户的问题。对于一类在大约100万个令牌范围内的数据集上的全局性理解问题，我们展示了Graph RAG在生成答案的全面性和多样性方面，相比于简单的RAG基线有显著改进。一个开源的、基于Python的全局和本地Graph RAG方法的实现即将推出，网址是 https://aka.ms/graphrag。

论文原文地址：https://arxiv.org/pdf/2404.16130

一、概述

这篇论文介绍了一种名为Graph RAG（Graph Retrieval-Augmented Generation）的方法，旨在提高大型语言模型（LLMs）在处理私有或未见过的文档集合时回答全局性问题的能力。传统的RAG方法在处理特定文本区域的检索任务时表现出色，但在回答涉及整个文本语料库的全局性问题时存在不足，因为这类问题本质上是查询聚焦的摘要（Query-Focused Summarization, QFS）任务，而非显式的检索任务。为了解决这一问题，作者提出了一种基于图的RAG方法，通过构建基于图的文本索引，将文档集合划分为多个紧密相关的实体社区，并为每个社区生成摘要，从而在用户问题和源文本数量上实现扩展。

具体来说，Graph RAG方法包括以下步骤：

1. 源文档到文本块：将源文档分割成文本块，以便后续处理。

2. 文本块到元素实例：使用LLM提示提取文本中的实体和关系实例。

3. 元素实例到元素摘要：对提取的实体和关系实例进行摘要，生成描述性文本。

4. 元素摘要到图社区：利用社区检测算法将实体节点通过关系边连接的图划分为社区。

5. 图社区到社区摘要：为Leiden算法检测到的每个社区生成摘要。

6. 社区摘要到社区答案再到全局答案：使用社区摘要生成部分答案，并将所有部分答案汇总成最终的全局答案。

作者使用两个真实世界的数据集（分别包含播客转录和新闻文章）对Graph RAG方法进行了评估。评估结果显示，Graph RAG在生成答案的全面性和多样性方面显著优于传统的RAG方法。此外，作者还提供了一个开源的Python实现，可以在https://aka.ms/graphrag找到。

论文还讨论了Graph RAG方法的局限性、构建图索引的权衡以及未来的研究方向。作者指出，尽管Graph RAG在某些情况下取得了最佳效果，但在许多情况下，不使用图索引的全局文本摘要方法也表现出了竞争力。他们还提出了一些可能的改进方向，包括更本地化的RAG方法、混合RAG方案以及扩展“roll-up”操作的可能性。

二、源文档到文本块

第一步“源文档到文本块”是Graph RAG方法中的初步阶段，目的是将原始的长文本内容分割成更易于处理的小块。这一步骤对于后续的文本处理和分析至关重要，因为它允许系统更高效地处理大量文本数据，并确保大型语言模型（LLM）能够有效地处理每个文本块。

分割过程的关键点：

1. 确定文本块大小：选择合适的文本块大小是关键。较小的文本块可能需要更多的LLM调用，但可以提高信息的召回率。较大的文本块可以减少LLM调用次数，但可能导致信息的遗漏。

2. 分割策略：文本块的分割可以基于固定长度的令牌数（例如，每个文本块包含600个令牌），或者基于文档的自然分段（例如，每个段落作为一个文本块）。

3. 重叠处理：为了保持上下文的连贯性，相邻的文本块之间可能会有一定的重叠区域。

4. 处理特殊格式：对于包含特殊格式（如标题、列表、表格）的文档，可能需要特殊的处理策略来保持内容的完整性。

举例说明：

假设我们有一篇关于“可持续发展”的长篇文章，文章包含了多个章节，每个章节讨论不同的主题，如可再生能源、生态系统保护、社会公平等。

1. 确定块大小：我们决定每个文本块包含600个令牌，以平衡处理效率和信息召回率。

2. 分割文章：文章被分割成多个600令牌的文本块。例如，第一章节可能被完全包含在一个文本块中，而较长的第二章节可能需要被分割成两个或更多的文本块。

3. 处理重叠：如果第二章节的第二个文本块开始于第一章节的末尾，我们可能会在第一个文本块的末尾保留一些重叠内容，以确保上下文的连贯性。

4. 特殊格式处理：如果文档中包含表格或图表，我们可能会将这些内容与周围的文本一起保留在同一个文本块中，以便于LLM理解这些内容的上下文。

通过将源文档分割成文本块，Graph RAG方法能够更有效地处理和分析大量文本数据，为后续的实体识别、关系提取和图社区构建打下基础。

三、文本块到元素实例

第二步“文本块到元素实例”是Graph RAG方法中的一个关键步骤，它涉及使用大型语言模型（LLM）的提示（prompts）来从文本块中提取图索引的基本元素，即实体（entities）和关系（relationships）。这一步骤的目的是识别和提取源文本中的实体和它们之间的关系，这些信息将用于构建后续的图数据库。

提取过程：

1. 实体识别：首先，使用LLM提示来识别文本中的所有实体。这包括实体的名称、类型和描述。例如，如果文本块是关于一场科技会议的描述，实体可能包括与会的演讲者、公司、技术术语等。

2. 关系识别：接下来，识别实体之间的所有关系。这涉及到明确相关联的实体对，并描述它们之间的关系。例如，如果两个科技领域的专家在会议中进行了对话，他们之间可能存在“对话”或“讨论”的关系。

3. 输出格式：识别出的实体和关系以特定格式的元组（tuples）输出，每个元组包含有关实体或关系的详细信息。

定制化提示（Prompts）：

为了提高提取过程的准确性和相关性，可以为LLM提供少量样本（few-shot examples），这些样本专门针对文档语料库的特定领域。例如：

- 对于通用的“命名实体”（如人名、地点、组织名），使用默认的提示可能就足够了。

- 但对于包含专业知识的领域（如科学、医学、法律），则需要提供专门针对这些领域的少量样本来训练LLM。

额外的协变量提取：

除了实体和关系之外，还可以使用LLM提示来提取与实体关联的其他协变量（covariates），例如与检测到的实体相关的声明（claims）。这可能包括主题、对象、类型、描述、源文本段以及开始和结束日期等信息。

多轮“提炼”（Gleanings）：

为了提高提取过程的召回率，可以进行多轮“提炼”，鼓励LLM检测在先前提取轮次中可能遗漏的任何实体。这一多阶段过程首先要求LLM评估是否所有实体都已被提取，如果LLM回应有遗漏，则通过提示鼓励LLM提炼出这些遗漏的实体。

举例说明：

假设我们有一个文本块，内容是关于一位名叫Alice的科学家在某个会议上提出了一个关于量子计算的新理论。在“文本块到元素实例”的步骤中，LLM可能会执行以下操作：

- 实体识别：识别出实体“Alice”（类型：科学家），“量子计算”（类型：研究领域），“会议”（类型：事件）。

- 关系识别：识别出Alice和量子计算之间的关系是“提出了理论”。

- 输出：生成一个包含实体和关系的元组列表，例如：("Alice", "科学家", "提出了理论", "量子计算", "研究领域")。

通过这种方式，Graph RAG方法能够从文本中提取出结构化的信息，为构建知识图谱和进行查询聚焦的摘要任务打下基础。

四、元素实例到元素摘要

第三步“元素实例到元素摘要”是Graph RAG方法中将识别出的实体和关系实例转换成描述性文本的过程。这一步骤的目的是通过大型语言模型（LLM）生成每个图元素（即实体节点、关系边和声明协变量）的摘要，这些摘要在后续步骤中将用于构建图社区的摘要和最终回答用户查询。

摘要生成过程：

1. 摘要提示（Prompting）：使用LLM的提示来生成实体、关系和声明的描述性文本。这些提示旨在指导LLM以抽象的方式总结文本中的概念，即使原文中没有明确表述这些概念。

2. 实体摘要：对于每个识别出的实体，LLM将生成一个摘要，描述实体的关键特征和相关信息。例如，如果实体是个人，摘要可能包括其职业、主要成就和影响力。

3. 关系摘要：对于实体间的关系，LLM将生成描述这种关系性质和上下文的文本。例如，如果两个实体之间的“对话”关系，摘要可能描述对话的主题和重要性。

4. 声明摘要：对于与实体关联的声明，LLM将生成一个摘要，包括声明的主题、对象、类型和描述等信息。

5. 多轮摘要（Multi-Round Summarization）：为了将所有实例级别的摘要转换成单一的描述性文本块，可能需要进行额外的LLM摘要轮次，将匹配的实例组合进行摘要。

6. 处理实体引用不一致问题：在摘要过程中，可能会遇到同一实体在文本中以不同格式被引用的问题。由于LLM能够理解多个名称变化背后的共同实体，并且所有密切相关的实体社区都将在后续步骤中被检测和总结，因此该方法对这种变化具有鲁棒性。

举例说明：

假设我们有以下信息：

- 实体：“Alice”，类型：“科学家”，描述：“在量子计算领域有重大贡献”。

- 关系：Alice与“量子计算理论”之间存在“提出”关系。

- 声明：Alice在会议上提出的新理论，主题：“量子纠缠的新型解释”。

在“元素实例到元素摘要”的步骤中，LLM可能会生成以下摘要：

- 实体摘要：Alice是一位在量子计算领域具有重要影响的科学家，以其对量子纠缠理论的贡献而闻名。

- 关系摘要：Alice在最近的科技会议上提出了一个关于量子纠缠的创新性理论，这标志着她在该领域的新突破。

- 声明摘要：Alice提出的新理论为量子计算的未来发展提供了新的视角，挑战了现有的科学认知。

通过这一步骤，原始文本中的实体和关系实例被转换成了丰富的描述性文本，为构建图社区和生成全局答案提供了基础。

五、元素摘要到图社区

第4步“元素摘要到图社区”是Graph RAG方法中的关键环节，它涉及将已摘要的实体和关系转换成图结构，并使用社区检测算法来识别和划分这些实体形成的社区。这一步骤的目的是将图划分为模块化的社区，其中每个社区内的实体彼此之间的连接比其他社区的实体更紧密。

划分过程：

1. 构建图结构：首先，将实体作为节点，将关系作为边，构建一个无向加权图。在这个图中，节点表示实体，边表示实体间的关系，边的权重可以表示关系出现的频率或强度。

2. 社区检测算法：使用社区检测算法来识别图中的社区结构。这些算法的目标是将图划分为多个社区，使得社区内部的连接强度高于社区间的连接强度。

3. 层次化社区结构：一些社区检测算法，如Leiden算法，能够识别出图的层次化社区结构。这意味着每个社区可能包含更小的子社区，形成多层的社区嵌套结构。

4. 社区划分：算法将图划分为多个社区，每个社区内的节点（实体）与同一社区内其他节点的连接（关系）比与社区外的节点更紧密。

举例说明：

假设我们有一个关于科技会议的讨论图，其中包括以下实体和关系：

- 实体：Alice（科学家）、Bob（技术企业家）、Carol（研究员）、量子计算（研究领域）、可持续发展（研究领域）。

- 关系：Alice与量子计算有“专业贡献”关系，Bob与可持续发展有“创业投资”关系，Carol与Alice有“合作关系”。

基于这些信息，我们可以构建一个图结构：

- 节点：{Alice, Bob, Carol, 量子计算, 可持续发展}

- 边：{(Alice, 量子计算), (Bob, 可持续发展), (Alice, Carol)}

使用Leiden社区检测算法，我们可能会得到以下社区划分：

- 社区1：{Alice, 量子计算, Carol}，表示Alice和Carol在量子计算领域有紧密的合作关系。

- 社区2：{Bob, 可持续发展}，表示Bob在可持续发展领域的创业投资活动。

在这个例子中，Alice和Carol被划分到同一个社区，因为它们之间以及与“量子计算”这一研究领域都有紧密的关系。而Bob则被单独划分到另一个社区，因为他与“可持续发展”领域的投资活动与其他实体的关系不那么紧密。

通过社区检测，Graph RAG方法能够识别出文档集合中的不同讨论主题或兴趣小组，并将这些信息用于生成更有针对性的摘要和回答用户的查询。

无向加权图

一种图论中的结构，它由顶点（或称为节点）集合和边（或称为链接）集合组成，每条边都连接两个顶点，并且每条边都有一个与之关联的权重。在这种图中，边没有方向，即边是双向的，表示两个顶点之间的连接是相互的。

无向加权图的关键特性：

1. 无向性：图中的边不具有方向性，即边连接的两个顶点之间的联系是对称的。

2. 权重：每条边都有一个权重，这个权重可以表示顶点之间连接的强度、距离、成本或其他任何数值化的度量。

3. 顶点和边：图中的每个顶点可以与一个或多个其他顶点相连，形成一个网络结构。

举例说明：

假设我们有一个社交网络，其中每个用户可以与其他用户成为朋友。在这个社交网络中，我们可以创建一个无向加权图来表示用户的友谊关系：

- 顶点：图中的每个顶点代表一个用户。

- 边：如果用户A和用户B是朋友，那么在图中就有一条连接这两个顶点的边。

- 权重：边的权重可以表示两个用户之间的亲密程度，例如，权重可以根据他们互相发送的消息数量来确定。如果用户A和用户B经常互相发送消息，那么连接他们的边的权重就会比较高。

在这个例子中，如果我们用数字来表示用户，并且用权重来表示他们之间的亲密程度，那么社交网络的无向加权图可能如下所示：

用户1 —(0.9)— 用户2

| |

(0.7) (0.8)

| |

用户3 —(0.6)— 用户4

在这个图中，每个数字代表一个用户，边旁的数字表示权重，例如用户1和用户2之间的友谊权重是0.9，表示他们非常亲密。权重较低的边，如用户1和用户3之间的权重0.7，可能表示他们的友谊相对较弱。

无向加权图在许多领域都有应用，包括社交网络分析、交通网络设计、信息传播模型、生物网络研究等。在Graph RAG方法中，这种图结构被用来表示文档中的实体和它们之间的关系，从而支持对整个文本语料库的查询聚焦摘要。

Leiden算法

一种用于社区检测的算法，它能够识别并划分网络中的社区结构。Leiden算法的核心目标是将网络中的节点（在Graph RAG方法中，节点代表实体）分成多个组，即社区，使得每个社区内部的连接比其他社区之间的连接更为紧密。Leiden算法的一个关键特点是它能够识别网络中的层次化社区结构，即社区中可能包含子社区，形成嵌套的社区结构。

Leiden算法的主要步骤：

1. 模块性优化：Leiden算法使用模块性（modularity）作为优化的目标函数，模块性是衡量社区划分质量的一个指标，其值越高表示社区划分效果越好。

2. 迭代改进：算法从初始的社区划分开始，迭代地改进划分，直到无法进一步增加模块性或者达到预设的迭代次数。

3. 层次化社区：Leiden算法通过移除社区中的边缘节点（即与社区外部连接较多的节点）来寻找层次化的社区结构。

4. 社区解耦：算法还引入了社区解耦的概念，允许在提高模块性的同时，将一个大社区解耦成两个或多个较小的社区。

Leiden算法的特点：

- 并行化：Leiden算法设计为并行算法，可以利用多核处理器加快计算速度。

- 层次化：能够识别网络中的层次化社区结构，这使得它适用于复杂的网络分析。

- 灵活性：算法可以调整参数来平衡社区的大小和数量，以及社区内部和外部的连接密度。

举例说明：

假设我们有一个社交网络的图表示，其中节点代表用户，边代表用户之间的友谊关系。我们希望使用Leiden算法来识别社交网络中的社区结构。

1. 初始化：算法开始时，每个用户（节点）都被视为一个独立的社区。

2. 迭代优化：

- 算法评估当前社区划分的模块性。

- 通过移动节点（用户）到不同的社区，算法尝试找到提高模块性的划分方式。

3. 层次化社区：

- 如果一个大社区中存在用户主要与其他用户连接，而不是与该社区内的大多数用户连接，Leiden算法可能会将这个用户移出并创建一个新的子社区。

4. 社区解耦：

- 如果一个大社区的模块性可以通过将其分解为两个或更多的较小社区来提高，算法将执行这种解耦。

5. 终止：

- 当无法通过移动节点来进一步提高模块性，或者达到预设的迭代次数时，算法终止。

最终，Leiden算法将提供一个社区划分，其中每个社区内部的用户彼此之间的连接比其他社区的用户更紧密，并且可能包含嵌套的子社区结构。

在Graph RAG方法中，Leiden算法被用来处理实体节点和关系边构成的图，以识别和划分出主题或内容相关的社区，这些社区随后用于生成社区摘要，支持对整个文本语料库的全局理解。

六、社区摘要到社区答案再到全局答案

第6步“社区摘要到社区答案再到全局答案”是Graph RAG方法中的最后阶段，它涉及使用前面步骤生成的社区摘要来回答问题，并最终汇总成一个全局答案。这一步骤结合了映射（map）和归约（reduce）的概念，首先并行生成中间答案，然后将这些答案汇总以形成全局答案。

生成过程：

1. 准备社区摘要：将社区摘要随机打乱并分成与LLM上下文窗口大小相匹配的块。这样做是为了避免所有相关信息集中在一个上下文窗口中，确保信息分布均匀。

2. 映射社区答案（Map Community Answers）：并行地为每个社区摘要块生成中间答案。LLM同时为每个生成的答案生成一个0到100之间的评分，以指示答案对目标问题的有用程度。通常会过滤掉得分为0的答案。

3. 归约到全局答案（Reduce to Global Answer）：将中间社区答案根据有用性评分降序排序，然后逐步将它们添加到一个新的上下文窗口中，直到达到令牌限制。这个最终的上下文窗口用于生成最终的全局答案，该答案随后返回给用户。

举例说明：

假设我们有一个包含多个社区摘要的数据集，并且用户提出了一个问题：“哪些因素影响了技术行业的创新？”

1. 准备社区摘要：将与技术行业创新相关的社区摘要分成若干块，以便并行处理。

2. 映射社区答案：

- 对于社区A（关注量子计算），LLM可能生成一个答案，强调量子计算技术的进步对创新的推动作用，并给出一个有用性评分，比如85分。

- 对于社区B（关注可再生能源），LLM可能生成一个答案，讨论政府政策如何影响可再生能源技术的发展，并给出一个评分，比如75分。

3. 归约到全局答案：

- 根据LLM给出的有用性评分，将社区A的答案排在社区B之前。

- 在LLM的上下文窗口中，首先添加社区A的答案，因为其评分更高。

- 如果上下文窗口还有空间，接着添加社区B的答案。

4. 生成全局答案：最终上下文窗口中的内容被用来生成全局答案，这个答案综合了不同社区的观点，提供了关于技术行业创新影响因素的全面视角。

通过这种方式，Graph RAG方法能够有效地利用社区结构来生成针对复杂查询的全面和有见地的答案。

七、Graph RAG局限性

Graph RAG方法虽然在处理查询聚焦的摘要任务时具有显著优势，但它也有一些局限性。以下是该方法的一些潜在限制，并举例说明：

1. 评估方法的局限性：Graph RAG的评估主要针对特定类型的全局性问题，并且只在大约100万个令牌的数据集上进行了测试。这意味着对于不同类型的问题、不同领域的数据集或更小或更大的数据集，其性能可能会有所不同。

举例：在一个包含非常专业化术语的医学领域数据集上，Graph RAG可能需要针对性地调整实体和关系的提取提示，以更好地捕捉专业知识。

2. 构建图索引的权衡：尽管Graph RAG在某些情况下比其他方法表现更好，但在许多情况下，直接对源文本进行全局摘要的方法也具有竞争力。是否投资构建图索引取决于多种因素，包括计算预算、每个数据集的预期查询次数，以及图索引的其他用途带来的价值。

举例：如果一个应用场景中查询非常少，那么可能不值得投资构建图索引，而是直接使用基于文本的摘要方法。

3. 信息丢失：由于LLM上下文窗口的大小限制，处理非常大的文本块时可能会丢失一些信息，即“中间信息丢失”问题。

举例：在处理一篇非常长的科学论文时，关键信息可能位于文本的中间部分，而这部分信息在LLM处理时可能会被忽略或不充分重视。

4. 实体提取和摘要的一致性：在实体和关系的提取过程中，如果LLM不能始终以相同的格式提取同一实体的引用，可能会导致实体图中出现重复的节点。

举例：同一个科学家的名字可能在文档中以全名、缩写或昵称出现，如果LLM不能将这些不同的名称关联到同一个实体，就可能导致生成多个不必要的节点。

5. 社区检测算法的选择：社区检测算法如Leiden的选择可能会影响图社区的结构和质量，进而影响最终的摘要和答案。

举例：如果一个数据集的社区结构不适合Leiden算法的优化目标，那么得到的社区划分可能不会最优地反映出文档集合的实际主题结构。

6. 实时性能：Graph RAG方法涉及多个阶段的处理，包括图的构建、社区检测和多轮摘要生成，这可能导致在需要实时响应的应用场景中性能不足。

举例：在一个需要即时反馈的聊天机器人应用中，Graph RAG可能因为处理步骤多而无法快速生成答案。

7. 领域适应性：Graph RAG方法可能需要针对不同的领域进行调整，以确保实体和关系的提取与该领域的专业知识相匹配。

举例：在法律领域，Graph RAG可能需要专门的法律术语和概念的提示，以准确提取和摘要法律文档中的关键信息。

为了克服这些局限性，可能需要进一步的研究和开发，包括改进评估方法、优化图索引构建过程、提高算法的适应性和实时性能，以及开发更先进的社区检测和摘要技术。

八、本地化的RAG（Retrieval-Augmented Generation）方法

本地化的RAG（Retrieval-Augmented Generation）方法是一种针对特定查询或问题的RAG应用，它侧重于在生成答案时利用与查询直接相关的信息。这种方法通常涉及使用LLM（大型语言模型）来增强对特定文档或文档集合的理解和回答，而不是处理整个大型数据集。本地化RAG方法可以提高检索和生成过程的精度和效率，因为它专注于与用户查询最相关的信息。

本地化RAG方法的关键特点：

1. 查询聚焦：本地化RAG方法以用户的查询为中心，通过检索和生成步骤来提供针对性的答案。

2. 上下文感知：利用LLM的上下文感知能力，从给定的文档或文档集合中提取和生成最相关的信息。

3. 效率：相比于全局RAG方法，本地化RAG可能需要较少的计算资源，因为它处理的数据量较小。

4. 实时性：本地化RAG适用于需要快速响应的应用场景，如在线客服或实时问答系统。

举例说明：

假设一个用户想要了解关于特定历史事件的信息，例如“法国大革命的原因”。

1. 查询理解：本地化RAG方法首先解析用户的查询，确定其意图和需要的信息类型。

2. 信息检索：然后，系统从一个预先定义的文档集合（如历史书籍、学术文章）中检索与“法国大革命”相关的内容。

3. 上下文融合：检索到的文本片段被添加到LLM的上下文窗口中，与用户的原始查询一起作为输入。

4. 生成答案：LLM根据提供的上下文生成一个答案，这个答案聚焦于解释法国大革命的原因。

5. 优化和迭代：生成的答案可能会通过迭代过程进行优化，LLM可以根据反馈进一步完善答案的相关性和准确性。

本地化RAG方法的优势：

- 精确性：通过专注于与查询最相关的文档，本地化RAG能够生成更精确的答案。

- 效率：处理较小的数据集可以减少计算资源的使用，提高响应速度。

- 适应性：适用于多种应用场景，包括但不限于客服、教育、研究和娱乐。

局限性：

- 领域限制：本地化RAG可能需要针对特定领域进行优化，以确保检索到的信息的相关性。

- 上下文限制：如果检索到的文档片段不能充分覆盖查询的上下文，生成的答案可能会不够全面。

本地化RAG方法的一个实际应用是在客户支持系统中，用户提出的具体问题可以快速地从相关的帮助文档或常见问题解答（FAQ）中找到答案，并通过LLM生成清晰、准确的回复。

九、混合RAG（Retrieval-Augmented Generation）方案

混合RAG（Retrieval-Augmented Generation）方案结合了多种检索和生成策略，以提高对复杂查询的回答质量。这种方案通常涉及以下几个关键步骤：

1. 嵌入匹配：使用嵌入向量来匹配用户查询和预先索引的文档或知识库中的信息。

2. 迭代检索：在生成过程中穿插检索步骤，以动态地改进答案的相关性和准确性。

3. 多模态输入：可能包括文本、图像、声音等多种类型的输入数据。

4. 上下文融合：将检索到的信息与用户的原始查询融合，以生成更丰富的上下文。

5. 生成答案：利用LLM生成最终的答案。

举例说明：

假设一个用户想要了解“如何在家中种植有机西红柿”。

1. 嵌入匹配：混合RAG方案首先将用户的查询转换为嵌入向量，并在知识库中检索最相关的文档。这些文档可能包括有机园艺的书籍、在线文章或视频教程。

2. 迭代检索：在生成答案的过程中，系统可能会进行多轮检索，以细化和改进检索到的信息。例如，第一轮检索可能找到一般的有机种植方法，而后续检索则专注于西红柿特定的种植技巧。

3. 多模态输入：系统可能会检索到文本说明、种植步骤的图片或视频，以及有关土壤条件和病虫害管理的音频讲解。

4. 上下文融合：检索到的多模态信息被融合到LLM的上下文中，包括文本描述、图像内容的说明和视频教程的要点。

5. 生成答案：LLM结合上述信息生成一个综合性的答案，这个答案不仅包含文本说明，还可能包括推荐的视频链接、关键步骤的图像和有用的音频讲解。

6. 优化和迭代：生成的答案可以通过用户的反馈进行优化。如果用户对某些部分有疑问，系统可以进行针对性的迭代检索和生成，以提供更详细的解释或示例。

混合RAG方案的优势：

- 综合性：通过结合多种类型的输入和检索策略，混合RAG方案能够提供更全面的答案。

- 动态性：迭代检索允许系统根据生成过程中的需要动态调整检索方向。

- 个性化：可以根据用户的特定需求和反馈定制答案。

局限性：

- 复杂性：混合RAG方案的设计和实现相对复杂，需要精细调整多个组件。

- 计算资源：多模态输入和多轮迭代可能需要较多的计算资源。

- 延迟：虽然混合RAG旨在提高答案质量，但多步骤的过程可能导致答案生成的延迟。

混合RAG方案适用于需要综合多种信息源和生成个性化答案的场景，如教育、研究、专业咨询等。通过灵活地结合不同的检索和生成策略，混合RAG方案能够提供更加丰富和准确的回答。

十、Graph RAG方法中的“roll-up”操作

在Graph RAG方法中，“roll-up”操作是指将信息从较低层次的社区摘要汇总到较高层次的社区摘要的过程。这种操作的可能性扩展可以包括以下几个方面：

1. 多层次汇总：不仅在相邻层级之间进行汇总，还可以跨越多个层级进行信息的汇总和抽象。

2. 上下文感知汇总：汇总时考虑上下文信息，以生成更准确和相关的高层次摘要。

3. 用户引导的汇总：允许用户指定汇总的特定方面或主题，以生成定制化的高层次摘要。

4. 交互式探索：提供交互式界面，让用户可以探索和细化他们的查询，以获得更详细的信息。

5. 自动化汇总：利用机器学习技术自动识别和汇总关键信息，以生成高层次的摘要。

举例说明：

假设我们有一个关于不同科学研究领域的数据集，包括生物学、物理学、化学等多个子领域的文章和论文。

1. 多层次汇总：

- 我们首先在文章层面生成摘要，然后在子领域层面（如生物学中的遗传学、生态学）生成社区摘要。

- 接下来，我们可以将这些子领域摘要“roll-up”到更高层次的科学领域摘要中，最终形成一个涵盖所有科学研究领域的全局摘要。

2. 上下文感知汇总：

- 当用户查询“近年来科学领域最重要的进展”时，系统可以识别出时间上下文（“近年来”），并优先汇总包含最新研究成果的社区摘要。

3. 用户引导的汇总：

- 用户可以指定对某个特定主题（如“量子计算”）的汇总感兴趣，系统将重点汇总与该主题相关的社区摘要，并生成一个集中的摘要报告。

4. 交互式探索：

- 提供一个交互式仪表板，允许用户通过点击不同的科学领域查看更详细的社区摘要，或者通过时间轴查看领域进展的演变。

5. 自动化汇总：

- 利用自然语言处理技术，自动识别和汇总各个科学领域中引用次数最多的论文的关键发现，以生成高层次的科学进展摘要。

通过扩展“roll-up”操作的可能性，Graph RAG方法可以更灵活地适应不同的查询需求，提供更丰富的信息汇总和更深入的数据分析。这种扩展不仅可以提高信息的可访问性和可理解性，还可以增强用户对大规模数据集的探索和分析能力。

十一、Graph RAG应用场景

Graph RAG（Graph Retrieval-Augmented Generation）是一种结合了知识图谱生成、检索增强生成（RAG）和查询聚焦摘要（QFS）的方法，旨在支持对整个文本语料库的人类理解（sensemaking）。根据上传的材料，Graph RAG特别适用于处理需要全局性理解的查询问题，例如：

1. 数据集主题理解：当需要识别整个数据集中的主要主题或趋势时，Graph RAG可以通过构建实体知识图谱和社区摘要来提供全面的答案。

2. 跨文档查询：对于需要结合多个文档内容来回答的查询，Graph RAG能够通过其图索引和社区检测算法，生成涵盖广泛信息的摘要。

3. 大规模文本分析：在处理大量文本数据时，Graph RAG可以有效地索引和总结信息，使得用户能够理解大规模文本集合的全局结构和语义。

4. 教育和课程开发：教育者可以利用Graph RAG来整合和理解大量新闻文章或其他文本资源，从而开发出与当前事件相关的教学课程。

5. 科技记者洞察：科技记者可以利用Graph RAG来识别和总结技术领域内的政策和法规讨论，以及科技领袖对这些问题的看法。

6. 情报分析：情报分析师可以使用Graph RAG来分析大量的报告和文章，以识别潜在的威胁、机会或其他重要信息。

7. 研究和开发：研究人员可以利用Graph RAG来理解特定科学领域的文献集合，从而加速科学发现和创新。

8. 开放域问答系统：Graph RAG可以作为开放域问答系统的一部分，帮助系统更准确地回答基于大量文档集合的复杂查询。

9. 多跳查询：对于需要多步骤推理或多文档信息整合的查询（即多跳查询），Graph RAG的图结构和社区检测能力可以有效地支持这类问题的解答。

10. 实时信息更新：Graph RAG还可以用于实时更新的场景，如监控新闻动态或社交媒体趋势，为用户提供最新的信息摘要。

Graph RAG通过其图索引和社区检测算法，能够处理和总结大量文本数据，生成全面、多样化且有助于理解的摘要，特别适用于需要深入分析和理解复杂文本集合的场景。通过开源实现，Graph RAG还可以被进一步定制和优化，以适应特定的应用需求。

【声明】内容源于网络

涛哥论道

李鹏涛，行业知名AI技术专家，清华大学创新领军工程博士，2012年加入京东，任高级总监，领导京东核心系统的研发，2017年任居家事业部产品研发部总经理。先后荣获全球架构师峰会优秀出品人，全球软件开发大会优秀讲师，物流信息化风云人物等奖项。

内容 114

粉丝 0

涛哥论道李鹏涛，行业知名AI技术专家，清华大学创新领军工程博士，2012年加入京东，任高级总监，领导京东核心系统的研发，2017年任居家事业部产品研发部总经理。先后荣获全球架构师峰会优秀出品人，全球软件开发大会优秀讲师，物流信息化风云人物等奖项。

总阅读0

粉丝0

内容114