发布日期:2025年11月28日 · 星期五
期号|第9期
本期主题:【LLM时代为何又回到“画图谱”这件事上】
出品机构|易术研究
定位说明
易术研究专注 AI 技术黑盒拆解与前沿论文精读。我们逐层剖开大模型原理、微调技巧与产业落地陷阱;每月更新顶会论文速读、开源项目复盘与技术白皮书,帮算法、产品与投资人第一时间看懂 AI、用上 AI。
背景概述
大型语言模型(LLM)的快速发展让人工智能在文本理解、问答和内容生成等方面取得了令人瞩目的进展。然而,LLM也暴露出显著的局限性:在知识密集或专业领域的问题上,LLM常常“博而不精”,缺乏深入的领域知识;在复杂推理和上下文理解方面,模型时常出现逻辑不连贯甚至凭空编造(即出现所谓“幻觉”)的回答。这些不足使得LLM在企业知识问答、专业咨询等场景下难以直接满足高准确性的需求。
为了解决上述问题,业界和学术界提出了多种改进策略。例如,通过在特定领域数据上对LLM进行微调,可以一定程度上补充模型知识,但这往往需要大量高质量数据且容易导致模型遗忘既有知识;又如,利用精心设计的提示(Prompt Engineering)引导模型作答,虽有助于规避部分错误,却难以从根本上提升模型的知识广度和推理深度。近年来,更引人注目的是“检索增强生成”(Retrieval-Augmented Generation,简称RAG)技术——即在LLM生成回答前,先从外部知识库中检索相关资料提供给模型参考。早期的RAG实现大多采用向量检索:将文档切分成片段、向量化后存入向量数据库,根据用户问题的语义相似度检索出若干相关文本片段,作为LLM的额外上下文。这种向量RAG方法在一定程度上缓解了LLM知识陈旧和不足的问题,使回答能够引用最新的或领域相关的信息。然而,随着应用需求变得更加复杂,纯向量检索方案的局限性也逐渐显现(如难以处理需要多跳推理的问题、缺乏对知识间关系的理解等,下文将详细讨论)。
机制原理
所谓Graph RAG,顾名思义就是将知识图谱与检索增强生成相结合的技术框架。本质上,它在传统RAG流程的基础上引入了图谱结构:在检索阶段利用知识图谱中的节点和边来组织与查询相关的知识,并在生成阶段将这些结构化信息融入LLM的回答构成。Graph RAG的核心组件包括向量检索和知识图谱两部分:前者通过将文本等数据编码为向量并依据语义相似度快速检索相关内容,后者则提供了一个包含实体(Entities)及其关系(Relationships)的网络,用来揭示知识之间的内在联系。
整个Graph RAG的工作流程可以概括为三个步骤。第一步是知识准备(构建图谱):企业需要对原始数据进行预处理,通常先将长文档拆分为较小的“文本块”(chunk),这样LLM处理时既保留必要的上下文又避免单次输入过长。随后,从每个文本块中抽取出其中涉及的关键实体和它们之间的关系,用这些要素在数据层面构建出知识图谱的结构。例如,一个文本块提到“Elon Musk担任SpaceX和Tesla的CEO,总部均位于美国”,则可识别出实体“Elon Musk”、“SpaceX”、“Tesla”、“USA”等,并提取关系如“Elon Musk → 担任CEO → SpaceX”、“SpaceX → 总部位于 → USA”等。将所有文本块的实体与关系汇总,并按照领域将它们分类组织,就形成了一个图谱化的知识网络。在某些实现中,这类图谱直接由文档片段间的语义关联构成,充当**“索引图”**以辅助检索;而在另一些实现中,图谱则作为独立的知识库,承载从文档提炼出的抽象事实(三元组)。两种方式各有侧重,也可以结合使用,以兼顾知识逻辑与原文细节。
第二步是知识检索(图谱查询):当用户提出查询时,Graph RAG不会仅依赖向量匹配去找若干孤立的文本片段,而是利用知识图谱进行“关系导向”的检索。具体做法通常是先基于向量相似度找到与问题初步相关的一组节点或文档片段作为“种子”,然后沿着知识图谱中已知的关联路径进行扩展,找到更多与查询有关联的实体和事实,最终构成一个紧密相关的子图。在这一过程中,系统相当于在知识网络中进行推理:根据问题涉及的实体和关系,探索多跳连接,从而发掘出隐含在多个知识点之间的联系。这种检索方式能够识别复杂的语义关联,保证检索结果不仅与问题相关,而且彼此之间逻辑相连、上下文连贯。
问题本质
传统向量检索的局限何在? 简而言之,纯粹依赖向量相似度的RAG在面对复杂任务时,难以充分理解和覆盖问题所需的知识语境。首先,向量检索是基于文本表面语义匹配来选取片段,当用户提问需要跨越多个概念或中间推理步骤时,系统往往只能找到与问题词汇直接相关的零散片段,却忽略那些隐含但关键的中间环节。例如,如果问题涉及概念A与D之间的关联,向量检索可能只返回包含A或D字样的段落,却漏掉了串联A→B→C→D这一关系链中至关重要的B、C信息,导致答案不完整或牛头不对马嘴。其次,将长文档切分后独立检索,容易丢失原有的上下文结构:传统RAG取出的片段彼此独立,缺乏内在联系,LLM需要在生成过程中自行推测它们的关系,这增加了模型出错或逻辑混乱的风险。向量检索返回的结果往往存在同质化和冗余的问题——由于相似度排序机制的局限,检索出的多个片段可能内容高度相近(重复类似的信息),却未必涵盖问题的不同方面,信息来源单一而狭窄。此外,纯向量RAG很难提供令人信服的溯源依据:用户只看到LLM给出的最终答案,却无法了解模型依据了哪些具体事实或文档得出结论,降低了结果的可信度和可解释性。对于企业知识问答这类强调准确与可信的场景来说,上述缺陷使得单纯依赖向量检索难以令人满意。
相较于“平面”的文本相似度匹配,知识图谱引入了“立体”的关系网络,从根本上提升了系统对复杂查询的理解和覆盖能力。借助图谱结构,Graph RAG能够沿着已知的关系路径进行检索,自动补全多跳推理所需的中间步骤:在前例中,系统可通过图谱发现A连接B、B连接C、C再连接D,从而获取完整的链式证据,使LLM有充分依据回答A与D的关系。由于所有检索到的知识点在图谱中彼此相连,LLM得到的上下文是一个有机整体而非一堆散乱的片段,这大大降低了模型拼凑不一致内容的风险。与此同时,图谱导向的检索往往比单纯相似度排序更具多样性:它不仅关注与查询直接匹配的节点,还会纳入通过关系网间接相关但对解答有价值的信息,避免了检索结果过于局限单一,让答案涵盖更全面的视角。
知识图谱天生携带语义结构,能为回答提供逻辑支撑和线索,使推理过程透明可循。用户可以追踪LLM参考了图谱中的哪些节点和边来得出结论,相当于提供了一条可解释的推理路径。这种可追溯的回答过程增强了用户对系统的信任,也在一定程度上降低了模型产生幻觉的几率。简言之,知识图谱通过明确刻画知识点之间的关系,赋予了LLM一种关系意识和逻辑约束,帮助模型更精准地锁定所需信息、剔除无关噪音,并以有理有据的方式给出复杂问题的答案。这正是传统向量检索所不具备的能力,也是LLM时代重拾“画图谱”的根本原因。
总结与启发
知识图谱并非旧概念的简单复述,而是在大模型时代重新站上舞台的关键技术,其与LLM结合形成的Graph RAG框架切中了企业知识检索与问答中的痛点。通过引入关系明确的知识网络,Graph RAG大幅提升了LLM处理复杂任务时的知识获取深度、推理连贯性和答案可信度。这一进步对企业设计下一代知识检索系统具有多方面的启示:
首先,体系架构上应考虑“结构化知识+生成式模型”的融合。 传统的纯文本检索方案在应对复杂业务问题时力有不逮,而引入知识图谱能够有效弥补其中的短板。企业在规划知识系统时,不妨评估自身领域知识的复杂程度:对于概念众多、关系错综的场景,提早布局知识图谱将使系统具备更强的逻辑推理能力和可解释性。当然,引入图谱并不意味着抛弃既有的向量索引,实际应用中常常是两者优势互补——向量检索确保召回效率和覆盖面,图谱检索确保关联准确和推理深度。一个合理的设计思路是构建混合式检索框架:先以向量检索快速锁定候选信息,再用图谱关系进行过滤和扩展,最终获得高质量且结构清晰的知识集合。
其次,技术选型与实施上要权衡成本收益。 正如前文讨论的,构建和维护知识图谱需要投入不菲的人力和时间,这使得很多企业对此望而却步。然而,随着大厂推动和工具链成熟,图谱构建的门槛正逐步降低。如今市面上已有主流云厂商提供的图数据库服务及Graph RAG解决方案,开发者也可以利用开源工具将LLM与知识图谱集成。这意味着企业可以从小规模试点开始,逐步摸索“图谱加持检索”的实际效果。在实践中,我们建议选择核心业务领域作为切入点,优先为其中高价值且知识关系复杂的内容构建图谱模型,以较低风险验证Graph RAG的收益。一旦验证有效,再逐步扩展覆盖范围。与此同时,要建立配套的知识更新机制,确保图谱内容随业务发展及时演进,才能持续发挥价值。
最后,从未来趋势来看,知识图谱与LLM的结合有望拓展出更多应用场景和创新方向。 随着多模态大模型的发展,未来的企业知识图谱可能不仅涵盖文本,还会融入表格数据、图像等多种类型的信息,成为企业全局知识的“中枢神经”。Graph RAG也可能与多智能体系统结合,实现更复杂的自动决策和问题求解。可以预见,随着构建成本的进一步下降和相关技术的演进,结构化知识将在企业AI中扮演越来越重要的角色。从知识管理的角度看,Graph RAG的兴起实际上鼓励企业将隐性知识显性化、零散知识网络化,不仅提升了问答系统的性能,也推动了组织内部知识沉淀和利用效率的提高。
易术观点
本期内容由 易术研究 独家出品
观点仅供参考,不构成任何建议。
您的转发与点赞,是对我们的郑重;
留言与指正,则为我们校准航向。
加入我们 · 获取更多内容
官网入口:👉 www.yishuos.com
加入「E计划」成员社群:扫码添加助手微信,备注【日报】,即可进群参与内测体验与行业交流。
来源:公开数据平台
编辑:秦悬
排版:陈盐水
商务合作:Bd@Yishuos.Com
图文授权:Pr@Yishuos.Com
媒体转载请注明出处:易术科技官方公众号
©2025 易术科技YISHUOS
获取更多信息

