编者荐语
Ontology(本体)作为形式化的知识表示范式,通过显式概念与逻辑关系为AI系统奠定可靠知识基础。LLM(Large Language Model,大语言模型)虽具强大生成能力,却常受幻觉、推理谬误等问题制约。Ontology与LLM的协同赋能,以符号推理增强语义泛化,正成为构建可信AI的关键路径。本文系统性调研了Ontology与LLM融合的多路径框架,梳理总结了最新的前沿研究成果和开源项目,期望为Ontology+LLM研究的团队提供参考。
本体与LLMs的协同赋能研究综述
摘要:大语言模型(LLM)在自然语言理解与生成方面展现出卓越能力,然而在实际应用中仍面临背景知识静态、推理缺乏事实依据、易产生“幻觉”等挑战,导致其难以生成准确、可靠、可溯源的答案。
本体(Ontology)作为一种通过显式组织知识概念及知识间关系而构建的形式化、结构化知识表示。其核心优势在于能够借助公理和关系进行逻辑推理,有效弥补大模型在推理与生成过程中固有的局限性,显著提升模型应用的准确性、可靠性与可信度。将本体与大语言模型深度融合,构建兼具符号推理能力与语义泛化能力的混合智能系统,已成为人工智能领域的重要研究方向。
本文根据Ontology在与LLM集成时所扮演的三类角色(知识供给者、推理者、校验者)梳理现有工作,从方法与优势两个方面分析该领域研究的最新进展,总结已有研究成果及开源项目,并重点探讨了当前面临的开放性挑战与未来研究方向。
一
引言
Ontology作为一种形式化、结构化的知识表示范式,被广泛应用于对特定领域中的概念及其关系进行明确表征。从仅包含基础概念与简单分类关系(如上下位层级关系)的维基百科分类体系,到蕴含丰富公理与多元关联的复杂知识系统(如Schema.org),本体能够以机器可读、可解释的方式对领域知识进行显式组织。例如,一个描述智能体的本体不仅可通过“协作型智能体 → 供应链协调算法”声明具体实例的类别,还可通过公理“若一个智能体被设计用于多方博弈环境,则它必须具备通信与协商能力”支持对智能体必备功能的逻辑推断。
与传统深度学习模型将知识隐式编码于网络权重的方式不同,本体以符号化、结构化的方式刻画知识,具备高度的可靠性、可编辑性以及人类可理解性。这些特性使其在实体排序[1]、信息检索以及语义Web等任务中发挥着重要作用。尤为关键的是,本体能够基于预定义的公理和关系进行自动推理,从而推导出隐含知识、检测逻辑不一致性并支持新知识发现,这一能力恰恰弥补了当前数据驱动方法在逻辑严密性方面的不足。
以大语言模型(LLM)为代表的神经网络技术在自然语言理解和生成方面取得显著进展,但其推理过程往往不透明、结果难以验证,且严重依赖训练数据中的统计偏差,在需要严格逻辑保证的场景中存在明显局限。正因如此,将本体与LLM相结合,构建融合显式符号推理与隐式语义感知的混合系统,已成为具有重要研究意义和应用前景的方向。
在本体与大模型融合推理应用中,本体扮演着多重关键角色:本体可作为高质量的知识供给者,为大模型提供结构化的领域信息;亦可作为推理者,基于明确定义的结构化知识提供确切答案;还可作为生成结果的校验者,对模型输出进行约束验证与一致性校准。通过这些方式,本体能够显著提升大模型在应用时的准确性、可靠性和可信任性,为推动新一代可解释、稳健的人工智能系统提供关键支持。基于上述背景,本文系统探讨了本体与大模型融合的多路径框架,梳理了2024至2025年间LLM结合Ontology的相关研究,以系统呈现该领域的最新进展。
二
Ontology与LLMs的协同赋能
在LLM-KG4QA[2]的研究基础上,本文基于Ontology在与LLM结合过程中所承担的角色及其实现的功能,将Ontology的应用方法归纳为三类:Ontology作为知识供给者(Information Provider)、作为推理者(Reasoner)、以及作为结果校验者(Validator)。在此之上,将LLM结合Ontology应用的相关研究按上述角色分类梳理为一张思维导图(详见图1),以系统呈现该领域的最新进展。需要说明的是,上述分类并非互斥,同一研究可能因涵盖多重功能而归属多类。
图 1 Ontology与LLMs的3种协同赋能方式
(一)Ontology作为知识供给者
在LLM结合Ontology推理、生成时,Ontology 作为知识供给者是一种关键的协同赋能范式,旨在将Ontology作为信息或背景知识的供给者。该类工作通常将领域Ontology作为可靠的信息源,通过知识集成与融合(Knowledge Integration & Fusion)以及本体检索增强生成(Ontology RAG)为大模型注入结构化领域知识,进而提升LLM输出的准确性、领域相关性和可解释性。具体而言,Ontology在此角色下主要服务于知识结构化组织与语义引导:
1.知识集成与融合
在Ontology作为背景知识通过“知识集成与融合”(Knowledge Integration & Fusion)赋能LLM时,核心实现方式是将结构化的图谱知识与用户问题共同作为训练数据,深度融合进模型的神经网络架构。这种端到端的联合训练过程,使得图谱中的实体、关系等结构化知识被编码并内化到语言模型的参数中,从而在模型应用时能够直接调用这些融合后的知识,最终提升模型处理复杂任务时的表现。例如,KG-Adapter[3]和GAIL[4]等工作就通过自适应选择或引入适配层等方式,将新知识高效地集成到LLM的神经网络中,以克服知识遗忘等问题。
2.本体检索增强生成 - Ontology RAG
在Ontology作为知识供给者与LLM结合的研究中,另一种代表性方法是通过RAG(Retrieval-Augmented Generation,检索增强生成)将结构化本体知识引入LLM的上下文。其核心执行流程通常为:首先,通过向量化语义匹配或实体抽取技术将用户自然语言问题映射到本体中的实体;其次,基于所获取到的实体,依照Ontology中的图谱结构,得到与实体相关联的三元组或局部子图。最后,将结构化的三元组或子图知识整合至LLM的输入中进行RAG,以提升生成结果的准确性、可解释性和领域适应性。以下的代表性工作展示了这一方向上的典型实践:
(1)OG-RAG
OG-RAG[5]是一种将领域特定Ontology深度集成于检索增强生成流程的创新技术,其核心算法围绕“Ontology驱动的超图(hypergraph)构建 - 超图检索 - 答案生成”展开,实现流程如图2所示。
图 2 OG-RAG实现流程图
在知识建模阶段,OG-RAG首先以预定义的领域Ontology为核心,对非结构化领域文档展开语义解析与实体映射。具体而言,OG-RAG借助大模型从非结构化文本中提取与本体相关的事实信息,并将其输出为结构化的JSON-LD格式数据,以此实现基于非结构化内容的本体实例化,形成图中所述的“Ontology-mapped data”。
随后,通过算法对“Ontology-mapped data”进行扁平化处理,将嵌套的语义关系转化为超边,最终构建出以超节点和超边为核心的超图结构。当用户输入问题(Query)执行检索时,OG-RAG采用混合语义匹配策略:首先,将Query编码为向量,在向量空间中分别计算其与超节点的属性术语(即实体与属性的合并表征形式,图2中以s⊕a进行表示)、属性值(图2中以v进行表示)的语义相似度;再筛选出两类候选超节点集合——NS(Q)(与s⊕a相似度最高的前k个超节点)与NV(Q)(与v相似度最高的前k个超节点);最后合并得到最终的候选超节点集合。
在此基础上,从实例化后的Ontology中将包含所有超节点的超边进行整合,得到超边集。随后,OG-RAG通过贪心优化算法执行超边筛选:在每次迭代中,优先选择包含最多“未覆盖节点”的超边添加到上下文中,并将该超边覆盖的节点从后续考虑中移除。该过程持续进行,直到收集到预设最大数量的L条超边或已覆盖所有相关节点为止。最终,上下文被构建为包含最多L条超边的结构化事实簇,每条超边均代表与查询高度相关的领域事实;以该事实簇作为精准上下文输入大模型执行RAG,生成符合领域本体约束的准确回答。
相比传统RAG,OG-RAG的技术优势体现在三个维度:知识组织上通过本体实现领域知识的规范化表示,解决概念歧义问题;检索机制上结合向量相似性与超图结构关联性,使事实召回率提升55%;推理能力上通过结构化事实簇增强可解释性,响应正确性平均提高40%,在医疗诊断、法律分析等专业领域表现尤为显著。该技术已通过开源项目提供完整实现,代码仓库地址为https://github.com/microsoft/ograg2,为领域研究者提供了包括本体定义方法、超图构建流水线和RAG模块在内的全套解决方案。
(2)BMQExpander
BMQExpander[6]工作通过融合生物医学本体与大模型能力,构建了一套本体引导的查询扩展流程,用于文档知识的检索,该技术的完整代码已开源至GitHub (https://github.com/zabir-nabil/ontology-guided-query-expansion),其核心实现流程如下。
BMQExpander首先通过大模型,基于少样本提示词引导LLM从Query中提取出符合医学本体规范的关键实体术语(对应图3 步骤1)。随后,将这些提取的术语与UMLS元词表中的概念唯一标识符(CUI)进行映射,实现自然语言术语与本体标准化概念的对齐(步骤2.a)。
图 3 BMQExpander实现文档知识检索的流程
接下来,BMQExpander进一步从多个权威医学本体词汇表(包括MeSH、SNOMEDCT_US等)中检索每个CUI的标准化定义,得到CUI与标准定义间的映射,这些定义不仅提供了CUI概念的语义解释,还保留了来源信息,增强了医学知识的可信度和透明度,提升了文档知识检索的精确度(步骤2.b)。
随后,在此基础上,系统围绕每个CUI概念基于UMLS 本体构建局部语义图,具体实现是对每个CUI - Ci,从UMLS本体中检索到与Ci的相邻 CUI, Cj。并基于本体中Ci与Cj的关系形成边,得到局部语义图。之后,再进一步通过精心设计的过滤函数,对局部语义图中的异构关系类型(即许多对于生物医学检索而言过于宽泛或语义冗余的关系)进行裁剪,仅保留具有核心医学意义的关系。然后,将裁剪后的语义图转化为树型的结构化文本表示用于后续处理(步骤3)。
最终,在步骤4中,BMQExpander将序列化的本体定义以及结构化表示的树型语义图作为LLM的输入,通过提示词中的指令,让大模型生成融合查询意图与本体知识的伪文档。并进一步通过权重融合的方式将原始查询与伪文档内容融合,借助BM25等模型进行文档知识的检索。
(3)MindMap
MindMap框架(https://github.com/wyl-willing/MindMap)[7]提出了图谱与大模型协同推理的创新性方案,其核心价值在于通过“证据图挖掘 - 聚合 - 推理” 的闭环体系,将图谱的结构化知识深度融入LLM的推理过程,构建可解释的“思维地图”以提升RAG的准确性与透明度,具体实现如图4所示。
图 4 MindMap实现流程图
该技术的核心突破点如下:
· 证据图挖掘:多源知识的结构化抽取
首先,MindMap利用LLM从Query中提取关键实体,并通过BERT相似度匹配图谱中的对应实体;其次,基于图谱结构,采用路径探索与邻居扩展双机制构建证据子图。其中,路径探索算法会追溯图谱中的路径,以连接从查询中所提取出的重要实体。算法实现是以某个查询实体为起点,通过探索至多 k 跳内的连接节点来形成路径片段。该过程持续到所有片段连接为止,形成路径证据子图,捕捉实体间的关联关系;而邻居扩展算法则对每个查询实体扩展1跳邻居节点,为查询实体补充相邻知识,确保证据的全面性。随后,通过聚类与采样策略裁剪冗余子图,最终形成包含路径证据子图和邻居证据子图的多源证据图。
· 证据图聚合:LLM驱动的语义消歧与知识融合
随后,MindMap借助LLM的自然语言理解能力,将多源证据子图转化为最终的推理图。具体而言,将每个子图编码为“实体 - 关系 - 实体”的三语组链式表示,并通过提示词引导LLM将其转化为自然语言描述,同时合并语义等价实体,进一步消除证据图中的歧义与冗余,形成最终的推理图。
· 思维地图构建:KG与LLM的协同推理范式
最后,在推理阶段,LLM基于第二步聚合后的推理图,结合自身知识生成答案。在该过程中,MindMap通过提示词要求LLM基于推理图中的证据链进行多步推理,同时结合自身知识补全推理链,最终生成包含问题答案、推理过程以及推理图中的核心推理路径(即“思维地图”),实现推理路径的透明化。
(4)Ontology Concept Transformation[8]
该篇论文提出了一种创新性的本体知识表示范式,通过将OWL等传统本体语言转换为结构化自然语言格式,巧妙规避了XML表示的复杂性与专用推理引擎的依赖问题。作者创新性地将类层级、属性约束、规则逻辑等本体组件映射为自然语言可理解的结构化表述,使LLM能直接基于原生推理能力处理领域本体知识进行RAG。该技术的核心在于系统性地重构本体元模型的表达方式:首先,将“类(Class)”及其“超类/子类(Super/Sub Class)”关系转化为如“A 'Car' class is a Sub-Class of a 'Vehicle' class”这样直观的自然语言句式,使层级继承关系清晰可读;其次,将“属性(Property)”及其“定义域(Domain)”与“值域(Range)”约束转化为三元组形式的自然语言描述,例如“a Human (Class) Drive (Property) a Car (Class)”,并明确指出“Human”是该属性的Domain,“Car”是其Range,从而在语义层面保留了数据类型的约束信息;最关键的是,将“规则(Rule)”逻辑,即“条件(Antecedent)”与“结论(Consequent)”的关系,精准地映射为“If... Then...”的自然语言条件句,使LLM能够像理解人类常识一样理解并执行形式逻辑推理。通过这种全面的“自然语言化”转换,本体知识不再是需要专用解析器处理的机器代码,而成为LLM在RAG检索阶段可直接消化的文本语料。
(二)Ontology作为推理者
在将LLM与Ontology相结合的研究中,另一种结合范式是“Ontology as Reasoner”。该范式的核心思想是将Ontology及其配套推理引擎作为外部推理组件,借助其语义表示和逻辑推理能力,提升大模型在处理复杂任务时的准确性、可解释性和事实可靠性。具体而言,系统引导LLM将用户的自然语言问题转换为符合本体语义的形式化查询语言(如:SPARQL、Cypher等),由推理引擎执行这些查询,从而获取基于本体中明确定义的结构化知识的确切答案,有效规避LLM本身可能产生的幻觉或逻辑不一致问题。最终,大模型将推理结果转化为用户可理解的响应。根据本体所采用的形式化查询语言类型,代表性工作可分为以下几类:
1.基于Cypher推理
在基于Cypher的推理方法中,本体通常作为一个属性图存于图数据库(如:Neo4j)。当用户提出自然语言问题时,则使用大模型通过Text2Cypher[9]的方式,将用户的自然语言问题通过LLM转化为Cypher查询语句,进而交由图数据库(如:Neo4j)执行,最终返回结构化推理结果。
2.基于SPARQL推理
基于SPARQL推理的相关研究则致力于利用本体中所蕴含的结构化知识,以约束和引导大语言模型生成更可靠的SPARQL查询来进行。该类方法将本体同时作为先验知识来源和结构化约束工具,从而显著提升大语言模型在生成查询语句时的准确性与可靠性。现有工作主要围绕两个方向展开:一是将本体信息有效融入提示词中,以增强生成质量;二是借助本体的语义规则对已生成的查询进行事后验证与自动修复。
在利用本体增强生成方面,相关研究[10]创新性地将领域特定标准深度集成本体构建流程中,借助本体设计模式(Ontology Design Patterns, ODPs)作为标准化模板,确保本体结构与行业术语的高度一致性。具体而言,在执行本体构建时,该研究将领域特定标准的权威定义直接注入ODPs中,具体体现为在类、对象属性和数据属性上广泛填充 `rdfs:comment`注释。这些注释并非通用性描述,而是严格摘录或转述自行业标准文本,为LLM提供了与工业实践完全对齐的、无歧义的语义上下文,从而确保其在生成SPARQL查询时能准确理解术语在特定标准体系下的精确含义,从根本上规避因语义模糊导致的查询偏差。
当用户发起自然语言提问时,系统并非让LLM直接作答,而是将完整的本体T-Box(包含所有类、属性及关键的`rdfs:comment`注释)与用户的自然语言问题共同注入预设提示词中。这一设计使得LLM严格基于所提供的、结构化的本体知识进行推理,其核心任务是将自然语言问题精准翻译为可执行的SPARQL查询。最终,由系统在本地SPARQL端点执行该查询并返回结果。通过这种“LLM生成查询,本体提供答案”的架构,用户的最终答案完全来源于本体中的事实性数据(A-Box),从而从根本上规避了大模型幻觉风险,确保了答案的准确性、可追溯性和在工业环境中的安全性。实验结果表明,`rdfs:comment`的引入显著提升了复杂查询的生成准确率,验证了语义注解在增强LLM对结构化知识理解方面的关键作用。
在利用本体进行语义验证与协同修复方面,OBQC[11]这一代表性工作旨在将Ontology动态地用作为一个强大的“语义校验器”,与LLM形成协同闭环,以系统性地提升LLM生成SPARQL查询的准确率。其技术路径包含两个紧密耦合、迭代执行的关键组件:基于本体的查询检查(OBQC)和LLM驱动的查询修复(LLM Repair),实现流程图5所示。
图 5 OBQC执行语义验证与协同修复的实现流程图
首先,OBQC核心在于利用本体中定义的严格逻辑约束对LLM首次生成的SPARQL查询进行自动化、可解释的错误检测。它不依赖LLM,而是通过将查询的WHERE子句转化为RDF图,并与本体图共同构建一个联合图,然后执行一系列预定义的规则来检查语义一致性。一旦检测到违规,OBQC并非简单地返回失败,而是生成一条结构化的、人类和LLM均可理解的自然语言解释,为后续修复提供精确的诊断依据。
而LLM Repair作为智能化的修复引擎,接收OBQC提供的错误解释和原始错误查询作为输入,通过一个简洁的重写提示(如:“我们有一个查询{query},存在以下问题{issues},请重写它。”),引导LLM专注于修正语义错误,而非重新理解整个问题或本体。这一过程是迭代的:修复后的新查询会再次送入OBQC进行验证,循环往复,直至查询通过语义检查或达到预设的迭代上限。这种设计巧妙地将LLM强大的文本理解和生成能力,与本体提供的确定性逻辑约束相结合,既发挥了LLM的灵活性,又用本体的刚性规则对其进行了有效约束和引导。
3.基于T-Box、A-Box推理
对于直接使用Ontology中的T-Box和A-Box,结合解释器、智能体进行推理的工作Solar(https://github.com/albsadowski/solar)[12]而言,它通过将非结构化的文本转化为结构化的本体知识,并结合程序化解释器与多智能体协作,实现了可验证且高精度的推理。该方法的核心在于其两阶段架构,有效分离了知识获取与知识应用,从而克服了传统端到端大语言模型在逻辑一致性、可解释性和计算效率上的瓶颈。
在知识获取阶段,Solar的核心任务是将原始的、非结构化的文本自动化地构建成一个形式化的本体知识库,即T-Box。这一过程并非由单一模型完成,而是通过一个精心设计的多智能体流水线协同实现。首先,概念提取智能体负责识别法律文本中的核心实体和关系,生成候选的类和属性。与此同时,规则制定智能体专注于提取法律条文中的条件逻辑,并将其形式化为一阶逻辑规则。随后,本体与规则集成智能体将这两部分输出进行整合、消歧和标准化,形成一个连贯的T-Box。为了确保该T-Box的实用性和可计算性,系统还包含一个代码生成智能体,它根据T-Box中的规则和结构,自动生成一个T-Box解释器——一个Python函数,能够接收具体的案例事实(A-Box)作为输入,并输出最终的计算结果。
在知识应用阶段,Solar利用在第一阶段构建的静态T-Box和T-Box解释器来回答用户的特定法律查询。当用户提交一个包含案件事实的自然语言问题时,查询分析与事实提取智能体会解析该查询,并将其中的事实映射到T-Box预定义的类和属性上,从而动态构建出一个针对该案例的A-Box。这个A-Box包含了具体的个体。接下来,符号推理智能体登场,它利用SMT(Satisfiability Modulo Theories)求解器,将T-Box中的逻辑规则应用于A-Box中的具体事实,进行形式化推理,推导出新的、隐含的断言。最终,答案生成智能体将初始的A-Box和推理得出的新断言组合起来,作为输入传递给预先生成的T-Box解释器。该解释器作为一个程序化的“计算器”,基于完整的知识库执行精确的数值运算,最终输出答案和可追溯的推理步骤。
4.其他
其他属于"Ontology as Reasoner"范畴的工作也致力于通过创新的方式将本体知识作为推理组件,以增强大语言模型的能力。这类方法不依赖传统的形式化查询语句及推理引擎,而是将本体结构或其语义规则转化为大语言模型可理解与执行的推理形式,从而实现更灵活、更具解释性的多步推理。
其中,ORACLE方法[13]的创新之处在于,它并非依赖预定义的静态本体,而是开创性地引入了动态构建知识本体与一阶逻辑推理链(First-Order Logic,FOL),通过这两个推理组件,为LLM的推理过程注入了结构化的语义和形式化的逻辑,来引导和规范LLM的推理过程(如图6所示)。该方案的核心技术路径可概括为以下三个递进式阶段,旨在将模糊的自然语言查询转化为一个清晰、可执行的逻辑推理蓝图。
图 6 ORACLE引导和规范LLM的推理过程
第一阶段是“动态本体构建”。区别于传统方法仅抽取实体和关系,ORACLE利用LLM作为知识抽取器,从用户问题中动态构建一个轻量级的、问题专属的知识本体。该本体不仅包含关键实体和关系,同时更着重提取实体所属的“概念类”,为后续的一阶逻辑转化、子问题分解提供了语义骨架和结构性指导。第二阶段是“一阶逻辑(FOL)公式化”。该阶段将上一步提取的本体转换为形式化的FOL推理链条。具体而言,本体中的关系被映射为逻辑谓词,而实体类则被转化为变量的类型约束,使得隐含在自然语言中的复杂推理需求变得显式化、结构化和可计算。最后,ORACLE执行“子问题分解与迭代求解”。在FOL公式和本体的双重指导下,LLM被提示将原始复杂问题系统性地分解为一系列逻辑连贯、可独立求解的子问题序列{Q1, Q2, ..., Qn}。这些子问题并非孤立存在,而是通过占位符机制形成一个连贯的推理链——后续子问题的答案会动态填充到前序问题的占位符中。最后,框架通过一个迭代求解器依次执行这些子问题:为每个子问题检索相关上下文,并调用LLM生成答案,最终将最后一个子问题的答案作为原问题的最终解。
另一项代表性的工作是Ontology concept transformation[8],如前文所述,该方法将OWL等传统本体语言转换为结构化的自然语言表述,这种转换通过类、属性、规则等本体组件的自然语言规范化定义,在大模型内部构建起可执行的逻辑推理框架。当这些结构化表述输入大模型时,其本质是向模型注入了包含明确领域规则与事实依据的推理信息,大模型可基于本体中定义的类层级关系、属性约束及规则集,直接执行基于事实证据的逻辑推导。
(三)Ontology作为结果校验者
最后一种LLM与Ontology结合的范式是将本体作为结果校验者(Ontology as Validator),该范式利用本体所提供的结构化语义约束和逻辑规则,对LLM生成的输出进行一致性检查、错误识别与迭代修正,显著提高了输出的可靠性、事实准确性和逻辑一致性。具体而言,该类方法通常构建“生成-验证-修正”的闭环流程,借助本体所承载的领域知识对LLM输出进行语义层面的校验与增强。
例如,在CyberRAG[14]这一工作中,作者提出了一种双阶段的、融合本体验证的检索增强生成框架,旨在为网络安全教育构建一个可靠且安全的问答系统。如图7所示,该技术的核心创新在于构建了“检索-生成-本体验证”的闭环流程:首先,通过双编码器对用户问题从知识库中检索相关文档,通过提示词引导LLM生成答案,在LLM基于知识库内容RAG生成答案后,在此基础上创新性地引入了一个独立的“本体验证”阶段,系统性地提升了答案的准确性和安全性。具体而言,本体验证模块会将LLM生成的原始答案、原始问题以及一个结构化的领域本体共同输入到验证大模型中,其中本体定义了领域内实体间的核心关系和规则三元组。验证大模型的任务是根据这些预设的领域规则,判断原始答案是否在语义和逻辑上与本体保持一致。验证提示词会明确要求大模型输出一个二元判断(“通过/不通过”)和一个置信度分数。
图 7 Cyber RAG实现流程图
而相关工作[15]则提出了一种基于本体与逻辑推理器的大模型输出验证框架,通过“生成-验证-修正”闭环机制实现对LLM事实性错误进行修正。首先,LLM根据用户查询生成自然语言候选答案;随后,使用NLP向量化技术(例如,通过CountVectorizer实现的TF-IDF或n-gram方法),结合scikit-learn中的逻辑回归分类器,训练模型将输入的自然语言陈述准确映射至其形式化逻辑等价式。
接着,系统将映射得到的逻辑断言与预定义的OWL本体合并,并调用符号推理器(如:HermiT)进行一致性检查,以验证该断言是否与本体中编码的领域公理和约束相冲突;若检测到不一致,推理器会生成关于冲突根源的最小解释(如冲突的公理集合),系统据此构造一个包含具体矛盾信息的精细化提示,并将其反馈给LLM,引导其在下一轮生成中产出符合本体约束的修正答案。
这一迭代闭环不仅利用本体的形式化语义为LLM输出提供了严格的“事实性锚点”,还通过推理器的可解释性反馈,将抽象的逻辑矛盾转化为LLM可理解的修正指令,从而在保持大模型语言流畅性的同时,显著提升了其在特定领域内的语义连贯性与事实准确性。
三
总结
本综述梳理并深入探讨了LLM与Ontology相结合,执行推理、检索、召回、生成的方式。阐述了当前研究在LLM + Ontology融合推理方面的创新方法与核心优势,强调了本体在增强LLM能力方面的所具备的关键潜力——尤其是应对复杂任务时大模型所面临的知识静态、推理缺乏事实依据、易产生“幻觉”等核心挑战。
尽管当前已有诸多研究在LLM与本体协同推理方面取得显著进展,但仍面临若干关键挑战:其一,行业落地应用案例仍显匮乏,缺乏成熟的范式指导如何将Ontology作为世界知识与Agent有效结合、引导大模型进行深层次的Chain-of-Thought推理、与对话系统(如ChatBot)集成、以及如何构建基于本体增强的推荐系统等;其二,LLM与本体的结合不应止步于单向调用,应构建双向协同、演化的共生架构——大模型应对生成结果进行自我校验与修正,融合本体知识与Deep Search,提升输出的准确性与可信度;同时,经验证的优质生成内容亦应反哺本体库,实现知识体系的持续进化与闭环更新。
参考文献:
[1] Wang, W., Wei, F., Dong, L., Bao, H., Yang, N., Zhou, M.: Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers. Advances in neural information processing systems 33, 5776–5788 (2020)
[2] Ma, C., Chen, Y., Wu, T., Khan, A., Wang, H.: Large language models meet knowl edge graphs for question answering: Synthesis and opportunities. arXiv preprint arXiv:2505.20099 (2025)
[3] Tian, S., Luo, Y., Xu, T., Yuan, C., Jiang, H., Wei, C., Wang, X.: Kg-adapter: Enabling knowledge graph integration in large language models through parameter efficient fine-tuning. In: Findings of the Association for Computational Linguistics ACL 2024. pp. 3813–3828 (2024)
[4] Zhang, Z., Wen, L., Zhao, W.: A gail fine-tuned llm enhanced framework for low resource knowledge graph question answering. In: Proceedings of the 33rd ACM International Conference on Information and Knowledge Management. pp. 3300 3309 (2024)
[5] Sharma, K., Kumar, P., Li, Y.: Og-rag: Ontology-grounded retrieval-augmented generation for large language models. arXiv preprint arXiv:2412.15235 (2024)
[6] Nazi, Z.A., Hristidis, V., McLean, A.L., Meem, J.A., Chowdhury, M.T.A.: Ontology-guided query expansion for biomedical document retrieval using large language models. arXiv preprint arXiv:2508.11784 (2025)
[7] Wen, Y., Wang, Z., Sun, J.: Mindmap: Knowledge graph prompting sparks graph of thoughts in large language models. arXiv preprint arXiv:2308.09729 (2023)
[8] Paik, I.: Integrating ontology rules with large language models for enhanced reasoning. In: 2025 International Technical Conference on Circuits/Systems, Computers, and Communications (ITC-CSCC). pp. 1–8. IEEE (2025)
[9] Ozsoy, M.G., Messallem, L., Besga, J., Minneci, G.: Text2cypher: Bridging natural language and graph databases. arXiv preprint arXiv:2412.10064 (2024)
[10] Reif, J., Jeleniewski, T., Gill, M.S., Gehlhoff, F., Fay, A.: Chatbot-based ontol ogy interaction using large language models and domain-specific standards. In: 2024 IEEE 29th International Conference on Emerging Technologies and Factory Automation (ETFA). pp. 1–4. IEEE (2024)
[11] Allemang, D., Sequeda, J.: Increasing the llm accuracy for question answering: Ontologies to the rescue! arXiv preprint arXiv:2405.11706 (2024)
[12] Sadowski, A., Chudziak, J., et al.: On verifiable legal reasoning: A multi agent framework with formalized knowledge representations. arXiv preprint arXiv:2509.00710 (2025)
[13] Bian, H., Qi, Y., Yang, R., Che, Y., Wang, J., Xia, H., Zhen, R.: From query to logic: Ontology-driven multi-hop reasoning in llms. arXiv preprint arXiv:2508.01424 (2025)
[14] Zhao, C., Agrawal, G., Kumarage, T., Tan, Z., Deng, Y., Chen, Y.C., Liu, H.: Ontology-aware rag for improved question-answering in cybersecurity education. arXiv preprint arXiv:2412.14191 (2024)
[15] Vsevolodovna, R.I.M., Monti, M.: Enhancing large language models through neuro symbolic integration and ontological reasoning. arXiv preprint arXiv:2504.07640 (2025)

