核心速览
研究背景
-
研究问题:这篇文章要解决的问题是如何解释大型语言模型(LLMs)的回答。具体来说,LLMs在生成回答时可能会产生幻觉,生成自信但不准确的输出,这在高风险领域如医疗和教育中限制了它们的应用。 -
研究难点:该问题的研究难点包括:如何追踪LLMs生成的答案的来源,以及如何将LLMs的推理步骤映射到知识图谱(KG)中以生成结构化的解释。 -
相关工作:现有的解决方案如Perplexity和Microsoft Copilot采用了检索增强生成(RAG)方法,即从互联网上检索相关文档,将其总结并添加到LLMs的上下文中,以辅助生成答案。然而,RAG并不能保证LLMs在其生成过程中使用检索到的信息。
研究方法
-
CoT提示:首先,利用链式思维(CoT)提示,LLMs可以生成其推理步骤。例如,通过在查询后附加“让我们一步一步地思考”来生成推理步骤。
-
知识图谱映射:其次,如果推理步骤是合理的,可以将这些步骤映射到存储在知识图谱中的事实,以生成数据来源线索,从而形成结构化解释。 -
对齐机制:为了将对齐CoT和LLMs的答案与知识图谱中的节点和边,使用了预训练的文本文档嵌入模型。具体步骤如下: -
将知识图谱元素转换为文本。 -
使用预训练的文本嵌入模型计算CoT提示生成的句子与知识图谱中存储的事实之间的余弦相似度。 -
选择相似度阈值为0.7,通过网格搜索在验证数据集上确定。
实验设计
-
数据收集:当前版本的AprèsCoT预装了ChatGPT 3.5和GPT-4o-Mini的API访问权限,以及电影和医疗的知识图谱。 -
实验设计:实验设计包括三个用例: -
一致性答案和CoT:用户询问关于Jean Rochefort电影的发布年份,LLMs生成两个答案(1972和1990),并且可以通过CoT追踪到这两个答案的推理路径。
-
知识图谱数据质量:用户询问相同的问题,但使用没有上下文知识的GPT-4o-Mini模型,观察生成的答案和推理步骤,识别知识图谱的不完整性。
-
不一致的答案和CoT:用户询问关于真菌引起的功能障碍影响哪些动物的问题,LLMs生成三个答案,但只有部分答案与推理路径一致,展示了LLMs之间的推理差异。
结果与分析
-
一致性答案和CoT:在一致性答案和CoT的用例中,LLMs生成的答案与知识图谱中的事实一致,可以通过CoT追踪到推理路径。 -
知识图谱数据质量:在知识图谱数据质量的用例中,GPT-4o-Mini模型生成的部分答案与知识图谱中的事实一致,但其他答案可能是由于知识图谱不完整或模型幻觉导致的。 -
不一致的答案和CoT:在不一致的答案和CoT的用例中,LLMs生成的部分答案与推理路径一致,但存在推理间隙,展示了LLMs之间的推理差异。
总体结论
论文评价
优点与创新
-
新颖的LLM解释方法:ApresCoT是第一个利用CoT提示和知识图谱(KG)来理解LLM答案的工具。其思想与最近邻LLMs相似,但通过将CoT可视化到KG上的结构化推理路径,展示了其创新性。 -
对齐机制:ApresCoT的主要技术挑战是将CoT和LLM的答案与相应KG中的节点和边对齐。通过将KG元素转换为文本并使用预训练的文本嵌入模型匹配CoT提示生成的句子,解决了这一挑战。 -
应用案例:在MetaQA电影KG和统一医学语言系统(UMLS)KG上展示了ApresCoT的应用,证明了其在LLM答案验证、KG完整性分析和LLMs性能比较中的价值。 -
轻量级工具:ApresCoT是一个轻量级的后处理工具,仅依赖于对LLM的API访问,设计简单且易于使用。 -
支持RAG模式:ApresCoT支持检索增强生成(RAG)模式,允许用户比较具有和不具有RAG的LLMs的问题回答性能。
不足与反思
-
下一步工作:在ApresCoT的下一个版本中,将探索使用树状思维和图状思维提示的LLM解释。此外,承认CoT提示可能会影响LLM的推理过程,可能导致与简单提示不同的答案。 -
关键问题及回答
-
CoT提示:首先,利用CoT提示,LLMs可以生成其推理步骤。例如,通过在查询后附加“让我们一步一步地思考”来生成推理步骤。 -
知识图谱映射:其次,如果推理步骤是合理的,可以将这些步骤映射到存储在知识图谱中的事实,以生成数据来源线索,从而形成结构化解释。 -
对齐机制:为了将对齐CoT和LLMs的答案与知识图谱中的节点和边,使用了预训练的文本文档嵌入模型。具体步骤如下: -
将知识图谱元素转换为文本。 -
使用预训练的文本嵌入模型计算CoT提示生成的句子与知识图谱中存储的事实之间的余弦相似度。 -
选择相似度阈值为0.7,通过网格搜索在验证数据集上确定。
-
数据收集:当前版本的AprèsCoT预装了ChatGPT 3.5和GPT-4o-Mini的API访问权限,以及电影和医疗的知识图谱。 -
实验设计:实验设计包括三个用例: -
一致性答案和CoT:用户询问关于Jean Rochefort电影的发布年份,LLMs生成两个答案(1972和1990),并且可以通过CoT追踪到这两个答案的推理路径。 -
知识图谱数据质量:用户询问相同的问题,但使用没有上下文知识的GPT-4o-Mini模型,观察生成的答案和推理步骤,识别知识图谱的不完整性。 -
不一致的答案和CoT:用户询问关于真菌引起的功能障碍影响哪些动物的问题,LLMs生成三个答案,但只有部分答案与推理路径一致,展示了LLMs之间的推理差异。
-
输入处理:首先,将知识图谱元素转换为文本,并使用预训练的文本嵌入模型(如all-MiniLM)计算CoT提示生成的句子与知识图谱中存储的事实之间的余弦相似度。 -
匹配机制:选择相似度阈值为0.7,通过网格搜索在验证数据集上确定。具体步骤如下: -
计算潜在匹配的余弦相似度。 -
选择相似度高于阈值的匹配作为最佳匹配。 -
如果没有匹配,则返回无匹配结果。 -
输出展示:最后,将匹配的推理步骤在知识图谱上进行可视化,生成结构化的解释,帮助用户理解LLMs的推理过程。
欢迎加入「知识图谱增强大模型产学研」知识星球,获取最新产学研相关"知识图谱+大模型"相关论文、政府企业落地案例、避坑指南、电子书、文章等,行业重点是医疗护理、医药大健康、工业能源制造领域,也会跟踪AI4S科学研究相关内容,以及Palantir、OpenAI、微软、Writer、Glean、OpenEvidence等相关公司进展。

电子书推荐
往期推荐
亚马逊云科技与柯基数据联合打造的“Automotive Services GraphRAG”解决方案亮相慕尼黑IAA展会!
OpenAI重磅发布“KG+LLM”结合的企业智能知识管理红宝书,利用大模型构建时序知识图谱与新一代“GraphRAG”智能体
利用GraphRAG和数字孪生进行个性化教育:面向工业4.0劳动力发展的虚拟现实、增量式学习和零样本情感分析- 亚利桑那大学等

