大数跨境
0
0

大模型能否支持医疗知识图谱补全?CMU基于评估的深度剖析

大模型能否支持医疗知识图谱补全?CMU基于评估的深度剖析 知识图谱科技
2025-11-17
22
导读:本文深入探讨了大语言模型(LLMs)在医疗知识图谱(KGs)补全中的应用与局限,尤其是在疾病与治疗关系推断方面的表现

PDF原文 https://t.zsxq.com/lbsz9

摘要

本文深入探讨了大语言模型(LLMs)在医疗知识图谱(KGs)补全中的应用与局限,尤其是在疾病与治疗关系推断方面的表现。通过系统评估LLMs生成的治疗映射与现有临床知识的对齐程度,研究揭示了模型在覆盖率、一致性和稳定性方面的不足,同时强调了混合方法和严格验证的重要性 


引言:医疗知识图谱与大模型的交汇点

在医疗信息化时代,医疗知识图谱(Medical Knowledge Graphs, KGs)已成为不可或缺的工具,用于支持临床决策、生物医学研究和个性化治疗方案设计。它们通过整合疾病、治疗、药物和基因等实体,为复杂的医疗信息提供结构化表示。然而,由于源本体(ontologies)的结构限制和知识空白,医疗KGs常常面临不完整的问题,尤其是在疾病与治疗映射(treatment mapping)领域,现有的编码系统如ICD、MONDO和ATC常常缺乏足够的粒度和一致性,导致知识库碎片化 

近年来,随着大语言模型(LLMs)如GPT、Perplexity、Gemini和Claude的快速发展,自动化知识推断为医疗KGs的补全带来了新机遇。LLMs能够从临床文献、药物标签和公开指南等非结构化数据中提取信息,生成疾病与治疗之间的新关联。然而,这一技术的应用也伴随着显著风险,包括事实错误、幻觉输出(hallucination)以及模型间和模型内的不稳定性 

本文将系统分析LLMs在医疗知识推断中的潜力与局限,基于覆盖率、对齐度和鲁棒性三个维度进行评估,并提出谨慎整合与透明验证的重要性,旨在为专业人士、科研院所和投资人提供参考 


医疗知识图谱的不完整性:一个亟待解决的问题

医疗KGs通过整合不同医疗本体和编码系统中的实体,支持语义推理和跨系统互操作性。它们的结构化特性使其特别适用于药物再利用、不良事件预测和个性化治疗规划等下游任务。然而,由于源本体的知识空白和结构限制,医疗KGs往往不完整,尤其是在疾病与治疗的映射上,许多关联稀疏、过时或完全缺失。例如,ICD和ATC编码系统常常无法全面覆盖疾病与潜在治疗之间的关系,导致知识库的有效性受限,进而影响临床决策的质量 

这种不完整性对医疗技术的准确性和全面性构成了挑战。因此,弥合这些缺失的关联对于提升基于知识的医疗技术至关重要。传统方法如TransE、DistMult等通过将实体和关系投影到连续向量空间来预测缺失链接,而图神经网络(GNN)如R-GCN和CompGCN则利用图结构和多关系模式进行补全。但这些方法在处理医疗领域的复杂性和动态性时仍有局限 


大语言模型:医疗知识推断的新希望?

LLMs展现了在生物医学文本理解、知识合成和自然语言推理方面的强大能力,使其成为识别结构化本体中未明确捕获关系的潜在工具。在治疗映射方面,LLMs可以利用临床文献、药物标签和指南生成疾病与药物之间的新关联,为低资源或快速发展的医疗领域提供支持 

然而,LLMs生成的知识引入了显著风险。与经过临床证据和专家验证的 curated ontologies 不同,LLMs可能产生看似合理但实际上错误或临床无关的输出(即幻觉)。此外,模型可能反映预训练数据的偏差,误解模糊术语,或与既定医疗指南相矛盾。不同模型之间的输出不一致,甚至同一模型在不同运行或时间段内的输出也可能不稳定。在临床应用中,错误信息的代价极高,可能危及患者安全并损害对AI驱动决策支持系统的信任 

因此,在将LLM生成的知识整合到高风险医疗基础设施之前,严格评估至关重要。然而,由于临床专家的手动审查耗时且成本高,大规模验证往往不可行。为此,研究团队采用了一种可扩展的、基于知识的评估策略,将LLM生成的治疗关系与 curated ontology-based KGs 进行比较,评估其可靠性 


研究方法:系统评估LLMs的医疗知识推断能力

本研究通过以下三个主要步骤评估LLMs在生成临床相关治疗关系方面的能力:

  1. 构建参考知识图谱
    :整合现有本体和治疗关系数据集,形成一个专注于疾病-治疗关系的参考KG,作为评估LLM响应的标准 
  2. 多模型多提示查询
    :使用多种提示(prompt)格式对多个LLM(如GPT-4o、o3 mini、Perplexity-R1和Perplexity-Sonar)进行查询,生成疾病-治疗关联 
  3. 对齐评估
    :比较LLM生成的输出与 curated KG 关系,评估事实准确性和覆盖率,使用成功率(success rate)、召回率(recall)、Jaccard相似度和Sørensen–Dice系数等指标 

研究团队特别关注覆盖率(coverage)、对齐度(alignment)和鲁棒性(robustness)三个维度,以全面评估LLM输出与临床知识的一致性以及在不同交互下的稳定性 


结果分析:LLMs的表现与局限

覆盖率表现

研究通过API调用测试了GPT-4o、o3 mini、Perplexity-R1和Perplexity-Sonar等模型在三种提示(A、B、C)下的表现。结果显示,提示C在所有模型中均取得了最高的成功率,例如Perplexity Sonar和GPT-4o在提示C下的成功率高达0.9667,其他模型也超过0.90,表明提示C在引发部分正确的临床内容方面特别有效,尤其是在结构化输出格式的要求下。而提示A和B的表现相对较差,GPT-4o在提示A和B下的成功率仅为0.7667和0.6333,显示出较大的变异性 

Figure 1 - Coverage Performance of LLMs against KG Reference List for Three Prompts,用于展示成功率和召回率在不同提示下的表现 

对齐度与鲁棒性

研究还采用Jaccard相似度和Sørensen–Dice系数等指标评估LLM输出与参考KG的对齐度,并分析模型内部响应的鲁棒性。结果表明,尽管LLMs能够恢复一部分已知治疗关系,但模型在覆盖率和精确度之间存在权衡,常常出现过度生成(overgeneration)和幻觉输出。此外,模型在不同提示格式下的表现差异显著,显示出对输入敏感性和内在不稳定性 

关键发现

研究发现,虽然LLMs在生成潜在有用的治疗建议方面展现了潜力,但其输出与既定临床指南存在不一致,可能对患者安全构成风险。这强调了在临床应用中对LLM输出进行严格验证的必要性 


结论与展望:谨慎整合与混合方法的重要性

本研究通过评估LLMs生成的治疗关系与 curated KGs 的对齐程度,揭示了其在医疗知识增广中的潜力与局限。尽管LLMs能够恢复大量已知治疗方法,但其性能因模型和提示格式而异,且存在过度生成和幻觉问题。这表明在高风险领域如医学中,事实准确性至关重要,单纯依赖LLMs可能带来风险 

未来研究方向

  1. 检索增强生成(RAG)
    :探索RAG作为一种更可控、更可解释的替代方案,通过聚焦于本体、药物数据库和临床指南等结构化知识源,提升事实一致性,减少幻觉输出 
  2. 自动置信度评分与自验证
    :开发技术以自动评估LLM响应的可信度,实现对生成内容的选择性整合 
  3. 扩展任务特定数据集
    :构建超越治疗映射的评估数据集,覆盖禁忌症、联合用药管理和护理路径优化等更广泛的临床知识推理任务 

最终,本研究强调了混合方法的必要性,将生成能力与结构化验证和领域感知推理相结合,以确保LLMs在医疗知识基础设施中的安全和透明应用 


标签

#医疗知识图谱 #MedicalKGs #大语言模型 #LLMs #知识推断 #临床决策支持


欢迎加入「知识图谱增强大模型产学研」知识星球,获取最新产学研相关"知识图谱+大模型"相关论文、政府企业落地案例、避坑指南、电子书、文章等,行业重点是医疗护理、医药大健康、工业能源制造领域,也会跟踪AI4S科学研究相关内容,以及Palantir、OpenAI、微软、Writer、Glean、OpenEvidence等相关公司进展。

往期推荐


[300页电子书]Palantir 股票的大数据,大利润:为什么Palantir是未来企业级AI的潜力股

[555页电子书]从LLM Agent到RAG与知识图谱全攻略实战指南重磅发布——构建具备推理、检索与行动能力的智能体

250页电子书-医学领域的人工智能革命:GPT-4及医学大模型未来展望。OpenAI CEO作序

[100页电子书]知识图谱&大模型双轮驱动的工业 AI 数智化转型权威指南 - Cognite

[73页]OpenAI联合哈佛等重磅发布全球首份ChatGPT使用报告,分析用户增长、使用模式及其经济价值

[140页]Neo4j GraphRAG白皮书

[72页]谷歌推出个性化实时监测主动健康管理大模型PH-LLM

[180页电子书]GraphRAG全面解析及实践-Neo4j:构建准确、可解释、具有上下文意识的生成式人工智能应用

[30页电子书]GraphRAG开发者指南

[550页电子书]2025年10月最新出版-知识图谱与大语言模型融合的实战指南:KG&LLM in Action

[230页电子书]谷歌AI产品负责人撰写《AI产品经理经理指南- 构建人工智能驱动的产品战略、工具和Agent设计》

往期推荐


智能守护银发族:Palantir×SOMPO共塑日本医疗与护理新时代

药械营养保健企业的Agentic AI应用(罕见病诊断、患者护理、生产检测等)全解析

生成式人工智能在护理中被忽视的阴暗面:国际智库的视角

Precina Health 如何使用GraphRAG 通过实时洞察彻底改变 2 型糖尿病护理

利用生成式人工智能增强重症监护室护理实践:一项基于模拟临床案例的诊断协同效应形成性研究

多模态生成式人工智能辅助医疗护理培训 - DFKI、南安普顿大学等

大模型在失智患者护理的研究 - Cardiff&剑桥大学

CancerKG.ORG - “知识图谱 +大模型”双轮驱动的人机协同癌症诊疗与护理智能体

利用大模型提升护理与老年照护:一个AI驱动的框架 - 复旦、上交等

[最新论文]探索大模型在乳腺癌肿瘤学护理领域中的应用潜力 - 谷歌DeepMind等

厦门·护理信息大会|首都医科大学与柯基数据合作的NursGPT项目顺利启动!

从“小白”到“专家”:大模型在肿瘤护理中的潜力探索

使用大模型指导患者创建高效全面的临床护理信息

Nature - 基于护理大模型的医院门诊接待机器人和护士的人机协同新范式

2024CHMIA中国护理信息大会&NursGPT启动仪式

护理临床智能决策的新颖方法:大语言模型与本地知识库的整合

护理国自然近一半竟然是这个?

Abridge:一位医生的非典型创业路,用AI重塑医患沟通流程

知识图谱:让智能体理解世界的关键上下文

AI大模型模拟患者+自动反馈深度分析:医学教育新范式

AI模拟病人系统革新:知识图谱+大模型驱动,94.15%问答准确率,医学教育新突破

喜讯|我司中标国内大型创新药企基于"知识图谱+大模型"的医学数字化图书馆项目

Palantir AIP 驱动医疗行业变革,HCA的AI医院管理实践启示

医疗行业的AI革命:从科研到临床的全面变革

知识图谱+大语言模型:中医病例信息检索与分析的新突破



【声明】内容源于网络
0
0
知识图谱科技
1234
内容 1015
粉丝 0
知识图谱科技 1234
总阅读6.3k
粉丝0
内容1.0k