大数跨境
0
0

医学大模型RAG系统真的有效吗?耶鲁最新研究,18位专家8万+标注揭示惊人真相

医学大模型RAG系统真的有效吗?耶鲁最新研究,18位专家8万+标注揭示惊人真相 知识图谱科技
2025-11-14
6
导读:耶鲁大学等顶级机构研究发现,广泛应用于医学领域的检索增强生成(RAG)系统存在重大缺陷:仅22%的检索内容相关,事实准确性和完整性反而下降6%。18位医学专家贡献80,502个标注,系统揭示RAG在医

Rethinking Retrieval-Augmented Generation for Medicine: A Large-Scale, Systematic Expert Evaluation and Practical Insights

文章摘要

耶鲁大学等顶级机构研究发现,广泛应用于医学领域的检索增强生成(RAG)系统存在重大缺陷:仅22%的检索内容相关,事实准确性和完整性反而下降6%。18位医学专家贡献80,502个标注,系统揭示RAG在医学应用中的关键问题并提出改进策略。

原文PDF - https://t.zsxq.com/FRJjN

正文

引言:医学AI的双重挑战

大型语言模型(LLMs)正在革命性地改变医学领域,从医学问答到疾病诊断,再到治疗规划,应用范围不断扩大。然而,两个核心挑战始终存在:如何跟上快速发展的医学知识以及如何提供可验证的、基于证据的推理

医学知识更新频繁,临床指南和药物信息经常因新证据出现而修订。对六个主流LLMs的系统评估显示,它们在回答新批准药物相关问题时表现持续低迷。更重要的是,在医学领域,仅提供决策或建议是不够的,医疗专业人员需要可信的证据支撑,特别是在不确定或高风险情况下

RAG:被寄予厚望的解决方案

检索增强生成(RAG)作为一种有前途的范式应运而生,旨在通过在推理时融入外部证据来帮助模型获取最新信息并提高回应的事实性和可信度

标准RAG管道包含三个主要阶段

  1. 文档准备
    :选择领域特定文档,分割成段落,编码为向量表示构建可搜索数据库
  2. 检索
    :给定用户查询,系统检索最相关的top-k段落并附加到输入提示中
  3. 生成
    :LLM整合检索段落和查询生成最终回应

这种架构具有显著优势:LLMs无需重新训练即可访问最新信息,用户可以提供领域特定和权威的知识来源

研究设计:史上最大规模专家评估

尽管RAG在医学领域应用日益广泛,但很少有研究系统性地检验其实际表现。大多数现有研究将RAG框架视为黑箱,只评估最终任务性能,而不分析检索质量或证据使用等中间步骤

本研究进行了迄今为止医学RAG领域最全面的专家评估。18位医学专业人员贡献了总计80,502个专家标注,评估了GPT-4o和Llama-3.1-8B在200个真实世界患者查询和USMLE风格查询上的800个模型输出

图1:研究设计和评估框架。精细化框架将RAG管道分解为三个组件,实现对每个阶段的系统评估

评估框架系统性地将RAG管道分解为三个组件

I. 证据检索:评估检索段落的相关性和覆盖率,确定其是否提供足够信息来逻辑推断正确答案的关键要素

II. 证据选择:评估LLMs是否有效地将检索段落纳入回应中,测量回应中引用的检索文档比例

III. 回应生成:在头对头评估中比较有无RAG的LLM最终输出,关注事实准确性和完整性

核心发现:RAG的三重失效

1. 证据检索:相关性严重不足

研究结果令人震惊:检索性能严重受限,大多数检索段落未能提供相关支持

图2:不同评估指标和查询类型下的证据检索性能

关键数据显示

  • 精度极低
    :在top-16段落中,仅约22%被判定为相关,USMLE查询更低至15%
  • 遗漏率高
    :31%的查询在top-16检索结果中没有任何相关段落,USMLE查询高达37%
  • 覆盖率不足
    :仅33%的必备陈述得到top-16检索段落的支持,USMLE查询仅26%

2. 证据选择:模型判断力缺失

即使检索到相关段落,LLMs往往无法有效整合。两个模型的精度和召回率都很低:GPT-4o精度41%、召回率49%;Llama-3.1精度43%、召回率仅28%

图3:引用类型和证据选择性能分析

更令人担忧的是

  • 误引频繁
    :GPT-4o平均每个查询引用2.6个不相关段落,Llama-3.1引用1.6个
  • 相关证据利用不足
    :GPT-4o平均引用1.8个相关段落,而可用相关段落约3.5个
  • 自生成引用问题
    :Llama-3.1的自生成引用中77.2%无法验证,存在大量虚构元数据

3. 回应生成:质量反而下降

最关键的发现是,RAG设置下两个模型的事实准确性和完整性都有所下降

图4:模型回应的事实准确性和完整性

具体表现

  • 事实准确性下降
    :GPT-4o回应级别下降6.0%,Llama-3.1下降1.0%
  • 完整性降低
    :两个模型回应级别都下降2.5%,Llama-3.1陈述级别下降5.4%
  • 整体准确率下降
    :GPT-4o从71.1%降至70.5%,Llama-3.1从49.4%降至45.8%

深度分析:失效原因

研究进一步分析了不同证据类型对模型性能的影响

  • 相关证据支撑时表现最佳
    :GPT-4o达97.1%,Llama-3.1达93.8%
  • 不相关证据影响显著
    :特别是Llama-3.1降至85.5%,显示对噪声证据更敏感
  • 自生成证据风险高
    :Llama-3.1降至85.0%,更容易产生幻觉

突破性改进策略

针对发现的问题,研究提出了两个简单而有效的策略

  1. 证据过滤
    :移除不相关段落,减少噪声干扰
  2. 查询重构
    :重写初始查询以引导检索获取更相关证据

图5:RAG变体和非RAG基线在五个QA数据集上的性能

结合两种策略后,在更具挑战性的数据集上取得显著提升

  • Llama-3.1
    :MedMCQA提升12%,MedXpertQA提升8.2%
  • GPT-4o
    :MedMCQA提升3.4%,MedXpertQA提升6.6%

研究意义与启示

这项研究对医学RAG领域具有重要意义

  1. 重新审视RAG作用:尽管前景看好,但RAG管道会引入新的失效源,包括检索不相关信息、无法整合相关证据以及降低输出的事实准确性和完整性

  2. 系统性评估必要性:通过大量专家标注系统评估RAG过程的每个阶段,识别了之前研究中被忽视的关键瓶颈

  3. 设计思路转变:前进之路不在于将RAG作为默认解决方案,而在于重新思考其系统设计和评估方法

未来展望

研究强调了分阶段感知评估和深思熟虑系统设计对可靠医学LLM应用的重要性。这些发现要求重新审视RAG在医学领域的角色,不应盲目应用,而需要针对性的干预措施来解决识别出的关键问题。

通过证据过滤和查询重构等目标干预措施,可以在具有挑战性的医学任务上大幅提升性能,这表明精心设计的RAG系统仍然具有巨大潜力,关键在于如何正确实施。

结论

这项迄今为止最大规模的医学RAG专家评估揭示了一个令人深思的现实:被广泛采用的RAG系统在医学领域存在严重缺陷,但通过科学的分析和有针对性的改进,仍可以实现显著提升。对于医学AI的从业者和投资者而言,这项研究提供了宝贵的实践指导和战略洞察。


标签#医学AI #RAG #LLM #大语言模型 #MedicalAI #检索增强生成

欢迎加入「知识图谱增强大模型产学研」知识星球,获取最新产学研相关"知识图谱+大模型"相关论文、政府企业落地案例、避坑指南、电子书、文章等,行业重点是医疗护理、医药大健康、工业能源制造领域,也会跟踪AI4S科学研究相关内容,以及Palantir、OpenAI、微软、Writer、Glean、OpenEvidence等相关公司进展。

往期推荐


[300页电子书]Palantir 股票的大数据,大利润:为什么Palantir是未来企业级AI的潜力股

[555页电子书]从LLM Agent到RAG与知识图谱全攻略实战指南重磅发布——构建具备推理、检索与行动能力的智能体

250页电子书-医学领域的人工智能革命:GPT-4及医学大模型未来展望。OpenAI CEO作序

[100页电子书]知识图谱&大模型双轮驱动的工业 AI 数智化转型权威指南 - Cognite

[73页]OpenAI联合哈佛等重磅发布全球首份ChatGPT使用报告,分析用户增长、使用模式及其经济价值

[140页]Neo4j GraphRAG白皮书

[72页]谷歌推出个性化实时监测主动健康管理大模型PH-LLM

[180页电子书]GraphRAG全面解析及实践-Neo4j:构建准确、可解释、具有上下文意识的生成式人工智能应用

[30页电子书]GraphRAG开发者指南

[550页电子书]2025年10月最新出版-知识图谱与大语言模型融合的实战指南:KG&LLM in Action

[230页电子书]谷歌AI产品负责人撰写《AI产品经理经理指南- 构建人工智能驱动的产品战略、工具和Agent设计》

往期推荐


智能守护银发族:Palantir×SOMPO共塑日本医疗与护理新时代

药械营养保健企业的Agentic AI应用(罕见病诊断、患者护理、生产检测等)全解析

生成式人工智能在护理中被忽视的阴暗面:国际智库的视角

Precina Health 如何使用GraphRAG 通过实时洞察彻底改变 2 型糖尿病护理

利用生成式人工智能增强重症监护室护理实践:一项基于模拟临床案例的诊断协同效应形成性研究

多模态生成式人工智能辅助医疗护理培训 - DFKI、南安普顿大学等

大模型在失智患者护理的研究 - Cardiff&剑桥大学

CancerKG.ORG - “知识图谱 +大模型”双轮驱动的人机协同癌症诊疗与护理智能体

利用大模型提升护理与老年照护:一个AI驱动的框架 - 复旦、上交等

[最新论文]探索大模型在乳腺癌肿瘤学护理领域中的应用潜力 - 谷歌DeepMind等

厦门·护理信息大会|首都医科大学与柯基数据合作的NursGPT项目顺利启动!

从“小白”到“专家”:大模型在肿瘤护理中的潜力探索

使用大模型指导患者创建高效全面的临床护理信息

Nature - 基于护理大模型的医院门诊接待机器人和护士的人机协同新范式

2024CHMIA中国护理信息大会&NursGPT启动仪式

护理临床智能决策的新颖方法:大语言模型与本地知识库的整合

护理国自然近一半竟然是这个?

Abridge:一位医生的非典型创业路,用AI重塑医患沟通流程

知识图谱:让智能体理解世界的关键上下文

AI大模型模拟患者+自动反馈深度分析:医学教育新范式

AI模拟病人系统革新:知识图谱+大模型驱动,94.15%问答准确率,医学教育新突破

喜讯|我司中标国内大型创新药企基于"知识图谱+大模型"的医学数字化图书馆项目

Palantir AIP 驱动医疗行业变革,HCA的AI医院管理实践启示

医疗行业的AI革命:从科研到临床的全面变革

知识图谱+大语言模型:中医病例信息检索与分析的新突破



【声明】内容源于网络
0
0
知识图谱科技
1234
内容 1015
粉丝 0
知识图谱科技 1234
总阅读6.1k
粉丝0
内容1.0k