大数跨境
0
0

npj digital medicine(一区IF=15.1)|使用大型语言模型加速临床证据合成

npj digital medicine(一区IF=15.1)|使用大型语言模型加速临床证据合成 瓴智医学AI
2025-09-03
0
导读:研究提出了基于大语言模型的临床循证加速系统 ,解决系统综述耗时长、人工负担重且更新不及时问题。研究团队构建包含100个系统综述和2220篇临床研究的TrialReviewBench数据集,用于评估模型

本文题为 Accelerating clinical evidence synthesis with large language models,作者为 Zifeng Wang、Lang Cao、Benjamin Danek、Qiao Jin、Zhiyong Lu 和 Jimeng Sun,隶属于伊利诺伊大学厄巴纳-香槟分校 Siebel 计算与数据科学学院、Carle 伊利诺伊医学院、美国国立医学图书馆以及 Keiji.AI 公司。文章发表于 npj Digital Medicine。研究提出了一个基于大语言模型的临床循证加速系统 TrialMind,旨在解决系统综述耗时长、人工负担重且更新不及时的问题。研究团队构建了包含100个系统综述和2220篇临床研究的 TrialReviewBench 数据集,用于评估模型在文献检索、研究筛选和数据提取中的表现。结果显示,TrialMind 在文献检索的召回率(0.711–0.834)显著优于人工和GPT-4基线(0.138–0.232),在研究筛选中排名表现提升1.5–2.6倍,在数据提取中准确率比GPT-4高出16–32%。在人机协同试验中,TrialMind帮助专家将检索召回率提升71.4%,筛选时间缩短44.2%,数据提取准确率提高23.5%,用时减少63.4%。同时,医学专家在62.5%–100%的场景中更偏好TrialMind生成的循证结果。研究表明,TrialMind能够显著提高循证医学的效率和质量,并通过透明化流程支持人机协作,为临床实践和新药研发提供有力支撑。

01 摘要

临床证据合成在很大程度上依赖于医学文献中临床研究的系统综述(SR)。在这里,我们提出了一个名为TrialMind的生成人工智能(AI)管道,以简化SR中的研究搜索,研究筛选和数据提取任务。我们选择已发表的SR构建TrialReviewBench,其中包含100个SR和2,220个临床研究。对于研究搜索,它实现了高召回率(我们的0.711-0.834 v.s.人类基线0.138-0.232)。对于研究筛选,TrialMind以1.5-2.6倍的变化击败了以前的文档排名方法。对于数据提取,它比GPT-4的准确性高出16- 32%。在一项初步研究中,与TrialMind的人工智能合作将召回率提高了71.4%,并将筛选时间缩短了44.2%,而在数据提取方面,准确性提高了23.5%,时间缩短了63.4%。医学专家在62.5%-100%的情况下更喜欢TrialMind的综合证据,而不是GPT-4这些发现显示了由人类-AI合作驱动的加速临床证据合成的前景。

02 研究背景

研究问题

循证医学的核心在于系统综述(Systematic Review, SR)和荟萃分析,它们通过整合不同临床试验与真实世界研究的结果,为临床实践和新药研发提供坚实的科学证据。然而,传统的系统综述过程存在明显瓶颈:一方面,完成一个完整的综述通常需要平均5名专家、耗时超过一年,成本高昂;另一方面,文献数据库(如PubMed)每年新增上百万条引文,使得已发表综述很快过时,难以满足“及时更新”的临床需求。随着大语言模型(LLMs)的快速发展,研究者开始尝试利用其在自然语言处理和任务跟随能力上的优势,将其引入文献检索、研究筛选和结果提取等循证环节,以期实现高效、自动化的证据综合。

研究难点

尽管LLMs展现出巨大潜力,但在实际应用于临床证据综合时仍面临多方面挑战:其一,模型容易出现幻觉(hallucination),即生成与原始文献不符的信息;其二,缺乏对数值数据的推理能力,难以准确处理临床研究中的统计指标与结局数据;其三,输出内容往往过于笼统,难以满足系统综述对细节和规范化结果的要求;其四,过程缺乏透明度与可追溯性,不利于专家验证与溯源。此外,如何将LLMs的能力与PRISMA等标准化流程对接,并保证在人机协作中既提高效率又维持高质量与可信度,也是亟需突破的关键问题。

03 模型设计

  1. 输入与问题建模

    • 使用 PICO(Population, Intervention, Comparison, Outcome)结构化框架明确研究问题。

    • 基于输入的 PICO 元素,TrialMind 能够自动生成与研究问题相关的搜索策略,并将其转化为布尔检索式。

  2. 文献检索模块

    • 利用 LLM 生成初始检索词表,并通过语义扩展和自我反思(chain-of-thought)机制进行修正和完善。

    • 引入检索增强生成(RAG),结合外部知识库和 PubMed 引文,提高检索覆盖度与多样性。

    • 目标是在保证高召回率的同时降低无关文献数量。

  3. 文献筛选模块

    • 自动生成纳入与排除标准,覆盖研究设计、干预类型、受试人群等维度。

    • 对候选文献逐条评估,输出“符合/不符合/不确定”三类判别结果,并计算综合得分以排序。

    • 保留专家人工干预入口,便于修改筛选标准或调整结果排序,实现透明化和可解释性。

  4. 数据提取模块

    • 从研究全文(PDF/XML)中抽取关键信息,包括研究设计、样本量、受试者基线特征和主要结局。

    • 引入分块解析与链式推理机制,减少对数值型信息的提取错误。

    • 提供源文献溯引功能,保证结果的可验证性与可追溯性。

  5. 结果标准化与证据综合

    • 将提取出的研究结果转化为统一的结构化格式,以支持后续荟萃分析。

    • 自动生成森林图等可视化统计结果,并支持专家进一步人工校验与调整。

    • 实现从原始文献到循证结论的端到端支持,同时避免“黑箱化”问题。

04 实验设置

为验证TrialMind 的性能与应用价值,本研究构建了 TrialReviewBench 数据集,并设计了多层次的实验方案:

  1. 数据集构建

    • 收集100篇已发表的系统综述,涵盖免疫治疗、化疗/放疗、激素治疗及热疗四大领域。

    • 共包含2220项临床研究,并人工标注1334条研究特征、1049条研究结果,作为模型评估的“真值”。

  2. 文献检索实验

    • 任务目标:检索到系统综述中包含的目标研究。

    • 对照基线:人工构造布尔式(Human baseline)与GPT-4自动生成检索式。

    • 评价指标:召回率(Recall)。

    • 实验结果:TrialMind 的召回率为 0.711–0.834,远高于人工(0.138–0.232)和GPT-4(0.073–0.106)。

  3. 文献筛选实验

    • 任务目标:在候选文献集中识别最相关的研究并排序。

    • 对照基线:MPNet(通用语义检索模型)、MedCPT(医学检索模型)、随机筛选。

    • 评价指标:Recall@20 与 Recall@50。

    • 实验结果:TrialMind 提升幅度达1.5–2.6倍,平均在候选集中能将约43%的目标文献排在前50位。

  4. 数据提取实验

    • 任务目标:从研究全文中提取研究设计、人口学特征、结果指标。

    • 对照基线:GPT-4 与 Sonnet。

    • 评价指标:提取准确率(Accuracy)、幻觉率、缺失率。

    • 实验结果:TrialMind 平均准确率达0.72–0.83,比GPT-4高出16–32%,尤其在数值结果提取方面优势显著。

  5. 人机协作实验

    • 实验设计:邀请医学专家与计算机科学家对比“人工独立完成”与“TrialMind+人工校正”两种模式。

    • 评价指标:召回率、准确率、任务耗时、专家主观偏好。

    • 实验结果:TrialMind+人工模式检索召回率提升71.4%,筛选时间缩短44.2%,数据提取准确率提高23.5%,耗时减少63.4%;专家在62.5%–100%的场景中更倾向选择 TrialMind 生成的证据结果。

05 结果与分析

  • 文献检索性能
    在四大治疗领域(免疫治疗、化疗/放疗、激素治疗、热疗)的100篇系统综述中,TrialMind 的平均召回率达 0.782,显著优于人工基线(0.138–0.232)和 GPT-4 基线(0.073–0.106)。即使在复杂任务(如包含超过100篇目标研究的综述)中,TrialMind 仍保持接近 0.99 的召回率,展现出稳定性和可扩展性

  • 文献筛选与排序
    在 Recall@20 和 Recall@50 两项指标上,TrialMind 的表现较现有医学检索模型(MPNet、MedCPT)提升 1.5–2.6倍。尤其在免疫治疗和激素治疗领域,TrialMind 能将超过 40%的目标研究排入前50位,显著减少了人工筛选的负担。

  • 数据提取与结果准确性
    TrialMind 在研究设计信息提取中的准确率接近 95%,人口学信息提取约 74–78%,临床结果提取约 65–84%。在数值结果提取方面,其准确率比 GPT-4 和 Sonnet 提升 16–32%,并能通过链式推理与源文献溯引机制降低“幻觉”率(Precision 高于0.96)。误差分析显示主要问题集中在复杂数值结局的提取与计算环节,但大部分结果可通过人工校验快速修正。

  • 人机协作优势
    在模拟真实综述流程的人机协作实验中,TrialMind 显著提升了效率与质量:

    • 检索环节:召回率提升 71.4%,时间减少 44.2%

    • 数据提取环节:准确率提升 23.5%,时间缩短 63.4%

    • 专家评估:在 62.5–100% 的案例中,专家更偏好 TrialMind 综合出的证据结果,认为其条理更清晰、数据更规范。

06 结论

本研究提出的 TrialMind 系统,通过 LLM 驱动的文献检索、研究筛选、数据提取和结果综合流程,显著提升了临床证据合成的效率与准确性。与传统人工和现有 LLM 基线方法相比,TrialMind 在召回率、排序性能和提取准确率上均表现优越,并在实际人机协作中实现了时间节省与质量提升。

研究表明:

  1. 可行性:TrialMind 能够在 PRISMA 框架下实现系统综述主要环节的自动化与半自动化,确保流程透明与可追溯。

  2. 实用性:在人机协作模式下,TrialMind 不仅减少了专家的工作负担,还提高了结果可靠性。

  3. 创新性:通过引入检索增强生成(RAG)、链式推理(CoT)和源文献溯引机制,TrialMind 在数值推理和证据透明性方面取得突破。

  4. 局限性与展望:目前实验集中于肿瘤学领域,且数据来源主要限于 PubMed Central。未来需扩展至更多疾病领域与多类型数据源,并进一步拓展至质量评估、报告撰写等系统综述的完整环节。

总体而言,TrialMind 展示了大语言模型在人机协作模式下加速循证医学的重要潜力,为临床实践和新药研发提供了高效、可信的工具支持。

07 论文评价

方法创新亮点

  • 全流程一体化设计

    • 以 PRISMA 流程为蓝本,将文献检索、研究筛选、数据提取与证据综合整合到一个端到端系统,区别于以往仅聚焦单一环节的 LLM 应用。

  • 多模态增强与任务分解

    • 通过 检索增强生成(RAG)链式推理(CoT) 等机制,提升模型在数值计算、逻辑推理与上下文一致性方面的能力。

    • 将复杂的系统综述任务拆解为可监控的子任务,使人类专家能在中间环节进行干预,保证结果透明和可追溯。

  • 构建权威基准数据集 TrialReviewBench

    • 首次系统性构建了包含100个系统综述、2220篇临床研究的开放数据集,用于评估模型在循证任务中的表现,为后续研究提供了可复现的测试标准。

  • 人机协作模式的验证

    • 实证研究表明,在人机协作下,TrialMind 显著提升了效率(检索与提取时间减少 44–63%)与质量(准确率提升 16–32%),并且多数专家偏好 AI 生成的结果,凸显其临床应用潜力。

  • 证据标准化与荟萃分析支持

    • 能将提取的原始结果转化为结构化数据,自动生成森林图等统计结果,实现从“非结构化文本”到“循证证据”的规范化转换。

方法不足

在本研究中,TrialMind 尽管展现出显著优势,但仍存在一些局限性。首先,其验证范围主要集中在肿瘤学领域,缺乏对预防、诊断及其他疾病领域的广泛测试,因此模型的普适性尚需进一步探索。其次,数据来源受限于 PubMed Central 等公开数据库,许多需要 OCR 处理或全文不可获取的研究未能纳入,降低了系统的适用性。再次,在涉及分组结果、比值比及罕见事件率等复杂数值结局时,模型的推理与提取准确率明显下降,仍需依赖人工校正。与此同时,TrialMind 尚未覆盖研究质量评价、偏倚风险分析与报告撰写等关键环节,距离实现全流程的系统综述自动化还有差距。最后,大模型在处理大规模文献时存在计算成本高、运行效率受限的问题,如何在保证性能的同时实现轻量化和可扩展性仍是亟需解决的挑战。

08 参考资料

Article:

DOI:doi.org/10.1038/s41746-025-01840-7



图文:王欢

编辑:王欢
审核:吴朝
Nat. Biomed. Eng(一区IF=26.6)|一种用于乳腺癌风险分层的多模态机器学习模型
Nature Communications(一区IF=15.7)利用电子病历对阿尔茨海默病进行深度表型分析揭示性别特异性临床关联
Nature Communications(一区IF=15.7)|利用人工智能将蟾蜍灵鉴定为雌激素受体α的分子胶降解剂
Nat Commun(一区IF=15.7)一个由临床-病理-基因组分析集成的多分类器系统,用于预测肾乳头状细胞癌的复发

【声明】内容源于网络
0
0
瓴智医学AI
分享医学人工智能前沿知识,搭建跨学科研究、合作及应用转化平台。致力于医学人工智能技术、研发及科研,提供医学人工智能全方位服务。
内容 32
粉丝 0
瓴智医学AI 分享医学人工智能前沿知识,搭建跨学科研究、合作及应用转化平台。致力于医学人工智能技术、研发及科研,提供医学人工智能全方位服务。
总阅读21
粉丝0
内容32