JAMA Netw Open (一区 IF=10.5) | 生成式AI辅助放射报告的效率和质量



JAMA Netw Open (一区 IF=10.5) | 生成式AI辅助放射报告的效率和质量

瓴智医学AI

2025-06-18

导读：JAMA Netw Open (一区 IF=10.5) | 生成式AI辅助放射报告的效率和质量

01 摘要

本研究由美国西北大学医学院（Northwestern University Feinberg School of Medicine）放射学与生物医学工程团队联合完成，作者包括 Jonathan Huang 和 Mozziyar Etemadi 等。论文发表于 JAMA Network Open（2025年6月刊），题为《Efficiency and Quality of Generative AI–Assisted Radiograph Reporting》。该研究首次在真实的三级医疗体系中部署生成式人工智能系统，并前瞻性评估其在放射报告撰写中的临床应用价值。通过对比分析23,960份X线影像报告，结果表明：AI辅助撰写报告可将文书效率提高15.5%，每份报告平均节省29.4秒；同时，报告的临床准确性与文本质量与传统人工撰写相当（无显著差异）。此外，AI系统还能以72.7%的敏感性、99.9%的特异性识别突发性气胸病例，展现出良好的病灶预警能力。研究结果充分验证了生成式AI在提升医疗效率与安全性方面的潜力，并为“AI+医生协作”模式在医学影像领域的落地应用提供了实证支持。

02 研究背景

一、研究问题

随着全球放射影像需求持续增长与放射科医生短缺加剧，医学影像报告撰写的效率成为医疗服务瓶颈之一。如何借助生成式人工智能（Generative AI）提升放射科报告的撰写效率与质量，是当前医学AI的重要研究方向。

本研究关注的核心问题是

在真实临床场景中部署生成式AI辅助系统，是否能够提升放射报告的书写效率，同时保障临床准确性与文本质量。

此外，研究还探索了生成式AI是否具备及时识别突发性、临床显著病灶（如气胸）的能力。

二、研究难点

真实场景部署挑战：当前大多数研究停留在离线模拟或公开胸片数据集（如MIMIC-CXR）上，缺乏三级医院真实工作流中部署AI系统的实证研究。

效率-质量权衡问题：生成式AI在节省时间的同时，是否会牺牲报告内容的准确性或语言质量，始终是医生关注的安全风险。

关键病灶识别能力不足：传统基于分类的AI系统难以解释且对关键紧急病变（如气胸）识别不稳定，缺乏结合文本生成能力的病情预警机制。

三、相关工作

本研究建立在以下研究进展基础之上

放射图文生成模型：如Prior-RadGraphFormer、MAIRA、BioViL-T 等，推动了图像-文本的联合建模，但大多停留在胸片、研究性验证层面。

AI辅助报告系统：如 RadGraph、CheXbert 等将结构化信息用于生成或分析报告，但未实现完整“图像+临床信息 → 报告”自动生成。

突发病灶检测系统：如Pneumothorax-AI 使用分类方法识别气胸，但存在误报高、缺乏语义解释的问题。

该研究在全球首次于12家附属医院部署生成式AI系统，并通过23,960份X线影像的前瞻性真实数据，系统评估AI在效率提升、质量保障与病灶识别等多维度的实际表现，为“生成式AI+放射科医生”合作模式提供了关键实证。

03 模型设计

该研究采用了一种集成式多模态生成模型方法，在真实临床环境中辅助放射科医生撰写X线影像报告，重点评估生成式AI对文书效率与报告质量的影响。

一、多模态生成模型设计

模型类型：基于 Transformer 架构的生成式语言模型
组件结构：

接收图像与结构化输入，生成“Findings”与“Impression”段落草稿；
用于从二维X光影像中提取高维视觉特征；
视觉编码器：Vision Transformer（ViT-B/16）
文本生成器：OPT-125M（Open Pretrained Transformer）

输入模态：

图像：目标X线图像
结构化信息：主诉（clinical indication）、图像类型、对比影像信息、医生姓名等

输出内容：自动生成的英文放射报告草稿（结构化段落格式），可供医生直接编辑签发

二、系统部署与工作流集成

模型与医院的EHR系统（Epic）和PowerScribe报告系统集成
影像上传后，AI在中位数3秒内完成报告草稿生成
草稿作为报告模板推送至医生界面，无需医生额外操作或调用

04 实验设置

效果评估方法

评估维度	方法说明
效率评估	比较AI辅助与人工组报告撰写所需时间，使用线性混合效应模型（LMM）控制混杂因素
准确性评估	从样本中抽取报告，由4位放射科医生使用Likert量表盲评，采用累积链接混合模型（CLMM）分析
关键病灶识别能力	对生成报告进行文本扫描，识别意外气胸病例，计算模型在临床干预级病例中的敏感性、特异度和预警时效

05 结果与分析

本研究共纳入 23,960 份X线影像报告，来自使用生成式AI草稿系统的医生组（11,980份）与传统人工书写对照组（11,980份）。通过对效率、质量和关键病灶识别能力三个维度的系统评估，结果显示生成式AI在保持报告准确性的同时，显著提升了文书效率，并具备一定的临床预警能力。

文书效率方面，使用AI草稿系统后，医生每份报告的撰写时间中位数由原来的190秒下降至161秒，平均节省时间为29.4秒，效率提升达 15.5%。线性混合效应模型分析显示，该提升具有统计学显著性，且与检查类型、医生个体差异无关。

报告质量方面，研究随机抽取800份报告，由4位放射科专家进行双盲评审。评分涵盖“临床准确性”和“语言质量”两个维度，采用Likert 4级评分标准。结果显示，AI辅助组与对照组在临床准确性评分上无显著差异（P = 0.41），在文本表达质量方面亦无明显下降趋势（P = 0.06），表明AI草稿并未损害报告质量。

此外，模型在关键病灶识别能力方面表现出色。研究进一步分析了97,651份AI生成的草稿报告中对“突发性气胸”这一高危病灶的识别情况。系统通过关键词匹配与上下文判断方式，自动筛查可能存在紧急气胸的报告。与临床实际干预记录比对后发现，AI草稿能以 72.7% 的敏感性 和 99.9% 的特异性 识别突发气胸病例。更重要的是，该系统可在医生签发前中位提前24分钟发出风险信号，显示出生成模型在辅助早期识别方面的临床潜力。

此外，研究还统计了医生对AI草稿的编辑幅度。使用Word Error Rate计算发现，大多数草稿仅需轻微修改即可签发，说明模型生成质量已接近医生可接受标准。结合RadGraph结构复杂度评分，研究进一步确认了AI草稿具备丰富的信息密度和结构完整性。

综上所述，生成式AI在本研究中不仅提升了报告撰写效率，同时未造成准确性与质量下降，且具备一定的临床病灶识别与预警能力，验证了其作为“医生协作助手”的实用性与安全性。

06 结论

本研究首次在真实三级医院系统中部署并评估了一套生成式人工智能放射报告系统，基于ViT-B/16与OPT-125M构建的多模态生成模型成功嵌入临床工作流，显著提升了医生报告撰写效率，同时保持报告的临床准确性与语言质量。在前瞻性对比分析中，AI辅助系统将平均报告时间缩短约29秒，实现15.5%的文书效率提升，且未引起显著的质量下降。此外，该系统还能准确识别突发性气胸等高危病灶，达到72.7%的敏感性与99.9%的特异性，具备一定的自动预警能力。

研究表明，生成式AI不仅能够减轻医生文书负担，还具有与医生协同识别潜在风险的能力，为临床场景中的“AI+医生”协作模式提供了可落地的技术路径与实证依据。该方法的成功实践为生成式AI在放射学、乃至更广泛的医疗文书场景中的推广应用奠定了基础，也为未来构建智能、高效、安全的临床辅助系统提供了重要范式。

07 论文评价

✅方法创新亮点

首次在真实临床多中心部署生成式AI模型，实现无缝嵌入医生工作流
模型支持多模态联合输入（图像 + 临床信息）生成结构化草稿
评估方法科学系统：结合自动日志数据与人工盲评，涵盖效率、质量与安全性全维度

⚠方法不足

尽管本研究在真实临床环境中系统评估了生成式AI在放射报告撰写中的应用效果，但仍存在若干局限。首先，模型仅适用于X线图像，尚未覆盖CT、MRI等复杂模态，通用性有限。其次，生成内容为英文草稿，语言迁移能力尚未验证。此外，研究未细化模型对不同层级医生的辅助差异，长期使用对医生行为和报告习惯的影响仍未知。病灶识别依赖文本表征，缺乏直接影像推理能力，存在误判风险。未来应扩展至多影像模态、多语言环境，并评估AI长期部署对临床决策与患者结局的深远影响。

08 参考资料

Article:doi:10.1001/jamanetworkopen.2025.15672

【声明】内容源于网络

瓴智医学AI

分享医学人工智能前沿知识，搭建跨学科研究、合作及应用转化平台。致力于医学人工智能技术、研发及科研，提供医学人工智能全方位服务。

内容 32

粉丝 0

瓴智医学AI 分享医学人工智能前沿知识，搭建跨学科研究、合作及应用转化平台。致力于医学人工智能技术、研发及科研，提供医学人工智能全方位服务。

总阅读31

粉丝0

内容32