大数跨境
0
0

EMM:以颅内出血检测为应用场景的黑盒AI模型自动实时评估框架

EMM:以颅内出血检测为应用场景的黑盒AI模型自动实时评估框架 汇智灵曦
2025-11-04
2
导读:本文介绍了一篇2025年10月发表于《NPJ Digital Medicine》的最新研究,该团队(斯坦福大学)提出了一种名为集成监控模型的框架,旨在解决临床黑盒AI模型(尤其是放射学领域)部署后缺乏


引言









这是一篇2025年10月发表于《NPJ Digital Medicine》的最新研究,该团队(斯坦福大学)提出了一种名为集成监控模型(Ensembled Monitoring Model, EMM)的框架,旨在解决临床黑盒AI模型(尤其是放射学领域)部署后缺乏实时监控的问题。EMM通过模拟临床专家共识机制,对黑盒AI模型的预测结果进行实时置信度评估,无需访问模型内部参数或中间输出。研究以颅内出血(ICH)检测为应用场景,验证了EMM在降低认知负担、提升诊断准确性方面的潜力。


论文地址:https://www.nature.com/articles/s41746-025-02007-0


Code:https://github.com/stanfordaide/ICH_EMM


研究背景









当前多数已批准上市的AI辅助诊断工具(尤其是放射学领域)缺乏实时监控机制,用户需自行判断模型预测结果的可靠性,这增加了误诊的风险和认知负担。此外,传统回顾性评估依赖人工标注,成本高且覆盖范围有限,基于LLM的报告分析仍属于模型推理后的事后监控,无法实现实时反馈。最后,现有模型置信度估计方法(如SoftMax校准、贝叶斯神经网络等)均需访问模型内部信息(如训练集、模型权重等),不适用于商业黑盒AI模型。


EMM框架设计









针对上述不足,本研究开发了一种基于临床共识实践的集成监测模型(EMM),由针对同一任务训练的多个子模型构成,通过评估子模型与黑盒主模型之间的一致性水平,来估算黑盒AI模型预测的置信度。研究以ICH检测为典型应用场景,对研究方法展开详述。


1

EMM框架


EMM框架借鉴临床多个专家达成共识的评审机制,由五个架构各异的子模型(3D CNN)组成,包含两种具有不同可训练参数数量的版本:大型版本采用ResNet 101、152和DenseNet 121、169、201;小型版本采用ResNet 18、34、50、101、152。所有网络均基于2D ImageNet预训练权重初始化,并通过I3D方法转换为3D模型。


如图所示,研究将被监测的模型称为主模型,EMM内的每个子模型独立处理相同输入,生成各自的二元预测结果,并与主模型并行运行。通过无权重计票法,将五个EMM子模型的输出结果与主模型的输出进行比较,以20%为增量区间(0%表示无子模型达成一致,100%表示全部子模型一致)衡量与主模型预测的一致性程度,据此划分置信度等级(增加置信度、相似置信度、降低置信度)。



2

实验设置


实验以ICH检测为应用场景,选择了两个典型的互补主模型进行评估。首先是FDA批准的一款商业黑盒ICH检测模型,具有高特异性、精度和准确性;其次是RSNA 2019挑战赛中排名第二的开源ICH检测模型,具有高敏感性。对于FDA商业模型,使用在完整RSNA 2019 ICH检测挑战数据集上训练的EMM进行监控;对于开源ICH检测模型,使用50%的数据进行训练,并利用剩下的50%数据训练EMM进行监控。这模拟了在不同数据集上训练主模型和EMM的真实临床部署场景。


EMM子模型采用开源的RSNA 2019 CT脑部病变检测挑战赛数据集进行训练,并使用本机构独立收集的数据集进行评估(2,919例,45% ICH阳性)。针对RSNA 2019数据集的不同子集训练模型,以探究EMM在不同训练数据量(18,370例 [100%]、9185例 [50%]、4592例 [25%]、918例 [5%])下的效率。所有子集的ICH患病率均约为41%。


实验结果









1

EMM一致性水平与影像特征关联性


实验表明,EMM与主模型预测结果的一致性水平,能够有效反映其预测置信度,并且这种置信度与CT影像中特定的、可量化的特征密切相关。


通过对2919例CT扫描的分析发现,当EMM与FDA批准的主模型呈现100%一致时,病例通常表现为明显的出血或清晰的正常脑解剖结构,此时预测最为可靠。而在部分一致的病例中,多涉及细微出血或含有模仿出血的影像特征(如钙化或肿瘤),EMM的不完全一致信号为放射科医生提供了需重点复核的关键提示。仅在少数极具挑战性的病例中,如存在极其细微的出血或高度模仿出血的影像模式,EMM与主模型会同时判断错误。


进一步的Shapley定量分析揭示了影响一致性的关键特征:在ICH阳性病例中,出血体积是决定性因素,出血量越大,EMM一致性越高;而在ICH阴性病例中,脑容量、患者年龄和图像旋转则成为主要预测因子,存在模仿出血的特征会显著降低一致性。



2

EMM基于置信度分层的审阅优化


实验表明,EMM能够依据其与颅内出血检测主模型预测结果的一致性水平,实现对病例的置信度分层,从而优化放射科医生的审阅流程。


通过设定一致性阈值,EMM将主模型的预测划分为“增加置信度”、“相似置信度”和“降低置信度”三类,并为每一类推荐相应的审阅策略:例如,对低置信度病例,建议医生忽略AI结果并进行全面独立审阅。结果显示,被标记为高置信度的病例组诊断准确率最高,而低置信度组准确率显著较低,验证了分层的有效性。同时,在不同患病率场景下,对低置信度阳性病例进行复核所带来的准确率提升均远高于其误报率,表明EMM能有效实现资源优化。



进一步分析表明,大多数病例被归入高置信度类别,仅少数需重点复核。这一优化效益充分体现了EMM作为临床工作流优化工具的普适性与实用性,其通过实时、个案化的置信度评估,为AI辅助诊断提供了可信任的决策支持框架。



3

EMM训练的技术参数量


为促进EMM的广泛应用,研究分析了三个关键因素对其性能的影响:


  1. 训练数据量,性能随数据量增加而提升,但在约4600例后效益开始饱和;

  2. 子模型数量,性能随子模型数量增加(1至5个)而提升,4或5个子模型是有效的起点;

  3. 子模型大小与训练数据的组合,大模型+全数据集通常表现最佳,但在低患病率(5%)场景下,小模型+少量数据能达到最佳性能,以避免过拟合。



结论









EMM框架填补了黑盒临床AI模型实时监控的关键空白,其通过集成共识提供可操作的置信度,能有效降低认知负荷,提升诊断信心。研究还指出了EMM的未来应用方向,如监控AI模型的纵向性能漂移。同时,研究也讨论了局限性,包括对标注数据的初始需求、在不同亚组(性别、年龄、种族)中观察到的性能差异,以及需要针对不同疾病和患病率微调阈值。未来,结合LLMs和自监督学习有望克服数据限制,而针对临床医生工作流和信任度的影响评估将是下一步重点。


训练推理一体化平台服务内容









汇智灵曦推出的训练推理一体化平台,集成了多种经典AI模型,内置AI模型商城,为用户提供高效便捷的训练与推理解决方案。用户只需设置输入输出路径并调整参数,即可快速完成模型训练与推理,无论是科研探索还是临床应用,都能轻松上手。平台具备简洁的界面和操作流程,免去复杂的技术要求,帮助用户节省时间、提高效率,是实现AI技术快速落地的理想选择。



点击下方“阅读原文”

立即申请“训练推理一体化平台”试用

【声明】内容源于网络
0
0
汇智灵曦
汇智灵曦数字科技以“智赋医疗,研以致用”为理念,致力于通过AI技术推动医疗健康数字化转型。公司聚焦医疗场景需求,打造了包含深度问数、汇智查房等医疗AI产品,为医疗机构提供从临床决策到科研创新的全链条解决方案,大幅提升诊疗质量与科研效率。
内容 31
粉丝 0
汇智灵曦 汇智灵曦数字科技以“智赋医疗,研以致用”为理念,致力于通过AI技术推动医疗健康数字化转型。公司聚焦医疗场景需求,打造了包含深度问数、汇智查房等医疗AI产品,为医疗机构提供从临床决策到科研创新的全链条解决方案,大幅提升诊疗质量与科研效率。
总阅读22
粉丝0
内容31