大数跨境
0
0

Nat. Biomed. Eng(一区IF=26.6)|一种用于乳腺癌风险分层的多模态机器学习模型

Nat. Biomed. Eng(一区IF=26.6)|一种用于乳腺癌风险分层的多模态机器学习模型 瓴智医学AI
2025-08-31
1
导读:研究针对乳腺癌风险分层中多模态数据融合与临床适用性的挑战,提出了一种基于多模态机器学习的分层模型——BMU-Net。
本文题为《A multimodal machine learning model for the stratification of breast cancer risk》,由Xuejun Qian、Jing Pei、Chunguang Han等人共同完成,作者单位包括上海科技大学、复旦大学附属肿瘤医院、浙江大学医学院附属第二医院等。该研究针对乳腺癌风险分层中多模态数据融合与临床适用性的挑战,提出了一种基于多模态机器学习的分层模型——BMU-Net。该模型整合乳腺X线影像、三模态超声(B超、彩色多普勒、弹性成像)及临床元数据,通过树状结构疾病分类体系实现从粗粒度(良/恶性)到细粒度(五类病理分型)的多层次风险评估。BMU-Net在来自5,025名患者的19,360张图像上进行训练与验证,结果显示其在良恶性分类任务中与经验丰富的放射科医生表现相当,在病理级鉴别诊断中表现更优,并在前瞻性多中心数据集中达到90.1%的整体准确率,接近病理学家对活检标本的初步评估水平(92.7%)。研究表明,BMU-Net具有良好的泛化能力和临床适用性,能够有效辅助乳腺癌的早期诊断、活检推荐和后续治疗决策,推动多模态人工智能在乳腺疾病精准诊疗中的应用。

01 摘要

本研究开发了一种名为BMU-Net的多模态机器学习系统,旨在提升乳腺癌风险分层的准确性与临床实用性。该模型协同融合了乳腺X线影像、多模态超声图像及临床数据,并借助树状疾病分类框架,同时提供良恶性判别与精细病理亚型区分。在包含五千余名患者的大规模多中心数据验证中,该系统不仅表现出与资深放射科医生相当的诊断水平,在复杂病理鉴别方面甚至更优,其综合分类准确率达90.1%,显著接近病理医师基于活检样本的判断结果(92.7%)。这一成果表明,BMU-Net具有较强的泛化性能和临床应用潜力,可为乳腺癌筛查、个体化活检策略制定及治疗规划提供可靠辅助,推进多模态人工智能在乳腺肿瘤精准医疗中的实际部署。

02 研究背景

乳腺癌是全球女性最常见且致死率最高的癌症之一。早期诊断对提升生存率至关重要,目前乳腺X线摄影是常用的筛查手段,但其对致密型乳腺敏感性较低,而这类人群恰恰风险更高。超声成像成本低、更普及,能发现X线难以检测的小肿瘤,提升诊断敏感性。因此,临床实践中常联合使用X线和超声,互补评估乳腺病变。
尽管已有国际指南为乳腺影像提供标准化解读与处理建议,实际应用仍存在诸多挑战,包括专业医师不足、判断主观性强,以及医生之间和同一医生多次评估之间的差异。这些问题可能导致漏诊延误治疗,或带来不必要的假阳性穿刺活检,增加患者心理负担。
近年来,人工智能尤其是深度学习在医学影像中显示出广泛应用潜力。然而,现有大多数乳腺癌AI研究仍存在明显局限:大多仅基于单一影像模态(X线或超声),忽略了临床多模态融合决策的实际流程;模型设计也未严格遵循专业影像视图标准;此外,这些研究多基于回顾性数据,缺乏在前瞻性、多中心、多设备环境下的泛化验证,也缺少与放射科和病理科医生水平的系统对比。因此,开发一种能够融合多模态信息、符合临床流程、并能实现精确鉴别诊断的AI模型,成为本研究的关键动机。

03 模型设计

研究的核心是构建一个名为BMU-Net 的多模态融合模型,该模型构建主要包含以下板块:
图1 | BMU-Net模型整体架构示意图
1. 多模态输入
模型同时处理三种类型的数据:
  • 乳腺X线摄影:包含头尾位和内外斜位两个视图。
  • 三模态超声:包含B超、彩色多普勒和弹性成像的横切和纵切视图。
  • 临床元数据:包括年龄、BMI、症状、病史和影像学发现等10个关键变量。
2. 网络架构
采用了一种混合深度学习架构与预训练-微调策略。
(1)模态特异性编码器:
模型设计的初始阶段采用了分模态预训练策略,核心组件为模态特异性编码器。
首先,分别独立训练用于处理乳腺X线摄影图像和超声图像的两个深度学习模块。两者均使用 ResNet-18 作为主干特征提取网络,该网络能够有效地从输入的原始图像中学习并抽取出具有高度判别性的层次化特征。
这种设计策略的核心优势在于这一过程为每个数据模态都锤炼出了一个强大且高度专业化的特征提取器。
(2)多模态融合:
将预训练好的乳腺X线和超声编码器的权重迁移到BMU-Net中,作为其图像分支的初始化参数。
使用Transformer 模块和晚期融合策略:首先,在各模态内部(如乳腺X线的CC与MLO两个视图之间、超声的B模式、多普勒和弹性成像的多个切面之间)引入Transformer模块中的注意力机制,自适应地加权并融合来自同一模态不同视角的特征,强化关键视觉模式的表达。
接着,模型进一步融合乳腺X线与超声这两个不同影像模态所提取的整体特征,通过跨模态注意力机制捕捉其间的互补性与一致性。最终,通过晚期融合方式,将融合后的多模态图像特征与经过编码器处理的临床元数据进行联合,生成一个全面且富含上下文信息的综合表征,
3.树状结构疾病分类法
(1)细粒度标签 (T1-T5):模型不是直接进行简单的“良性/恶性”二分,而是使用手术病理确认的5个更精细的类别进行训练:
(2)推理算法:在预测时,模型会输出T1-T5的概率分布。通过一个简单的求和推理算法,可以轻松得到粗粒度的结果(例如:恶性概率 = P(T3) + P(T4) + P(T5)),而无需重新训练模型。这种设计使模型能同时提供鉴别诊断和风险分层。
4. 处理缺失数据
为了模拟真实临床场景中数据不完整的情况,在微调BMU-Net时采用了随机模态掩码策略。该策略的核心思想是:在模型训练过程中,随机地将输入中的某一种或某几种模态数据“掩盖”(即置为零或特殊标记),强制模型学习在缺少某种或某几种数据的情况下也能进行有效预测。
图2 | BMU-Net模型对真实世界临床场景中乳腺癌风险分层的适应性
通过这种主动构造缺失场景的训练方式,BMU-Net被引导去挖掘不同模态间更深层次的互补关系,增强了其在测试阶段遇到真实缺失数据时的鲁棒性和泛化能力。

04 实验设置

1.数据集
(1)来源:从5家医院回顾性(乳腺X线)和前瞻性(超声、多模态)收集了包含 5,025名患者19,360张图像。
(2)数据划分:
  • 内部数据集:用于模块开发和内部测试。
  • 外部数据集:用于测试模型的泛化能力。
(3)特点:数据集包含大量BI-RADS 4类病例,且所有标签均以手术病理结果为金标准 。
2. 对比基准
(1)人类专家
  • 放射科医生:5名经验丰富的乳腺X线医生和4名超声医生参与了读者研究。
  • 病理学家:3名经验丰富的病理学家对活检标本进行初步评估,作为模型性能的顶级基准。
(2)消融实验:与仅使用单模态或双模态的模型版本进行对比,以证明多模态融合和临床数据的重要性。
3. 评估指标
  • 细粒度评估 (5分类):使用准确率和 Cohen's线性加权Kappa值(衡量与金标准的一致性程度)。
  • 粗粒度评估 (2分类, 良/恶):使用AUC (ROC曲线下面积)、敏感度、特异度和 准确率。
  • 临床相关性:设置了多个操作点来评估模型在特定临床决策下的表现,并与放射科医生的平均表现进行对比。具体而言,研究选择了三个关键的操作点进行评估。首先,采用Youden指数对应阈值,以在敏感度和特异度之间取得最佳总体平衡;其次,将模型的特异度调整至与放射科医生在临床关键决策点(即BI-RADS 3类与4a类分界点,此分界点以上通常建议活检)的平均特异度相一致,并在此设定下对比其敏感度;第三,直接采用美国放射学会推荐的传统2%风险阈值作为操作点,该阈值是临床实践中定义“建议活检”的原始标准。

05 结果与分析

1.主要结果
(1)超越放射科医生:在细粒度鉴别诊断任务上,BMU-Net的两个子模块(乳腺X线模块和超声模块)的Kappa值均高于所有相应领域的放射科医生,表明AI在病理级别的图像解读上更准确。
(2)比肩初步病理:在多模态内部测试集上,完整的BMU-Net模型在粗粒度分类上的准确率达到90.1%,非常接近病理学家对活检标本的初步评估水平(92.7%)。
(3)多模态融合的有效性:临床元数据的加入带来了显著的性能提升,使模型在细粒度任务上的Kappa值从“中等”提升到“高度一致”,准确率提升约10%。年龄、BMI和病灶大小被确定为最重要的临床变量。
图3 | BMU-Net与放射科医生在细粒度分类中的混淆矩阵对比
(4)出色的泛化能力:模型在所有的外部测试集上都保持了强劲且稳定的性能(AUCs > 0.90),证明了其临床实用潜力。
图4 | 多模态BMU-Net在内部与外部测试集上的ROC曲线
(5)处理缺失数据:模型在测试时即使面临模态缺失,性能下降也在可接受范围内,展现了其鲁棒性。
2. 关键分析
(1)超声优于乳腺X线:超声模块性能优于乳腺X线模块。分析原因:
  • 乳腺X线对致密乳腺和组织重叠不敏感,存在“隐匿性癌”。
  • 超声聚焦于可疑局部区域,而乳腺X线需要从整个乳房的投影中提取特征,更具挑战。
  • 不同厂商的乳腺X线设备参数差异影响了泛化性。
(2)树状分类法的优势:通过推理算法从细粒度标签得到粗粒度预测,其性能优于直接使用粗粒度标签训练的模型,证明了这种设计不仅能提供更丰富的诊断信息,还能提升基础任务的性能。
(3)可解释性:通过Grad-CAM生成了热力图,可视化模型关注的重点图像区域,有助于医生理解和信任模型的决策。
图5 | 基于Grad-CAM的可解释性热图示例

06 结论

研究表明,BMU-Net能够有效整合乳腺X线摄影、多模态超声和临床数据,实现对乳腺癌风险的准确分层与鉴别诊断。该模型在区分良恶性病变的任务上表现与经验丰富的放射科医生相当,在更精细的病理分级诊断上甚至优于放射科医生,其整体诊断准确性接近病理学家对活检标本的初步评估水平。通过前瞻性多中心验证,BMU-Net展现出优异的泛化能力和临床适用性,表明多模态人工智能系统有望成为辅助乳腺癌临床诊断和决策制定的有效工具,推动精准医疗的发展。

07 论文评价

方法创新亮点

    1. 提出全新的多模态融合架构,紧密结合临床标准工作流
    该研究创新性地构建了一个同时处理乳腺X线摄影、三模态超声和临床元数据的深度学习模型。其设计严格遵循了BI-RADS指南推荐的临床成像标准,确保了模与真实的诊断流程相匹配。
    2. 引入“树状结构疾病分类法”,实现从粗到细的多层级诊断
    研究创新性地采用了一种基于手术病理的五级细粒度标签进行模型训练。通过一个巧妙的推理算法,模型能同时输出细粒度的鉴别诊断结果和粗粒度的风险分层,无需重新训练。
    3. 采用“预训练-微调”策略与随机掩码技术,有效解决数据缺失问题
    研究采用了分阶段训练策略,有效提升了模型性能与训练稳定性。更重要的是,在微调阶段创新性地引入了随机模态掩码技术,使模型具备了在缺失一种或多种模态数据时仍能进行可靠预测的鲁棒性。

    方法不足

    首先,尽管数据来自多个中心和不同设备,但所有患者均来自中国人群,缺乏不同种族和地域的数据,这可能限制模型在全球范围内的泛化能力。其次,深度学习固有的类别不平衡问题在医学前瞻性研究中依然存在,尤其是罕见病理类型的样本量不足。最后,所纳入的临床元数据数量有限,未来需要纳入更多具有统计学意义的临床、分子或遗传学特征,以进一步提升模型的鉴别诊断能力。

    08 参考资料

    论文链接:
    https://doi.org/10.1038/s41551-024-01302-7
    代码链接:
    https://github.com/Qian-IMMULab/BMU-Net 



    图文:植洁莹

    编辑:植洁莹
    审核:吴朝
    Nature Communications(一区IF=15.7)利用电子病历对阿尔茨海默病进行深度表型分析揭示性别特异性临床关联
    Nature Communications(一区IF=15.7)|利用人工智能将蟾蜍灵鉴定为雌激素受体α的分子胶降解剂
    Nat Commun(一区IF=15.7)一个由临床-病理-基因组分析集成的多分类器系统,用于预测肾乳头状细胞癌的复发
    Nat. Commun(一区IF=15.7)| 人工智能将CT图像与肾脏肿瘤的病理特征及生存预后相关联
    npj Digital Medicine(一区IF=15.1)CARE-AD基于多智能体语言模型阿尔茨海默病纵向临床笔记预测框架

    【声明】内容源于网络
    0
    0
    瓴智医学AI
    分享医学人工智能前沿知识,搭建跨学科研究、合作及应用转化平台。致力于医学人工智能技术、研发及科研,提供医学人工智能全方位服务。
    内容 32
    粉丝 0
    瓴智医学AI 分享医学人工智能前沿知识,搭建跨学科研究、合作及应用转化平台。致力于医学人工智能技术、研发及科研,提供医学人工智能全方位服务。
    总阅读5
    粉丝0
    内容32