题为 “Development and validation of a machine learning model for predicting postoperative delirium in elderly patients after hip fracture surgery: a multicentre retrospective study” 的研究由 Masaki Takahashi、Yusuke Inoue、Kenji Yoshida、Koji Sugimoto、Takuya Yokota、Yuji Fujimoto、Hiroshi Tanaka、Yoshihiko Nakamura、Noriko Kitazawa、Koichi Ikeda、Junji Uchino 等人完成。作者主要隶属于 日本国立医院机构京都医疗中心、名古屋医疗中心、大阪国立医院及相关外科与麻醉科。该研究聚焦于老年髋部骨折患者术后谵妄(Postoperative Delirium, POD)的预测问题,谵妄是此类患者最常见的并发症之一,严重影响恢复进程与长期预后。传统风险评估模型因变量有限且假设线性关系,预测能力不足。为此,研究团队基于多中心临床数据,采用机器学习方法构建并验证高精度预测模型,旨在为术前风险分层与围手术期干预提供更为科学的工具。
01 摘要
肝细胞癌(HCC)超声筛查面临着与准确性和放射科医生工作量相关的挑战。这项回顾性多中心研究评估了四种人工智能(AI)增强策略,使用了来自11,960名患者的21,934张肝脏超声图像,以提高HCC超声筛查的准确性并减少放射科医生的工作量。UniMatch用于病灶检测,LivNet用于分类,在17,913张图像上进行了训练。在测试的策略中,策略4将AI用于检测和分类阶段的阴性病例的初始检测和放射科医生评估相结合,表现优于其他策略。它不仅与原始算法的高灵敏度相匹配,(0.956 vs. 0.991),但特异性也有所提高(0.787 vs. 0.698),将放射科医生的工作量减少了54.5%,并降低了召回率和假阳性率。这种方法展示了人类与人工智能合作的成功模式,这不仅提高了临床结果,而且通过最小化召回和假阳性来减轻不必要的患者焦虑和系统负担。
02 研究背景
研究难点
病因复杂性:术后谵妄(POD)受多种因素影响,包括人口学特征(高龄、性别)、合并疾病(心血管病、糖尿病、慢性肾病)、实验室指标、麻醉方式及手术变量等,各因素之间存在非线性和交互效应,传统线性模型难以全面捕捉。
多中心数据异质性:研究数据来源于不同医疗中心,存在变量分布差异、记录方式不一致以及样本群体差异,给模型的稳健性和泛化能力带来挑战。
类别不平衡问题:POD 的发生率相对有限,样本在有无谵妄间高度不平衡,若不加处理,预测模型易偏向多数类(无谵妄),降低高危患者的识别率。
模型可解释性:临床应用不仅需要高性能预测,还需具备可解释性,以便医生理解风险因子及预测依据,从而增强对模型的信任和推广应用的可行性
03 模型设计
去标记(De-markers)模块:先用 DeepLabv3+ 精准分割超声测量标尺等标记区域,再用 Mask-Aware Transformer(MAT)做修复填充,去除可能干扰检测与分类的标记信息,降低训练与评估偏倚。
病灶检测(UniMatch):半监督语义分割框架,编码器用 ConvNeXt,解码器为 ASPP;对无标注样本在图像与特征两层面加入扰动(弱增强/强增强 + 通道丢弃),以一致性损失约束,提升对噪声与形变的鲁棒性。
病灶分类(LivNet):多专家混合架构,将 ConvNeXt、CSWin Transformer、Hiera 的特征通过四类“专家”融合:
1)普通专家(GAP+FC);2)局部专家(可变形卷积提取细粒度纹理);3)全局专家(并联 Cross-Self Attention,同步建模同一骨干内部自注意与跨骨干相关性);4)多尺度专家(FPN 融合多层语义)。最终以可学习权重做决策级加权融合。
04 实验设置
数据来源与入排标准:多中心回顾性队列(8 家医院,2014–2022),高危人群超声筛查影像,经质控去除低质图像/同图共存良恶性等情形。最终用于策略评估的测试集 4021 张图像/2069 例筛查;训练检测的影像 17,913 张;训练分类的影像 11,244 张。
去标记流程质检:所有训练与测试影像先经 De-markers,两阶段模型推理后由放射科医师复核,确保标记移除无误。
评价指标:检测与分类分别评估灵敏度、特异度、准确率、AUC;对筛查流程再比对召回率、假阳性率、工作量(需医师阅片的图像数)。统计学采用 DeLong、卡方/秩和、Bonferroni 校正等。
四种“人-机协作”策略(与“原始算法:全由医师读片并按≥1 cm 召回”对照):
S1:纯 AI(UniMatch 检测 + LivNet 分类后定召回);
S2:AI 分诊 + 医师复核“检测阴性”,有病灶者交 LivNet 分类;
S3:AI 分诊 + 医师在 LivNet 辅助下完成分类;
S4:AI 分诊 + 医师复核“检测阴性”与“分类判为不召回”(确保分类灵敏度)。
05 结果与分析
基模型性能
UniMatch(检测):灵敏度 0.941,特异度 0.833,准确率 0.914,AUC 0.887。
LivNet(分类,阈值0.2):灵敏度 0.891,特异度 0.783,准确率 0.844,AUC 0.837。
流程层面的对比(测试集 4021 图像)
原始算法:AUC 0.845;灵敏度 0.991;特异度 0.698;召回率 0.694;假阳性率 0.302;需医师阅片 4021(基线)。
S1(纯 AI):AUC 0.860;灵敏度 0.880↓;特异度 0.840↑;工作量 −100%(0/4021);召回率 0.570;假阳性率 0.160。
S2:AUC 0.865;灵敏度 0.900↓;特异度 0.829↑;工作量 −75.5%(986/4021);召回率 0.586;假阳性率 0.171。
S3:AUC 0.892(最高);灵敏度 0.916↓;特异度 0.869↑;工作量 +4.1%(4186/4021);召回率 0.578;假阳性率最低 0.131。
S4(推荐):AUC 0.872;灵敏度 0.956(对原始算法“非劣”);特异度 0.787(优于原始);工作量 −54.5%(1829/4021);召回率 0.636;假阳性率 0.213。综合在保持高灵敏度的前提下,显著降低工作量与误召回。
不确定性(熵)分析:S3 与 S4 在“错误样本”上的熵更高,体现为降低过度自信而不损害总体准确性;在高确定性(熵<0.1)情形下,S3/S4 的错误率低于 S1/S2,可靠性更优。
亚组(病灶大小)
<1 cm:S4 灵敏度 0.833,在小病灶敏感性方面优于或不劣于其他策略,但特异度略低(0.702)。
≥1 cm:S4 灵敏度 0.957 为最高,但特异度 0.528 低于 S1–S3;适合作为“高敏感、有人复核”的工作流角色。
06 结论
本研究基于多中心大规模超声筛查数据,提出了 去标记 + 病灶检测(UniMatch)+ 病灶分类(LivNet) 的完整 AI 筛查框架,并探索了多种人机协作策略。在 4021 张真实超声筛查图像的测试中,AI 模型单独使用时虽能显著降低工作量,但存在灵敏度下降的风险;而在人机协作模式下,特别是 S4 策略(AI 分诊 + 医师复核检测阴性和不召回病例),能够在保持与人工读片相当的高灵敏度(0.956)的同时,将医师工作量减少 54.5%,并显著改善特异度和假阳性率。研究表明,合理设计的人机协同流程可以在保证早期肝癌筛查灵敏度的前提下,提高筛查效率与准确性,为临床提供更具可行性的 AI 辅助策略 。
07 论文评价
✅方法创新亮点
创新性:首次提出了“去标记 + 半监督检测 + 多专家混合分类”的全流程 AI 模型,避免了超声标尺对训练和推理的干扰。
多中心大样本:来自 8 家医院、覆盖 2014–2022 年的真实筛查数据,结果更具临床代表性。
流程设计全面:不仅比较了 AI 模型的性能,还设计了四种人机协作策略,模拟了真实筛查工作流的多种场景。
性能均衡:推荐的 S4 策略在维持高灵敏度的同时,显著降低工作量和误召回率,兼顾了安全性与效率。
可解释性:通过熵分析评估了模型预测的确定性,验证了 AI 协作在降低过度自信和提高可靠性方面的价值。
⚠方法不足
回顾性研究,基于历史数据回顾性分析,缺乏前瞻性临床试验的验证,对 <1 cm 的小病灶,虽然 S4 策略表现较好,但整体特异度仍有限,可能导致部分误判,仅限于中国 8 家医院的高危人群,泛化能力在其他国家或普通人群中尚未验证。
08 参考资料
Article:
doi.org/10.1038/s41746-025-01892-9

