为了解异质性精神障碍的复杂性质,科学家和临床医生需要采用广泛的临床、内表型、神经影像、基因组和环境数据,以理解精神疾病的生物学机制,然后才能将这些知识应用于临床环境。机器学习 (ML) 是一个自动化过程,可以从大型多维数据集中检测模式,并且由于它能检测线性和非线性关系,因此可以取代传统的统计方法。基于这一优势,ML有潜力增进我们(对精神障碍)的理解,改善其诊断、预后和治疗。本篇综述深入探讨了在精神病学研究和临床实践中应用ML模型时遇到的挑战,并为其提供了实用指导。这些挑战包括维度灾难、数据质量、“黑盒”问题、超参数调整、外部验证、类别不平衡和数据代表性。在精神病学背景下,这些挑战尤为关键,因为研究人员预计将在ML模型开发和部署阶段遇到它们。我们详细介绍了有效缓解上述挑战的实用解决方案和最佳实践。这些建议有潜力提高精神病学中ML模型的可靠性和可解释性。本文发表在European Neuropsychopharmacology杂志。
(可添加微信号19962074063或18983979082获取原文,另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布,另思影提供本文相关的机器学习,人工智能数据分析服务与课程,感兴趣可联系,直接点击,即可浏览):
数据处理业务介绍:
关键词:机器学习 挑战 精神病学
1. 引言
机器学习 (ML) 是人工智能的一个子集,专注于开发能够学习的计算机系统,这些系统通过在数据集中找到模式,并基于最大概率做出有根据的猜测,而无需被显式编程来执行此操作 (Panat and Kumar, 2023)。当研究人员需要在具有高维数据的大型数据集中识别模式和关系时,以及当需要评估大量数据以预测或推荐结果时,ML有潜力发挥作用 (Panat and Kumar, 2023)。ML开发和验证的典型步骤如图1所示。重要术语在文中首次使用时会带下划线,并在术语表(表1)中进行了解释。
图 1. 描述机器学习模型开发和验证的流程图
机器学习模型开发包含几个不同的步骤:(1) 该过程以最小化的数据清理开始,其中根据预定义的阈值排除缺失数据。清理后的数据集随后被分为 (2) 训练集(包含60–80%的数据)和 (3) 测试集(包含剩余40–20%的数据)。(4) 训练集会经历一个迭代的特征工程过程,该过程涉及对描述性特征(用于预测的输入数据)进行实验和测试,直到获得最佳的特征形式。(5) 一旦训练集被精炼,测试集中的描述性特征将经历与训练集中描述性特征相同的转换。(6) 超参数调整是一个迭代过程,在 (7) 交叉验证期间,于单独的验证训练子集上执行。(8) 一旦找到最优或最佳的超参数集,该过程即告结束。(9) 优化后的机器学习模型随后使用训练数据进行拟合,以生成一个训练好的模型。(10) 训练好的模型使用单独的独立测试集进行验证。(11) 模型的性能使用适当的指标进行评估。如果模型表现不佳,则会对其进行修订以提高其性能。
表 1. 术语表
术语 Term |
翻译 Translation |
定义 Definition(中文) |
|---|---|---|
Accuracy |
准确率 |
分类器正确识别实例的比例。 |
Area under the receiver operating characteristic (AUROC) curve |
ROC 曲线下面积(AUROC) |
一种整体区分能力的指标,用来将 ROC 曲线量化为便于不同模型比较的分数。ROC 曲线绘制真阳性率与假阳性率的关系。完美分类器 AUROC=1,随机分类器=0.5。 |
Classification |
分类 |
一种监督学习问题,目标是根据描述性特征预测类别标签。二分类中常称为“阳性”和“阴性”。 |
Clustering |
聚类 |
基于相似性将未标注的数据点进行分组。 |
Cross-validation |
交叉验证 |
用于创建训练集和验证集,以进行超参数调优的技术,如 k 折交叉验证。 |
Descriptive features |
描述性特征 / 输入特征 |
用于预测或分类的输入数据,即特征。 |
Dimensionality reduction |
降维 |
将原始高维数据压缩为低维、特征更少的矩阵。 |
False negative |
假阴性 |
测试集中阳性实例被错误分类为阴性。 |
False positive |
假阳性 |
测试集中阴性实例被错误分类为阳性。 |
Feature engineering |
特征工程 |
通过处理、转换特征减少维度或提升模型性能。 |
Generalisability |
泛化能力 |
模型基于学习到的特征关系,在新数据上做出正确预测的能力。 |
Hyperparameter |
超参数 |
在训练前设定、训练过程中保持不变的算法参数,通常依数据集不同而不同。 |
Mean absolute error |
平均绝对误差(MAE) |
回归模型性能指标,表示绝对误差的平均值。 |
Mean squared error |
均方误差(MSE) |
回归模型指标,表示预测值与真实值差值平方的平均值。 |
Noise |
噪声 |
错误数据、不相关变量或与目标无关的变量。 |
Overfitting |
过拟合 |
模型在训练集拟合过好,但在未见数据上泛化差。 |
Precision |
精确率 |
模型预测为阳性中真正为阳性的比例。 |
Redundancy |
冗余 |
两个或多个变量高度相关时出现的问题。 |
Regression |
回归 |
一种监督学习问题,目标是预测数值型结果。 |
Root mean square error |
均方根误差(RMSE) |
回归指标,为误差平方平均值的平方根。 |
Sensitivity |
敏感性 / 真阳性率(召回率 Recall) |
被正确识别为阳性的真阳性比例。 |
Sparsity |
稀疏性 |
特征大部分为零值,高维数据中常见。 |
Specificity |
特异性 / 真阴性率 |
被正确识别为阴性的真阴性比例。 |
Target feature |
目标特征 |
模型训练要预测的分类或数值变量,也称输出或结果变量。 |
Test set |
测试集 |
用于测试模型泛化误差的数据子集。 |
Training set |
训练集 |
用于训练模型的数据子集。 |
True negative |
真阴性 |
测试集中阴性实例被正确识别为阴性。 |
True positive |
真阳性 |
测试集中阳性实例被正确识别为阳性。 |
Validation set |
验证集 |
训练过程中用于超参数调优、估计预测误差以选择模型的数据子集。 |
ML模型为加强并可能转变精神障碍的干预措施提供了机会 (Fakhoury, 2019)。不同生物和环境风险因素之间复杂的相互作用,以及各种精神障碍在机制层面和结果层面的内在异质性,使得识别因果机制变得困难 (Dwyer et al., 2018)。应用ML的优势在于它适用于检测数据集中难以用传统统计方法以相同方式研究的线性和非线性关系 (Madakkatel et al., 2021; Nisbet et al., 2018)。ML的另一个优势是它提供了一种无假设的方法来检测数据集中的模式。这可以为了解现象带来新的见解,因为它可能解释了使用传统统计方法分析时可能被忽视的未知或未识别因素。尽管ML模型和统计方法有不同的目的,前者侧重于做出准确的预测,而后者旨在推断变量之间的关系,但ML模型因其强大的预测能力和对精准精神病学的泛化能力而在精神病学领域引起了越来越大的兴趣 (Chen et al., 2022; Rajula et al., 2020)。
传统的统计方法基于对变量的先验选择,并且可以检测主要变量和单个潜在混杂因素之间的相互作用。另一方面,ML模型可以检查大量的潜在预测因子;因此,避免了事前的先验选择 (Rajula et al., 2020)。尽管依赖强先验假设的方法能更好地理解变量之间的关系,但如果关于某个现象的可用知识有限,或者如果影响该现象的重要因素在分析中未被考虑,先验选择就可能成为问题。此外,仅靠传统统计分析辅助的人脑无法吸收和整合精神病学研究中可用的、不断增长的海量异质性数据,例如临床、内表型、神经影像、基因组和环境数据。随着电子健康记录 (EHR) 的广泛应用,例如在欧洲健康数据空间 (European Health Data Space) 下 (Marcus et al., 2022),这些预测模型将变得更加有用。ML模型总体上有潜力使EHR系统更加灵活,并可以为医疗服务提供者提供分析和风险预测 (Knevel and Liao, 2023)。
ML的另一个优势是它能够帮助临床医生和研究人员解决异质性问题。异质性指的是这样一个问题:在某一个体子集中,不同的因果机制可能与同一障碍相关联,而在另一个子集中则不然 (Feczko et al., 2019)。许多精神障碍在生物学特征上大量重叠。这表明在定义某个障碍存在与否方面缺乏清晰的界限。考虑异质性可以显著增进研究人员对此类障碍的理解 (Varol et al., 2017)。半监督ML算法,如HYDRA和CHIMERA,已被证明有助于处理精神病学研究中的解剖学和遗传学异质性 (Chand et al., 2022; Honnorat et al., 2019; Lalousis et al., 2022; Varol et al., 2017)。例如,Honnorat等人 (2019) 使用CHIMERA聚类算法,能够区分出三种不同的精神分裂症亚组。在另一项研究中,Lalousis等人 (2022) 能够使用HYDRA方法,将新近发作的抑郁症和新近发作的精神病患者与健康对照组区分开,并基于结构MRI生物标志物衍生出聚类。研究人员识别出了两个跨诊断聚类,其中包括了数量相当的抑郁症和精神病患者,但表现出独特的临床特征。
图2说明了三种最常见的ML算法类型,以及这些算法如何应用于精神病学的示例。近期的几篇综述概述了在精神病学研究中应用ML模型的研究。Bracher-Smith等人 (2021) 进行了一项系统综述,以评估那些仅利用遗传学来预测精神障碍的ML方法研究。Chekroud等人 (2021) 综述了使用ML方法预测精神病学治疗结果的研究,包括药物、心理治疗、数字干预和神经生物学治疗。Chen等人 (2022) 概述了在精神病学中采用ML方法研究神经影像、神经调控和先进移动技术的研究。此外,研究人员还综述了ML在精准精神病学的分子表型分析和跨物种生物标志物识别中的作用 (Boeke et al., 2020; Li et al., 2022; Nasca et al., 2019; Zandvakili et al., 2019)。
图2. 三种常见的机器学习(ML)任务类型。
监督式 ML 算法在训练数据集中学习描述性特征与目标特征之间的关系,并返回一个模型,该模型能够基于描述性特征集合,对未见过的新数据预测目标特征的期望值或类别(Bartz-Beielsten et al., 2023)。监督学习用于解决两类问题:(1)分类 和(2)回归(Kelleher et al., 2020)。
无监督学习使用未标注的训练数据集来训练 ML 算法。当未标注数据被输入 ML 模型时,算法通过检视信息中的相似性和差异性来识别隐含模式与数据簇,从而生成输出。此类学习能够解决两类问题:(3)聚类 和 (4)降维(Panat and Kumar, 2023)。
半监督式 ML 算法(如(5)聚类算法)结合了监督学习与无监督学习。这类算法尤其适用于难以获得标注数据,或需要让已识别的聚类能够与标注样本可分离的情境(Panat and Kumar, 2023)。
本文的主要焦点是在数据预处理、模型优化和模型评估过程中遇到的挑战。这些挑战与精神病学领域相关,研究人员在ML模型开发、验证和部署阶段会遇到它们。在讨论这些挑战时,我们分析现有知识,为克服这些挑战提供实用建议。
2. 挑战
在ML模型开发和验证过程中应考虑的四个重要特征是可用性、可信赖性、可解释性和透明性。正如Cutillo等人 (2020) 所讨论的,这些概念对于ML在精神病学研究和临床实践中的应用至关重要。图3展示了这四个特征,并将它们与研究人员在尝试使用ML算法时面临的各种挑战对应起来。现在详细讨论这些挑战。
图3. 研究人员在尝试使用 ML 时面临的七个共同挑战与精准精神病学采用 ML 模型的四个重要特征相对应:
可用性 (Usability) 是指 ML 算法能够有效且高效地用于完成特定目标的程度。
可信赖性 (Trustworthiness) 是指评估 ML 派生的输出对于不同描述性特征和环境是否有效和可靠的能力。
可解释性 (Explainability) 是指详细说明和理解算法内部机制的能力。
透明性 (Transparency) 是指在使用 ML 算法时,有权理解描述性特征如何影响感兴趣的结果,并防止数据中存在偏倚。例如,“维度灾难”这一挑战与 ML 模型的可信赖性、可解释性和透明性相对应。处理这些挑战中的每一个的最常用方法在各自下方的方框中列出,并在正文中进行了讨论。
2.1. 维度灾难
使用多模态数据集的优势在于,每种数据类型都提供了对一种障碍的不同见解,它们共同有潜力提供对患者状况更完整、更全面的理解 (Mohsen et al., 2022)。这是因为额外的数据模态提供了更多关于当前现象的信息,理论上应该能带来更准确的预测模型 (Kelleher et al., 2020)。然而,在实践层面,大量的特征会增加数据的稀疏性、过拟合风险、噪声和冗余,并降低模型的预测能力 (Kelleher et al., 2020; Bolón-Canedo et al., 2016)。这种现象通常被称为维度灾难 (Bellman, 1957)。该术语表明,随着数据集中特征数量的增加,可能的组合数量也会增加。例如,小样本量加上大量的临床观察会导致数据点在维度空间中变得更加分散,产生没有观测值的特征空间区域 (Berisha et al., 2021; Bishop, 2006)。因此,在没有增加新数据点的情况下,向数据集中添加的每一个新特征都会导致模型预测能力的指数级下降。通常倡导的经验法则是,数据点的数量不应少于特征数量的5倍或10倍 (Bishop, 2006)。
降维(或特征工程)是一种方法,通过它可以减少数据集的原始多余维度,以创建具有较少特征的窄矩阵 (Bolón-Canedo et al., 2016)。实现这一目标主要使用两种技术:特征选择和特征提取 (Bolón-Canedo et al., 2016)。特征选择指的是选择预测性特征(即,有助于估计结果特征正确值的特征)和交互特征(即,那些与一个或多个其他特征结合后变得有信息的特征)的最小子集的过程,该子集在排除不相关和冗余特征的同时,保持模型的整体性能 (Kelleher et al., 2020)。另一方面,特征提取定义了一个通过从现有特征中派生出新特征来减少特征数量的过程,这些新特征应该具有信息量且非冗余 (Bolón-Canedo et al., 2016)。
与特征提取相比,特征选择的优势在于不会丢失关于每个特征的重要信息。但是,仍然存在信息丢失的可能,因为某些特征被排除了。在这种情况下,如果相关特征被错误地排除,或者在执行特征选择之前没有考虑到重要的特征交互,就可能发生特征丢失。当目标是识别一个适合给定问题的良好特征子集,并且特征数量多但样本量小的情况下,该技术特别适用 (Zebari et al., 2020)。
另一方面,特征提取的优势在于可以在不丢失原始特征空间信息的情况下减小特征空间的大小 (Khalid et al., 2014)。这种方法不易发生过拟合,并且在分类问题中比特征选择产生更高的准确性。然而,鉴于新特征是基于现有特征创建的,原始特征变得不可解释,并且无法在缩减前估计每个特征的贡献量 (Khalid et al., 2014)。此外,这种方法比特征选择的计算成本更高。Zebari等人 (2020) 对可用的各种特征选择和特征提取方法进行了有益的综述。
特征提取和特征选择都可以应用于精神病学以解决不同的问题。例如,对于主要兴趣领域是神经影像或临床数据的研究,特征提取可能是一种合适的方法。Chakraborty等人 (2023) 应用了一种特征提取方法来派生与阿尔茨海默病 (AD) 相关的内表型,并利用这些图像衍生的特征来寻找可能与AD相关的遗传变异。在另一项研究中,Grossi等人 (2021) 使用特征提取从代表自闭症谱系障碍EEG特征的C3–C4时间序列中提取特征。此外,特征提取还可用于处理多重共线性。特征之间的强相关性会增加复杂性,并对模型的预测能力产生不利影响,因为模型将无法确定将效应归因于哪个相关特征 (Molnar, 2022)。对几个高度相关的特征应用特征提取可以产生更少、更易于解释的成分。
与特征提取相比,特征选择可能更适合处理高维数据的研究问题(例如,临床、环境和基因组数据的组合),其目标是确定相关特征的最佳数量以预测特定结果。有多种技术可以处理此类数据;然而,这些技术通常可归为三种主要方法,即过滤法 (filter)、包裹法 (wrapper) 和嵌入法 (embedded)。过滤法检查单变量关系,并根据每个描述性特征与目标特征的相关程度对其进行评分 (Bellotti et al., 2014; Tadist et al., 2019; Walker, 2022)。包裹法和嵌入法的优势在于它们可以通过检查多变量关系来评估特征重要性。包裹式特征选择方法可以应用于不同的ML算法(例如,递归特征消除),而嵌入法仅受特定ML算法支持(例如,Lasso正则化)。然而,尽管存在这一缺点,嵌入法的计算密集度较低,因为特征选择是作为模型训练的一部分进行的 (Walker, 2022)。
在决定使用哪种降维方法之前,进行自己的研究非常重要,因为这将取决于研究目标。例如,Li等人 (2022) 应用特征选择来识别解剖学偏差,以区分健康对照受试者和BD(双相障碍)患者。特征是通过每个大脑区域的重建误差来识别的。因此,必须牢记,方法的选择将在很大程度上取决于所提出的研究问题。
2.2. 缺失数据
缺失数据会严重影响ML模型的预测性能。尽管某些ML模型(例如,基于树的模型或朴素贝叶斯模型)具有处理缺失值的特定能力,但通常建议插补或删除缺失数据。研究和理解数据集中缺失值的性质是一种良好实践。如表2所示,值可能由于多种因素而缺失,包括“完全随机缺失” (MCAR)、“随机缺失” (MAR) 或“非随机缺失” (MNAR) (Emmanuel et al., 2021)。
表2. 处理不同类型缺失数据的特定技术
缺失数据类型(Type of missing data) |
定义(Definition) |
适用的缺失值处理技术(Appropriate techniques for handling missing values) |
|---|---|---|
(MCAR)完全随机缺失 |
缺失值与已观测或未观测的数据均无关(Thomas and Rajabi, 2021)。 |
1. 删除法(成对删除、列表删除) 2. 简单插补(Simple imputation) 3. 单次插补(Single imputation) 4. 多重插补(Multiple imputation) 5. 基于机器学习的插补(ML-based imputation) |
(MAR)随机缺失 |
缺失数据依赖于已观测变量,但不依赖于未观测变量。 |
1. 成对删除(Pairwise deletion) 2. 单次插补(Single imputation) 3. 多重插补(Multiple imputation) 4. 基于机器学习的插补(ML-based imputation) |
(MNAR)非随机缺失 |
缺失值依赖于未观测的数据。 |
对此类缺失数据的处理目前无共识。 |
删除可以应用于相应的观测值或整个特征。一般的经验法则是,如果一个特征的缺失值比例超过60%,则该特征应被移除 (Kelleher et al., 2020)。如果某个参与者缺少一个或多个描述性特征的值,最简单的方法就是将该参与者从数据集中移除。这通常被称为列表删除 (listwise deletion)。然而,必须指出的是,只有当缺失数据是MCAR时,列表删除才会导致无偏倚的结果 (Musa et al., 2023)。如果数据是MAR或MNAR,列表删除可能导致观测值不平衡、信息丢失或估计有偏。此外,删除还可能导致高假阳性率和假阴性率,因为重要的实例可能被无意中移除 (Kelleher et al., 2020)。
插补的主要优点是数据得以保留;这会增加统计功效,并带来更稳健和准确的结果。然而,这种方法的缺点是它可能导致数据被错误解释。因此,建议仅在缺失值数量较少时才应用此方法 (Palanivinayagam and Damasevicius, 2023)。如果缺失值数量较多,应用插补可能导致特征的集中趋势发生显著改变,这可能在数据分析期间导致扭曲或误导性的结果。根据经验,不建议对缺失值超过30%的特征进行插补,并且尤其不适用于缺失值超过总观测值50%的特征 (Kelleher et al., 2020)。
简单插补是插补的最基本形式,它通过基于均值、中位数或众数替换缺失值来工作。这种方法仅适用于MCAR数据。然而,在实践中缺失数据很少是MCAR (Musa et al., 2023)。一种改进的插补方法,称为单一插补,它结合了来自其他变量的信息来插补缺失值(例如,回归插补),并且适用于MAR和MCAR数据 (Harrison and Pius, 2020, Musa et al., 2023)。还有更复杂的插补方法,例如多重插补 (MI) 方法和受ML启发的方法。MI通常被认为是研究中处理MAR和MCAR数据的标准方法 (Emmanuel et al., 2021; Hayati Rezvan et al., 2015; Pedersen et al., 2017)。这种方法根据已知数据和缺失数据模式来插补缺失数据 (de Goeij et al., 2013)。使用最广泛的MI方法是通过链式方程进行的多变量插补 (MICE)。MICE非常稳健,因为它可以处理不同类型的变量(二元和连续;Chowdhury et al., 2017)。Platias和Petasis (2020) 比较了单一、多重和基于ML的插补方法,发现称为missForest的基于ML的插补方法无论缺失值比例如何,都表现出一致的性能。MissForest处理MCAR和MAR数据的有效性也得到了其他研究者的支持 (Ramosaj et al., 2019; Waljee et al., 2013)。然而,Hong和Lynn (2020) 最近的一项研究发现,missForest对于非正态数据或依赖于结果的MAR,可能会产生有偏倚的结果。还有其他一些基于ML的插补方法已被证明更可靠。Ismail等人 (2022) 的一项系统综述比较了多种基于ML的插补方法,发现k-最近邻算法因其稳健性和简单性,是医疗保健领域常用的插补方法。它还被发现优于其他ML方法,如支持向量机、朴素贝叶斯和决策树。
缺失模式可以通过几种方法进行研究。一种方法是研究具有缺失值的变量之间以及具有缺失值和非缺失值的变量之间的相关性,如Musa等人 (2023) 所述,以确定缺失是否由MAR引起。另一种方法是进行Little检验,以确定缺失数据是否为MCAR(“完全随机缺失”) (Little, 1988)。然而,该检验并不表明缺失数据是MAR(“随机缺失”)还是MNAR(“非随机缺失” ),也不表明哪个变量包含MCAR数据 (Musa et al., 2023)。然而,无法确定缺失数据是否为MNAR,因此,研究人员进行敏感性分析以评估结果的稳健性非常重要,并且通过识别解释缺失概率差异的额外数据,使数据“更MAR”,以便在该数据条件下生成插补 (Harrison and Pius, 2020; Hayati Rezvan et al., 2015; van Buuren, 2018)。
2.3. “黑盒”问题
在临床环境中应用ML最突出的挑战之一是所谓的“黑盒”问题,这是指难以通过算法的初始构建和编程来解释其行为 (Wadden, 2022)。例如,Zou等人 (1996) 比较了ANNs(人工神经网络)与专家系统在辅助精神科诊断方面的有效性。尽管ML辅助的精神科诊断提高了诊断的有效性,但人们应该谨慎解释这些发现,主要是因为ANNs的决策机制无法被人类认知明确理解 (Sheu, 2020)。
可解释性是检测ML模型中偏倚的有用调试工具,因为它提供了关于哪些特征或模式导致了有偏倚结果的见解,并避免了无意偏倚的可能性。这最大限度地降低了治疗建议基于歧视性模式(例如种族)的风险 (Molnar, 2022)。
此外,可解释的模型可能有助于识别导致某种障碍病因的潜在生物学机制或该障碍特有的表型。最后,根据欧盟《通用数据保护条例》(2018),任何对人们有重大影响的决策都必须是可解释或可阐释的。建议研究人员遵循《个体预后或诊断的多变量预测模型透明报告及人工智能核查表》(TRIPOD+AI)。TRIPOD+AI是最初制定的TRIPOD 2015的扩展版本,该版本是确保全面准确报告专注于多变量预测模型开发或验证研究的指南 (参见 Collins et al., 2024)。
除了伦理问题,开发可解释或可阐释的ML模型对于克服在临床实践中对此类模型的信任和采用障碍也很重要。Tonekaboni等人 (2019) 发现,通过开发与当前循证医学实践一致且被证明可靠的ML模型,可以获得临床医生的信任。预测准确性不足的ML模型,只要能清楚说明模型表现不佳的原因,仍可能被认为是可接受的。
不同的ML模型提供不同程度的解释能力。例如,决策树往往比SVMs甚至深度神经网络更容易解释。有多种方法可用于处理ML中的可解释性问题。图4说明了一些常见的方法。Shapley加性解释 (SHAP) 是一种广泛使用且具有成熟理论基础的模型无关 (model-agnostic) 方法的例子。其总体思路是确定每个特征对模型输出的贡献程度。Shapley值是通过在所有可能的条件下平均一个特征值的边际贡献来计算的。它既可以应用于分类问题,也可以应用于回归问题。局部可解释模型无关解释 (LIME) 是另一种模型无关工具,它假设预测模型的行为是线性的,但缺乏对为何这一假设有效的理论论证。其主要缺点是计算时间长,且不适用于特征较少的预测模型 (Molnar, 2022)。然而,Lundberg和Lee (2017) 开发的SHAP变体可以应用于特征较少的模型。还有许多其他方法可以应用 (参见 Molnar, 2022)。
图4. 机器学习模型可解释性的方法可以根据不同标准进行分类
其中一种分类是模型特定vs 模型无关。模型特定方法侧重于限制模型的复杂性,以获得更易于解释的简单结构,例如简短的决策树或稀疏线性模型 (Molnar, 2022)。在模型无关方法中,可解释性是通过在模型训练后应用分析工具来获得的。模型无关方法也可以用于本质上可解释的模型,以提高其可解释性。与模型特定方法相比,模型无关方法的主要优势在于其灵活性,因为它们可以应用于各种模型。另一种分类是局部 (local) vs 全局 (global) 可解释性。这种分类指的是该方法所假定的范围。局部层面的可解释性侧重于解释特定数据点的预测因子对感兴趣结果的贡献 (Kopitar et al., 2019; Sheu, 2020)。全局层面的可解释性是那些专注于整体预测模型决策的解释方法的特征(例如,根据特征重要性对其进行排序的工具;Hakkoum et al., 2024)。
诸如SHAP和LIME之类的工具的优势在于它们可以应用于任何ML模型,而模型特定 (model-specific) 方法则仅限于特定的模型类别。模型特定方法通常通过检查特征输入和输出对来工作,它们无法访问模型的内部结构,例如其结构信息。要检查结构信息或权重,则需要模型特定的方法 (Molnar, 2022)。
全局 (global) 方法的目标是基于对其特征和每个学习组件(例如,权重、参数和结构)的整体视图来理解决策是如何制定的 (Molnar, 2022)。当目标是评估特定预测因子与群体水平结果之间关系强度时,这种解释水平是可取的 (Sheu, 2020)。局部 (local) 解释水平更适用于目标是为特定患者量身定制的建模决策提供理由的情况。前面详述的SHAP可用于全局和局部模型解释 (Sheu, 2020)。
2.4. 超参数调整
超参数调整是构建准确模型的重要步骤,因为它们对预测准确性有重大影响。调整可定义为一项元优化任务,其主要目标是找到性能最佳的模型 (Zheng, 2015)。不同的ML模型需要调整不同的超参数。重要的是要找到最佳的超参数值,以最小化过拟合和欠拟合的影响,从而在复杂性和简单性之间实现平衡。过拟合和欠拟合都会导致低泛化性,因为模型将无法在其他独立样本中找到潜在模式。
超参数调整通常基于经验(即,在以往类似问题中有效的方法)和搜索(即,反复试验)的结合来进行。调整后的模型要么在单独的验证集上进行测试,要么在样本量有限的情况下使用k折交叉验证技术 (图5a)。k折交叉验证的目的是与单一评分相比,获得更可靠、更稳健的模型性能估计 (Russell and Norvig, 2022)。除了k折交叉验证技术,还有许多其他技术,如留一交叉验证和自助法 (bootstrapping),这些统称为非嵌套交叉验证 (non-nested cross-validation)。
图5. a) 4 折交叉验证过程的示意图。该技术首先将训练集划分为四个大小相等的子集,然后执行四轮学习。在每一轮中,将其中一个折(浅蓝色)作为验证集,其余三个子集作为训练集(Russell and Norvig, 2022)。
b) 嵌套交叉验证过程的示意图。(1) 外循环与非嵌套交叉验证相似,即将训练集划分为 k 折,其中一折用于验证,而另外三折用于模型训练。嵌套交叉验证使用 (2) 一个额外的内部交叉验证循环(即内循环),以确保用于模型选择和超参数调整的测试数据,与用于模型性能评估的测试数据(即外循环)之间具有清晰区分。内循环用于超参数调整,而外循环用于模型评估(Kernbach and Staatrjes, 2022)。
使用非嵌套交叉验证方法可能导致过拟合,因为用于模型选择和超参数调整的同一样本被用于估计模型性能。图5b所示的嵌套交叉验证 (nested cross-validation) 方法提供了更准确的性能估计,因为它将用于模型选择的子集与用于超参数调整的子集分开。此外,它们还能更好地代表大量基于噪声的特征,以及真实差异分布的低效应量。非嵌套和嵌套交叉验证方法的影响在大样本量中并不显著。然而,重要的是要注意,随着样本量的减少,这种影响会急剧增加 (Larracy et al., 2021)。Larracy等人 (2021) 比较了这两种方法在小样本量上的性能,发现非嵌套框架导致过拟合并超出了真实准确性,而嵌套框架提供了保守估计,通常低于或等于真实准确性。尽管嵌套交叉验证方法优于非嵌套交叉验证方法,但由于其方差,单次嵌套交叉验证不能用于评估最优模型的误差。因此,建议需要重复嵌套交叉验证来获得可靠的模型评估,因为它可以提供估计的区间 (Krstajic et al., 2014)。
必须指出的是,特征选择、数据降维和插补应在交叉验证框架内执行,而不是在数据进入框架之前执行,因为这可能导致数据泄露。如果在交叉验证之前进行特征选择和插补,来自测试集的信息可能会无意中泄露到训练过程中,并可能导致过度乐观的预测 (Kendale et al., 2018)。除了导致模型有偏倚外,数据泄露还限制了预测模型对新数据集的泛化性 (Demircioğlu, 2021)。正如许多评论者(Barnett et al., 2023; Kapoor and Narayanan, 2023; Shim et al., 2019; Wen et al., 2022)所认识到的,精神病学和其他学科中许多基于ML的研究未能充分解决数据泄露问题。除此之外,可能导致数据泄露的其他一些陷阱是:训练集和测试集中存在相同的个体,使用了在未见队列中无法获得的描述性特征(例如,使用抗精神病药物来预测精神病),使用未来的患者数据来预测过去或当前的结果,以及测试集中的抽样偏倚 (Kapoor and Narayanan, 2023)。
在超参数调整过程中遇到的最大挑战之一是找到值的最佳组合,每个超参数一个值 (Burkov, 2019)。可以应用不同的超参数调整方法来解决这个问题,其中手动搜索和网格搜索是最简单和最流行的 (Bartz-Beielstein and Zaefferer, 2023a)。手动搜索是一个过程,在此过程中,基于反复试验来更改参数值,直到找到使模型性能最大化的最佳配置 (Russell and Norvig, 2022)。这种方法的主要缺点是它非常耗时,并且可能导致高计算负担,因为它涉及手动调整超参数。当只有一个超参数且可能值的数量很少时,例如一个简单的k-最近邻模型,它只有一个超参数——查询附近邻居值的大小,这种方法可能是适用的 (Bartz-Beielstein and Zaefferer, 2023b; Russell and Norvig, 2022)。然而,如果模型的训练算法需要调整一组数量较少的超参数,且可能值的数量也较少,那么网格搜索可能比手动搜索更合适。网格搜索定义了一个待评估的超参数值网格。其优点是可以并行运行不同的组合,因此比手动搜索更快。然而,如果每次运行后都重新调整网格的范围,这个过程可能会变得非常繁琐且计算密集 (Russell and Norvig, 2022; Zheng, 2015)。网格搜索的一个改进版本是随机搜索方法,它随机并重复地选择超参数进行评估 (Bartz-Beielstein and Zaefferer, 2023a)。这种方法背后的想法是,如果网格上至少有5%的点产生接近最优的值,那么进行60次试验的随机搜索将会找到该区域。与前面提到的方法相比,这种方法大大减少了计算时间 (Zheng, 2015)。
除了这些经典的超参数调整方法外,还有所谓的智能超参数调整方法,它们选择性地选择超参数设置的子集,评估其质量,然后确定下一个采样点。当训练运行消耗的时间远远超过选择下一组超参数或输入值以评估ML模型性能的过程时,这些技术是适用的 (Zheng, 2015)。贝叶斯优化 (BO) 方法就是一个这样的例子,它使用过去的评估结果来选择下一次要评估的值 (Burkov, 2019)。在每次训练运行期间,代理模型(即,被优化的函数)会拟合到目前为止对目标函数的所有观测值,然后采集函数 (acquisition function) 确定用于评估的超参数集,该超参数集随后用于更新当前的“信念” (Alibhrahim and Ludwig, 2021)。BO的主要思想是在利用(exploitation,即,识别接近先前有利结果的参数值)和探索(exploration,即,试验新的、未经测试的参数值)之间进行权衡 (Russell and Norvig, 2022)。
在训练用于神经影像分类的ML模型时,BO(贝叶斯优化)将是比传统超参数调整方法更好的选择,这是一个很好的例子,因为目标是找到能提供最佳分类准确性的超参数最佳组合。Bloch和Friedrich (2021) 通过调整随机森林和XGBoost的超参数,使用磁共振成像数据来区分轻度认知障碍参与者是否会发展为AD,以此比较了BO和网格搜索,并通过交叉验证发现两种方法的分类准确性相似。然而,研究发现许多使用BO训练的模型优于应用网格搜索方法的模型。达到73%最高准确性的模型是使用BO的模型,其中初始参数是使用随机初始化建立的。
建议在超参数调整期间,对于分类问题,使用测试准确性或测试损失(即,二元交叉熵损失)来衡量模型性能;对于回归任务,则使用误差度量(例如,均方误差、均方根误差 (RMSE) 或平均绝对误差)(Bartz-Beielstein et al., 2023c)。
2.5. 外部验证
接下来的挑战是检验正在开发的预测模型在用于开发模型的原始研究样本之外的样本中可以被验证的程度。这个过程被定义为外部验证。一个只能在用于开发模型的患者数据中预测结果的模型不足以用于临床应用,因为该模型可能基于开发样本特有的、在外部队列中不存在的特征来进行预测 (Ramspek et al., 2021; Riley et al., 2016)。
然而,大多数ML研究侧重于模型开发而不是外部验证。Meehan等人 (2022) 发现,在已开发的预测模型中,只有五分之一进行了外部验证分析。导致外部验证研究数量如此之少的主要原因之一是,研究通常基于小型的、单一的、本地的数据集,这些数据集由于数据点有限而往往具有高变异性 (Riley et al., 2016)。因此,这可能导致准确性降低,并削弱模型的风险预测泛化能力,因为它们可能没有有效捕捉到特征与目标结果之间的真实关系 (Tokada et al., 2021; Yang et al., 2022)。相反,它可能识别了数据生成和处理协议中产生的相应偏倚 (Yang et al., 2022)。
实施未经外部验证的模型可能导致不适当的临床决策,这可能对各种患者结局产生不利影响。因此,建议任何开发出来的模型都应进行外部验证,以弥合预测模型的开发与实施之间的差距 (Ramspek et al., 2021)。
预测模型在外部队列上的性能可以使用不同的性能指标进行评估。分类模型的性能使用阈值、区分度和校准度等指标进行评估。为了获得阈值度量,预测模型首先需要为每位患者分配一个介于0和1之间的值,对应于该个体在规定时间段内出现感兴趣结果的风险。0、0.5和1的值分别表示0%、50%和100%的风险。可以基于预定义阈值获得的常见阈值指标包括准确性、敏感性、特异性和精确率 (Observational Health Data Sciences and Informatics OHDSI, 2021)。
重要的是要注意,这些阈值指标依赖于阈值,这意味着当阈值改变时,这些比例也会改变。阈值通常设置在0.5,这意味着值等于或大于该阈值的个体被分类为阳性,而值低于该阈值的个体被分类为阴性。将阈值设置在0.5以下可以通过增加真阳性结果的数量来提高敏感性,而将阈值设置在0.5以上可以通过增加真阴性结果的数量来提高特异性。然而,情况可能并非总是如此,因为分母不依赖于分类器阈值 (OHDSI, 2021)。然而,在现实世界的问题中,0.5的阈值通常不是最佳值。当受感兴趣变量影响和未受影响的个体数量相似时,该阈值可能是理想的。然而,如果研究者有兴趣创建一个预测模型来检查像SZ(精神分裂症)这样的病症,它被认为是常见的,但在人群中的频率仅为约0.5%,那么它在数据集中的大多数个体中将不存在。因此,由于显著的类别不平衡,研究者可能面临模型性能和实用性低下的问题 (Burkov, 2019)。解决显著类别不平衡的最直接策略之一是调整决策阈值 (Esposito et al., 2021; OHDSI, 2021)。处理类别不平衡的方法将在本综述后面详述。
另一个重要的性能指标是校准度 (calibration)。校准度评估绝对预测风险与观测风险的接近程度。有不同的校准度量。最重要的指标是校准图 (calibration plot),它评估患者亚组中预测概率与实际结果之间的一致性。该指标特别重要,因为它可以检测失校准 (miscalibration) 的模式。失校准的一个例子是模型低估了低风险患者的风险。大范围校准 (Calibration-in-the-large) 是另一个度量,它比较整个验证队列中的平均预测风险与平均观测风险。用于总结校准度的第三个度量是校准斜率 (calibration slope)。校准斜率为1表示完美校准。在过拟合模型中经常观察到低于1的校准斜率,这种模型会高估风险 (Ramspek et al., 2021)。
区分度 (Discrimination) 指标评估出现感兴趣结果的患者是否比较没有出现该结果的患者具有更高的预测风险 (Ramspek et al., 2021)。使用最广泛的区分度度量之一是受试者工作特征 (AUROC) 曲线下面积。它解释了每个算法正确分类随机样本的概率 (Sidey-Gibbons and Sidey-Gibbons, 2019)。大多数已发表的预测模型通常获得的 AUROC 曲线值在0.6到0.8之间 (OHDSI, 2021)。如果预测的结果不常见或罕见,则推荐使用称为精确率-召回率曲线下面积 (AUPRC) 的度量 (OHDSI, 2021)。AUPRC 显示了精确率和敏感性之间的权衡。Ozenne等人 (2015) 比较了这两种度量,发现当结果罕见时,AUPRC 的表现优于 AUROC 曲线,尤其是当患病率降至5%以下时。然而,由于AUPRC的局限性 (表3),当在具有不同疾病患病率值的队列之间进行比较时,应优先考虑 AUROC 曲线,因为 AUPRC 可能会导致有偏倚的结果 (Ozenne et al., 2015)。
表3. 常见的区分度指标
区分指标 |
优势(Advantage) |
局限(Limitation) |
|---|---|---|
AUROC curveROC 曲线下面积 |
能够处理疾病患病率不同的队列,或当样本中的患病率与目标人群中的患病率不一致时依然适用(Ozenne et al., 2015)。 |
在类别不平衡或预测结果非常罕见的情况下,不适合作为评价指标(OHDSI, 2021)。 |
AUPRC curvePR 曲线下面积 |
它忽略被正确分类的健康对照,重点关注预测模型识别具有特定结局个体的能力(Ozenne et al., 2015)。 |
其值依赖于患病率(prevalence-dependent measure)。 |
在回归任务中,性能指标衡量的是预测值与期望值之间的误差。回归任务最常用的指标是 RMSE(参见超参数调整部分)。该度量对大的异常值很敏感,因为它是根据实际分数与预测分数之间平均平方距离的平方根获得的。另一方面,分位数 (Quantiles) 则更稳健,因为它们不受大的异常值影响。
聚类算法的性能通过测量一个聚类内数据对象之间的相似性(即,内在度量)以及它们与其他聚类中对象数据的非相似性(即,外在度量)来评估 (Han et al., 2012)。选择一种评估指标而不是另一种,取决于目标特征的正确标签是否可用。如果标签可用,则使用外在度量。它们被认为是监督ML算法,因为聚类会与“真实情况”(ground truth) 进行比较,以评估聚类算法的性能。BCubed 精确率和召回率指标就是这样一种度量,它基于目标特征评估聚类中每个对象的精确率(即,聚类中正确识别的对象与聚类中所有对象的比例)和召回率(即,聚类中正确识别的对象与同一类别所有对象的比例)。但是,在实践中标签并不总是可用;因此,更常使用内在度量。一个性能良好的聚类将最小化簇内距离并最大化簇间距离 (Han et al., 2012)。
评估降维算法性能的一种方法是,在逆变换后测量重建误差,以评估算法在降低数据维度的同时保持数据完整性的能力。这是通过逆变换将缩减的数据集解压缩回初始维度数来实现的。下一步是测量重建误差,它是通过计算原始数据和重建数据之间的均方距离获得的。重建误差越低,算法在降维过程中保持数据完整性的能力就越好 (Geron, 2023)。
2.6. 类别不平衡
当某个类别的标记数据集代表性不足时,大多数标准分类器会偏向于较大的类别。因此,较大的类别会表现出较高的准确性,而少数类别会表现出较低的准确性。出现这个问题是由于大多数当代分类算法被设计为最大化正确预测的总数 (Lin and Chen, 2013)。
类别不平衡带来的挑战是开发一种能够为少数类别预测提供良好准确性的分类器。提高标准分类器性能的策略通常分为基于算法的方法和基于数据的方法 (Lin and Chen, 2013)。常见的解决方案是基于算法的方法(或成本敏感方法),该方法基于阈值调整,通过在搜索最佳超平面时考虑类别权重,来解释不同的错误分类成本和先验概率。重新调整决策阈值可以提高敏感性和特异性,但对模型的准确性影响不大 (Chen et al., 2006)。基于算法的方法的主要缺点是它是算法特定的,这意味着它不能应用于所有的学习算法 (Lin and Chen, 2013)。
如果学习算法不允许对类别进行加权,另一种选择是应用基于数据的方法,该方法通过对数据空间进行重采样来重新平衡训练集中的类别分布。这是通过过采样、欠采样或混合采样来完成的 (Esposito et al., 2021)。过采样是通过使一个类别的实例比另一个类别更重要来进行的,具体做法是制作代表性不足类别的样本的多个副本。进行过采样的一种方法是创建合成实例,通过随机采样少数类别的几个实例的特征值并将它们组合以获得同一类别的新实例。合成少数类过采样技术 (SMOTE) 和自适应合成采样方法 (Adaptive Synthetic Sampling method) 是用于创建少数类别合成实例的最流行算法 (Burkov, 2019)。
相反,欠采样是通过从训练集中随机移除多数类别的某些实例来进行的(即,随机欠采样 [RUS];Burkov, 2019)。欠采样方法的局限性之一是它可能移除多数案例中包含的重要信息 (Kaur and Gosain, 2018)。然而,在类别分布不均等不严重的情况下,这种方法被发现是有效的 (Blagus and Lusa, 2010)。虽然早期的研究,如Drummond和Holte (2003) 以及Chen等人 (2005),认为过采样方法更有效,但近期应用SMOTE技术与RUS进行比较的研究发现,在噪声环境和处理高维数据集时,过采样方法比欠采样更稳健 (Kaur and Gosain, 2018; Maldonado et al., 2019; Mohammed et al., 2020)。
混合采样方法通过结合欠采样和过采样方法来工作。最常用的混合采样方法是结合SMOTE和RUS的方法 (Esposito et al., 2021)。还开发了一些自动阈值程序,例如广义阈值移动 (GHOST),它可以用于任何产生概率估计的分类器。这种方法的优点是它不需要重新训练分类模型,也不会改变原始数据集 (Esposito et al., 2021)。不幸的是,目前还没有研究比较GHOST与他可用的基于采样的方法的性能。
2.7. 数据代表性
为确保预测模型能泛化到外部队列,用于模型开发的样本需要按比例代表目标人群。代表性样本被定义为目标人群的一个子集,它能准确代表目标人群的特征 (Lally and Valentine-French, 2022)。由于有缺陷的选择程序导致的抽样偏倚,可能会导致缺乏代表性 (Martinez-Mesa et al., 2016)。此类模型可能会强化系统性偏倚和歧视 (World Economic Forum, 2018)。
通过基于重要特征(例如,标签)将样本分层为同质子组(即, strata),可以获得更具代表性的样本,以确保数据集能代表整个人群 (Elder, 2009; Geron, 2023)。然而,分层并不总能减少抽样偏倚,尤其是在感兴趣的精神障碍在目标人群中出现频率很低的情况下。对于这种情况,一个更合适的方法是应用一个工具,例如数据代表性准则 (DRC),该准则量化了算法在外部队列上的泛化性。DRC主要适用于监督分类算法。它是基于Kullback-Leibler散度的比率开发的,Kullback-Leibler散度是衡量使用一个分布来近似另一个(参考)分布时信息损失的度量。Schat等人 (2020) 将DRC应用于从人脑组织分割获得的几个不同MRI数据集,发现该方法能够根据数据集的相似性确定分类器性能何时下降 (Schat et al., 2020)。
基于数据相似性评估模型性能的主要原因是,被识别为相似的数据集可能源于相同或相似的分布,而相异的数据集可能源于不同的分布。因此,对相似性的洞察可以为理解为什么预测模型在验证集上表现不佳提供有价值的指示。然而,必须强调的是,当无法可靠估计生成分布的参数时,基于参数化方法的度量(例如DRC)不能被应用 (Cabitza et al., 2021)。
3. 局限性
鉴于这个主题的复杂性,不可能非常详细地描述在ML模型开发和验证过程中可能面临的所有挑战。例如,关于“维度灾难”的部分描述了处理这个问题的两种广泛方法的优点和缺点。然而,它并没有批判性地检查或比较目前可用的不同特征选择或特征提取技术。关于这个主题的更多内容可以在其他地方找到 (Kuhn and Johnson, 2019; Tadist et al., 2019; Walker, 2022)。
缺失数据只是可能遇到的许多其他潜在数据质量问题之一。本综述没有概述数据转换。分类和连续的描述性特征在被预测模型使用之前都需要进行转换。所应用的转换类型通常取决于所使用的ML算法类型和所包含的数据类型。大多数ML模型要求描述性特征是数值型的。这可以通过创建虚拟变量来实现,这是一个将分类值的一个或多个方面转换为人工数值变量的过程。然而,有些模型可以处理自然形式的分类数据。例如,朴素贝叶斯模型会在分类描述性特征和结果特征之间创建一个交叉制表 (cross-tabulation),然后将其纳入模型的概率计算中 (Kuhn and Johnson, 2019)。
此外,本综述没有讨论如何为特定的ML模型调整超参数,也没有讨论如何选择ML算法来解决特定的研究问题。这里讨论的评估指标只是模型评估中最常用的指标,还有许多其他可用的评估指标。最后,这是一篇关于该主题的文献叙述性综述,而不是在设定时间段内对所有已发表研究的系统性综述。
4. 结论
我们在此讨论了研究人员在ML模型开发和验证过程中可能面临的潜在挑战。这些挑战包括:
维度灾难,可以应用不同的方法来减少高维数据集中的描述性特征数量。
缺失数据是临床医生和研究人员面临的共同挑战。鉴于通常很难理解数据中缺失的模式,分析中应包括敏感性分析,以评估研究结果的稳健性。
为了避免“黑盒”问题,ML模型需要是可解释的,才能用于临床环境。
超参数调整是构建准确预测模型以最小化欠拟合和过拟合影响的重要步骤。
ML模型的泛化性应在外部样本中进行检验,因为泛化性有限的模型不足以用于临床应用。
然而,模型的预测能力也可能受到其他一些因素的限制,例如非代表性样本或类别不平衡。在设计和开发ML模型时需要考虑这些挑战,以便它们在精神障碍的研究和治疗中能充分发挥其潜力。
如需原文及补充材料请添加思影科技微信:19962074063或18983979082获取,如对思影课程及服务感兴趣也可加此微信号咨询,目前全部课程均可报名且支持预存。另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布,如果我们的解读对您的研究有帮助,请给个转发支持以及右下角点击一下在看,是对思影科技的支持,感谢!
第五十九届扩散成像数据处理班(南京,11.27-12.2,新增DTI-ALPS)
上海:
第五届PET(正电子发射断层成像技术)数据处理班(上海,11.29-12.4)
第九届Surface based fMRI分析专题班(上海,12.25-29)
脑电及红外、眼动:
北京:
第十七届脑电机器学习班(Matlab版,北京,11.27-12.1)
上海:
广州:
重庆:
数据处理业务介绍:
此处给个“在看”及“点赞”,让更多朋友关注

