本文题为《Multi-Scale Adaptive Graph Learning Based on Multi-Wave EEG Data for Dementia Diagnosis》,由Jiaxin Wei、Bin Jiao、Hanhe Lin、Xu Tian、Lu Shen、Jin Liu等共同完成,作者单位包括中南大学计算机学院生物信息学湖南省重点实验室、中南大学湘雅医院神经内科、邓迪大学科学与工程学院、新疆大学软件学院大数据与智能软件新疆工程研究中心,发表于《Big Data Mining and Analytics》。该研究针对基于脑电图的痴呆症诊断中样本量少导致现有方法性能不佳的问题,提出了一种基于多波段脑电图数据的多尺度自适应图学习(MAGLM)方法用于痴呆症诊断。
01 摘要
02 研究背景
一、研究问题
痴呆症包含多种亚型,如AD、FTD、VCI等,部分亚型临床症状相似,易误诊,给患者带来安全风险,因此需要准确及时的诊断方法。脑电图(EEG)因能高效检测脑电生理信号被广泛应用于痴呆症诊断,但基于脑电图的痴呆症诊断存在样本量少的问题,影响现有方法的性能。
二、研究难点
1.不同脑波反映不同大脑活动,现有部分方法忽视脑波间隐藏相关性,或仅进行简单融合,对隐藏相关性探索不足。
2.由于时间、成本、技术等因素,脑电图可用样本量不足,传统数据增强方法存在计算效率低、信息丢失、难以处理复杂特征等缺点,基于GAN的方法可能难以训练且易出现模式崩溃。
3.传统基于脑电图的图学习方法多基于先验知识手动构建图,耗时费力且难以更新,且未从多个角度探索脑电图数据,对疾病理解不够全面。
三、相关工作
1、基于脑电图的痴呆症诊断方法:早期方法常忽视不同脑波间隐藏相关性,将脑电图数据作为整体分析;部分方法分别考虑不同波段特征并进行简单融合,但对隐藏相关性探索不足。
2、基于脑电图的数据增强方法:传统方法有几何变换、窗口裁剪等,但存在诸多缺点;基于GAN的方法能在更深层次捕获脑电图数据真实分布,但存在训练困难和模式崩溃问题。
3、基于脑电图的图学习方法:传统方法多基于先验知识手动构建图,存在缺陷;自适应图学习方法可自动捕获图结构,但之前的方法未从多个角度探索脑电图数据。
03 模型设计
一、总体思路
文章针对脑电图(EEG)样本量少导致痴呆症诊断性能不佳的问题,提出多尺度自适应图学习(MAGLM)方法。该方法通过提取多波段 EEG 的时域和频域特征,利用生成学习扩充样本,并构建多尺度自适应图学习模型挖掘数据关联,以提升诊断准确性。
二、模型架构
MAGLM 由三部分构成,形成“特征提取 - 数据增强 - 图学习” 的完整流程:
1、多波段特征提取 对 DELTA、THETA、ALPHA、BETA 四种脑波分别提取手工特征:
时域特征:包括 Hjorth 参数(活动性 HMP、复杂性 HCP)和样本熵(SampEn),反映脑电信号的动态特性和复杂性。
频域特征:通过傅里叶变换和 Welch 法计算绝对功率谱密度(PSD)和相对功率谱密度(RSD),体现不同频率脑波的能量分布。
2、多波段 EEG 数据增强 基于自编码器和过采样扩充样本,解决样本量不足问题:
自编码器框架:编码器将特征压缩至低维潜在空间,解码器重构特征,通过重建损失L R保证特征一致性。
过采样与重排序:在潜在空间对样本插值生成新样本,引入重排序策略和关联损失(L A)提升多样性,同时用判别器监督生成,通过对抗损失(L D)确保样本可靠性。
3.多尺度自适应图学习 融合多维度信息并构建样本关联图:
多尺度特征融合(MFF):对每个脑波并行提取多尺度特征,通过尺度注意力(s(⋅))和波段注意力(v(⋅))自适应融合,定义注意力损失(L MFF))约束稀疏性和平滑性,辅助分类器(MLP)引导特征学习。
自适应图学习(AGL):通过可学习度量函数构建群体图,用图损失(L G)约束图的稀疏性、连通性和平滑性,输入图卷积网络(GCN)进行诊断,输出分类结果。
三、优化策略
1、损失函数优化 总损失函数整合多模块损失,平衡各部分贡献:
其中, L GCN为 GCN 分类损失,L AUX为辅助分类器损失,通过多目标优化提升模型泛化能力。
2、分步训练 先训练数据增强模型,再训练图学习模型,避免两个模块相互干扰,确保增强样本质量和图结构学习的稳定性。
3、超参数调优 针对 AGL 模块的α、β、γ(分别控制稀疏性、连通性、平滑性)和损失权重
λGCN等)进行优化,特定参数组合(如α=1.2、β=1.0、γ=0.9)下模型性能最优。
4、早停策略 在图学习模型训练中设置早停阈值(50 个 epoch),防止过拟合,提高模型抗造性。
04 实验设置
一、脑电图数据收集
在中南大学湘雅医院招募191名样本,包括56名AD患者、31名VCI患者、28名FTD患者和76名健康对照组(HC),所有痴呆症样本均使用MoCA、MMSE和CDR进行评估。
同时使用一个公开数据集,包含FTD、AD和HC三类样本。
脑电图数据在特定环境下使用Nicolet EEG记录,基于国际10-20系统,采样频率为200Hz,收集四种常见脑波,记录样本闭眼休息状态下8-15分钟的连续脑电图数据。
二、脑电图预处理
使用python-mne包进行预处理,步骤如下:
1.电极定位:根据国际10-20系统定位每个脑电极通道的空间位置。
2.滤波:通过带通滤波(1-55Hz)去除高频噪声,通过陷波滤波(50Hz)去除电源干扰。
3.伪影去除:通过独立成分分析标记并去除眼动和其他伪影。
4.脑波划分:通过带通滤波分离出四种脑波。
5.时间段划分:将每个连续脑波分割为2秒的非重叠时间段。
三、实验参数与评估
1、进行k折(k=10)交叉验证实验,将数据集按受试者水平分为10个不重叠子集,每次用1个子集测试,其余9个作为训练和验证集,结果取10次测试平均值,且总体结果为五次重复实验的平均值。
2、多波段脑电图数据增强模型使用Adam优化器,学习率0.00001,自编码器潜在空间维度120,epoch数200;多尺度自适应图学习模型采用Adam优化器,学习率0.0045,最大epoch数500,采用早停策略防止过拟合,AGL模块中三个超参数α、β、γ分别设为1.2、1.0、0.9,所有实验在特定硬件和框架下进行。
05 结果与分析
一、与SOTA方法的比较
在内部数据集上,MAGLM在各项任务中始终优于所有SOTA方法,如FTD与AD诊断中准确率达88.31%,优于MNet和SpectroCVTNet;在公共数据集上,MAGLM表现出很强的泛化能力,在多个任务中优于其他方法,其成功归因于数据增强的整合及对脑波尺度、样本和认知指标间复杂关系的探索。
二、消融实验
1、数据增强模型的有效性:在FTD与AD和VCI与AD任务中,MAGLM的数据增强模型性能优于其他SOTA数据增强模型,且与无数据增强模型的MAGLM相比,提高了准确性和鲁棒性。
2、诊断模型中模块的有效性:MFF模块在两种诊断中比基线方法在准确率和AUC上有一定提升;AGL模块单独使用时性能提升不显著,但与MFF模块集成时,痴呆症诊断性能显著提高,因有效探索了不同波段、尺度和样本间的相关性。
3、不同脑波的有效性:全波段方法在FTD与AD和VCI与AD诊断中性能优于多波段和单波段方法,表明结合多个波段特征能提供更全面丰富的表征。
三、其他分析
1、不同域特征的有效性:使用单个特征的模型准确率显著低于结合多个特征的模型,结合所有时域和频域特征能提高MAGLM性能,因提供了更全面的表征。
2、超参数分析:不同损失项权重和尺度数量对模型性能有影响,特定参数设置下模型性能最佳,各损失函数有互补贡献,不同尺度数量对不同诊断任务的影响不同。
3、脑波注意力权重和脑区重要性分析:不同痴呆症诊断最有效的脑波存在差异,颞叶、顶叶和部分枕叶区域对诊断贡献较大,表明MAGLM能识别重要脑波和脑区。
06 结论
文章提出了基于多波段脑电图数据的多尺度自适应图学习用于痴呆症诊断。多波段特征提取模型进行时域和频域分析以消除冗余信息;数据增强模型扩充不足样本;多尺度自适应图学习模型捕获尺度、波段和样本三个方面的相关性,提高诊断性能。与现有SOTA方法的比较证明了该方法的优越性,且讨论了模块有效性、超参数选择及有效脑波和区域的发现,该方法不仅能有效利用不足的脑电图数据诊断痴呆症,还为相关脑科学研究提供了经验。
07 论文评价
✅方法创新亮点
1. 数据增强模型:提出了在潜在空间进行过采样的数据增强模型,能有效扩充不足样本,且相比其他方法更具优势,如需要更少训练样本、不易出现模式崩溃等。
2. 多尺度特征融合模块:设计了多尺度特征融合模块,并行提取每个脑波的多尺度特征,通过注意力机制融合特征,能获取丰富的痴呆症相关表征,提高诊断性能。
3. 自适应图学习模块:提出了自适应图学习模块,通过可学习的度量函数构建群体图,并用GCN进行诊断,能捕获样本间隐藏相关性,且相比传统手动构建图的方法更具灵活性和可扩展性。
⚠方法不足
本研究仍存在一定局限性。首先,手工特征不能完全捕获原始数据的非线性高阶相互作用和非平滑特性;其次,仅使用脑电图一种模态,异质医疗数据可提供更多互补信息;另外,研究考虑的痴呆症亚型不全面,可能影响在临床中对其他亚型的识别性能。
08 参考资料
Article:
DOI: 10.26599/BDMA.2025.9020015
图文:牛晴晴
编辑:牛晴晴
审核:吴朝

