大数跨境
0
0

深入分析多模态表征坍塌现象

深入分析多模态表征坍塌现象 汇智灵曦
2025-10-31
1
导读:本文介绍了跨模态多义性干扰的存在、秩瓶颈的作用机制、基重分配的解纠缠和去噪效应,以及在实际应用中处理缺失模态的卓越性能。这些实证证据共同支持了研究提出的关于模态崩溃的机制性理论,并证明了EBR作为一种



背景


在多模态学习领域,一个令人困惑的现象逐渐引起研究者们的关注:尽管模型被设计用于融合多个模态的信息,但在实际训练过程中,这些模型往往只依赖于部分模态,而完全忽略其他模态。这种现象被称为模态崩溃(modality collapse),已在多种融合策略中被观察到。模态崩溃带来的最直接问题是,当测试时某些模态缺失,而模型恰好依赖于这些缺失的模态时,整个系统可能完全失效。


此前的研究主要基于先验猜测来解释这一现象,例如归因于梯度冲突或数据分布与融合策略之间的交互作用。然而,这些解释缺乏从学习理论角度的深入分析。现有的缓解方法虽然在某些场景下有效,但由于缺乏对根本机制的理解,这些方法的设计往往基于经验而非理论指导。更重要的是,多模态学习中的许多失效模式可能以意想不到的方式发生,而这些方式尚未被充分探索。


从神经网络的底层机制来看,多义性神经元(polysemantic neurons)——即单个神经元同时编码多个特征的现象——在单模态场景中已有研究。同时,神经网络的低秩简化偏好(low-rank simplicity bias)也被认为是影响模型学习动态的关键因素。然而,这些理论工具尚未被应用于解释多模态学习中的失效模式。将这些机制性理论与多模态融合的实践结合起来,有望揭示模态崩溃背后的深层原因。




摘要


本研究旨在从根本上理解模态崩溃现象,建立了一套基于多义性神经元和低秩简化偏好的机制性理论。研究发现,当一个模态的噪声特征通过融合头中的共享神经元与另一个模态的预测性特征纠缠在一起时,就会发生模态崩溃。这种纠缠实际上掩盖了前者预测性特征的正向贡献,最终导致该模态被忽略。


理论分析进一步证明,跨模态知识蒸馏能够通过释放学生编码器中的秩瓶颈来隐式地解开这种表征纠缠。这一过程对融合头的输出进行去噪,同时不会对任何模态的预测性特征产生负面影响。基于这些发现,研究提出了一种名为显式基重分配(Explicit Basis Reallocation, EBR)的算法,通过明确的基向量重分配来防止模态崩溃,并可应用于处理缺失模态的场景。


图1:子最优解与优化路径示意图


在多个多模态基准数据集上的广泛实验验证了理论预测的准确性。实验结果表明,EBR在处理测试时缺失模态这一最具挑战性的场景中达到了最先进的性能,证明了该算法对模态崩溃的鲁棒性。


论文地址:https://openreview.net/pdf?id=Vf9f7eNX6T




方法




1

任务设定与理论框架


研究遵循通用的多模态融合设定:来自多模态分布的样本首先通过一组可学习的模态特定编码器进行独立编码,随后通过可学习的融合算子进行融合。具体而言,对于包含m个模态的样本,每个模态首先由对应的编码器处理,然后由融合算子φ将这些编码组合成统一的表征,最后通过分类头g产生最终预测。这一框架的优势在于其对融合策略的无关性,使得理论结果具有广泛的适用性。




2

多义性与跨模态纠缠


研究首先建立了跨模态多义性碰撞的理论。引理1证明,随着模态数量的增加,编码来自不同模态特征的多义性神经元比例以二次方式增长。这意味着在融合头中,越来越多的神经元需要同时处理来自多个模态的信息,使得独立控制单个模态的贡献变得困难。


为了刻画特征之间的相互作用,研究引入了共轭特征(conjugate features)的概念。共轭特征指的是在同一模态中共存的一对特征,其中至少一个具有预测价值,但它们在联合考虑时会在语义上相互抵消。这种抵消效应正是导致模态崩溃的关键机制。


定理1(干扰定理)形式化了这一机制:当跨模态多义性碰撞增加时,具有预测价值的共轭特征对任务损失减少的贡献比例下降。在极限情况下,这些特征对损失函数的梯度贡献趋于零,意味着该模态在优化过程中被边缘化。这一理论结果揭示了模态崩溃的根本原因——不是因为某个模态本身缺乏信息,而是因为其预测性特征与噪声特征在神经网络中的不当纠缠。


图2:有无特征干扰的多义性对比图




3

秩瓶颈机制


研究深入探讨了为什么会出现跨模态多义性纠缠。引理2证明,在随机梯度下降(SGD)的迭代过程中,梯度更新倾向于被限制在一个低秩流形上,这个流形的秩与平均梯度外积(AGOP)的秩成正比。这一观察揭示了神经网络的低秩简化偏好在优化过程中的具体表现。


基于秩瓶颈的存在,定理2(多义性瓶颈)建立了一个重要的收敛上界。该定理表明,当每个特征提供的条件交叉熵减少量相同时,任何权重子空间与平均梯度外积之间的距离可以由该子空间的多义性程度界定。更关键的是,这个上界随着多义性程度的增加而变紧,意味着SGD更倾向于参数化那些具有高多义性的神经元。


这一结果解释了为什么预测性-噪声型的跨模态多义性神经元容易出现:它们在所有跨模态多义性神经元中秩最低,因此最先被低秩简化偏好所青睐。然而,一旦这类神经元被学习,噪声特征就会干扰预测性特征的作用,最终导致模态崩溃。优化过程陷入了一个次优解——任何沿纠缠维度的移动都会导致一个模态的去噪和另一个模态预测性特征的遗忘。




4

知识蒸馏释放秩瓶颈


研究发现,跨模态知识蒸馏提供了一种隐式的解决方案。定理3(动态收敛界)证明,当融合算子的输入在某种距离度量下变得动态(例如通过跨模态知识蒸馏对齐单模态表征时),权重子空间与平均梯度外积之间的距离上界会发生变化。具体而言,当不同模态的表征在距离度量下相互接近到某个邻域内时,这个上界会由一个常数控制,而不再受多义性程度的紧密约束。


这一理论结果的直观解释是:知识蒸馏通过使学生模态的表征向教师模态对齐,实际上进行了隐式的去噪。随着表征之间的距离减小,融合头中单义性神经元的比例增加,从而释放了秩瓶颈。这允许噪声特征被分配到独立的维度,融合算子可以利用这些维度对输出表征进行去噪,最终使所有模态的预测性特征都能被完整纳入而不受噪声干扰。


图3:秩瓶颈与基重分配的示意图




5

显式基重分配算法


虽然知识蒸馏能够通过释放秩瓶颈来促进独立去噪,但这一过程是隐式且缓慢的。为了更系统和高效地解决问题,研究提出了显式基重分配(EBR)算法。EBR的核心思想是将知识蒸馏过程中观察到的解纠缠和去噪动态作为归纳偏置,通过显式的机制实现。


EBR的设计非常巧妙且实现简单。所有修改都限制在单模态编码器层面,不改变融合算子,这确保了算法对融合策略的无关性。具体而言,在每个模态特定编码器之上引入一个简单的编码器-解码器头,使得单模态编码可以表示为。同时引入一个模态判别网络,训练其根据来预测模态标签。


算法联合优化两个目标:模态判别损失和语义损失。关键的更新策略是:判别网络通过最小化来学习区分不同模态;编码部分通过最大化(同时最小化)来学习模态不变的表征;解码器仅优化语义损失。这种对抗训练机制促使所有模态在潜在空间中相互接近,实现了定理3中描述的显式解纠缠。


理论依据方面,通过最大化将所有模态带入定理3指定的邻域内,实现了噪声特征与预测性特征的显式解纠缠。对抗更新持续进行直到多模态预测损失下降,这确保了可识别的潜在因果因子和模态特定的语义相关特征得以保留。通过投影回原始维度,得到去噪后的表征,该表征利用的完整输出基来表示模态的预测性特征,从而提高了单义性。




实验


1

数据集与实验设置


实验在两个多模态基准数据集上进行:MIMIC-IV和avMNIST。MIMIC-IV是一个大规模电子健康记录数据集,包含约18万患者在43万次ICU入院期间的信息。


实验使用临床笔记、实验室检查值、人口统计学信息、诊断、治疗过程和药物作为输入模态,任务是预测患者的死亡率(出院后90天内是否死亡)和再入院率(出院后15天内是否再次入院)。avMNIST数据集包含1500个图像和音频样本对,任务是从0到9预测输入数字的标签。


实验采用MUSE作为多模态基线,并选择Tian等人提出的方法作为跨模态知识蒸馏算法。EBR中的判别网络采用两层MLP(隐藏层维度为512和256),编码器h和解码器也采用两层结构(h的维度为1024和512,为512和1024)。模型训练1200个epoch,初始学习率为0.01。


2

跨模态多义性干扰验证


第一组实验验证了关于跨模态多义性干扰的理论(引理1和定理1)。实验通过研究在融合过程中被消除的模态对应的单模态编码器对语义损失最小化的影响来进行。设计了两个对比条件:多模态前缀(仅通过融合头接收梯度更新)和单模态基线(额外直接优化单模态语义损失)。


图4:随模态数量增加的语义损失曲线


实验结果清晰地展示了理论预测。随着模态数量增加,多模态前缀的语义损失与单模态基线之间的差距不断扩大。这种差距的产生是因为通过融合头反向传播的梯度受到秩约束,迫使多模态前缀对本应单义性表示的特征进行分数容量分配,使得预测性特征更难解码。相比之下,单模态模型直接最小化自身的语义损失,几乎不存在跨模态干扰,能够成功进行必要的容量分配。这一观察完美契合了引理1和定理1的结论。


3

秩瓶颈的存在性


第二组实验通过考察多模态表征的秩与强制模型纳入被崩溃模态所需的上权重β之间的关系,来验证跨模态多义性干扰与神经网络低秩简化偏好之间的联系(引理2和定理2)。


图5:多模态秩和表征相似度图


实验结果揭示了一个引人注目的现象:在默认设置下,随着β值增加,多模态秩快速下降,特别是在临界点(β=4)附近表现出相位转变特征,秩值跌至低于单模态基线。这是因为当模型被迫纳入更多该模态的特征时,它不得不从已经学习的多义性子空间中选择(大部分是噪声)特征。由于这些特征以多义性方式表示,其秩远低于单义性表示。然而,当通过知识蒸馏或EBR释放秩瓶颈后,这种秩衰减现象消失,强有力地证明了秩瓶颈导致的跨模态多义性干扰正是模态崩溃的根源。


4

基重分配的有效性


第三组实验全面测试了基重分配机制(无论是通过知识蒸馏的隐式方式还是通过EBR的显式方式)在释放秩瓶颈、打破跨模态多义性干扰并最终避免模态崩溃方面的效果。


秩与多模态表征的相似度分析表明,使用知识蒸馏和EBR时多模态表征始终保持更高的秩,其中EBR相对于知识蒸馏提供了更强的缓冲来抵抗临界点附近的秩衰减。表征相似度分析显示,最强和最弱模态的表征都能更一致地与多模态表征对齐,表明基重分配使多模态表征真正使用了所有模态的信息。


图6:语义损失最小化对比图


优化动态分析显示,使用基重分配策略能够改善整体损失最小化效果。使用隐式知识蒸馏时,SGD倾向于先学习噪声性的多义性神经元,然后释放秩瓶颈进行去噪,导致损失轨迹中出现多个阶梯状结构,可能对应于鞍点几何结构。而EBR将这些可能存在鞍点的景观平滑为更凸的邻域,提供更快的收敛和更一致的优化动态。


图7:不同噪声率下的性能对比


去噪效应实验通过在训练过程中对最弱模态添加不同比例的随机均匀噪声来验证定理1的预测。结果表明,除非显式处理,现有最先进模型在噪声率增加时性能显著下降。由于基重分配释放了秩瓶颈,新的维度可被SGD用于去噪。EBR通过对抗训练来优化,使去噪过程显式化,提供了更强的噪声鲁棒性。


表1:使用知识蒸馏/EBR主干的性能对比


融合策略独立性验证通过将多个最先进多模态模型的单模态编码器替换为知识蒸馏或EBR的对应版本来进行。结果表明,无论融合策略如何,简单的替换就能获得开箱即用的测试性能提升,证明了研究结果的通用性。


5

推理时缺失模态处理


最后一组实验评估了EBR在处理推理时缺失模态这一最具挑战性场景中的应用。基于通过EBR获得的潜在因子可识别性,研究设计了一个替代策略:首先根据潜在编码的成对相似度对模态进行排序;当测试样本的模态i缺失时,选择排序列表中最接近的模态j作为替代候选;计算的代理单模态编码为


表2:MIMIC-IV不同缺失率下的平均性能对比


实验采用MUSE的设置,在MIMIC-IV数据集上以{0.1, 0.2, 0.3, 0.4, 0.7}的概率掩盖模态,计算这些缺失率下的平均值和标准差。结果显示,EBR在死亡率和再入院预测的AUC-ROC和AUC-PR指标上相比最先进方法提升了约3%。这一显著提升证明了通过显式基重分配和基于EBR潜在空间的替代策略,能够有效处理推理时的模态缺失问题。


表3:avMNIST不同缺失率下的性能对比


在avMNIST数据集上的实验同样验证了方法的有效性。跨多个缺失率,EBR始终优于包括最新的ShaSpec和MUSE在内的所有基线方法,进一步证实了算法的鲁棒性和普适性。


综合所有实验结果,研究从多个角度验证了理论预测:跨模态多义性干扰的存在、秩瓶颈的作用机制、基重分配的解纠缠和去噪效应,以及在实际应用中处理缺失模态的卓越性能。这些实证证据共同支持了研究提出的关于模态崩溃的机制性理论,并证明了EBR作为一种系统化解决方案的有效性。

【声明】内容源于网络
0
0
汇智灵曦
汇智灵曦数字科技以“智赋医疗,研以致用”为理念,致力于通过AI技术推动医疗健康数字化转型。公司聚焦医疗场景需求,打造了包含深度问数、汇智查房等医疗AI产品,为医疗机构提供从临床决策到科研创新的全链条解决方案,大幅提升诊疗质量与科研效率。
内容 31
粉丝 0
汇智灵曦 汇智灵曦数字科技以“智赋医疗,研以致用”为理念,致力于通过AI技术推动医疗健康数字化转型。公司聚焦医疗场景需求,打造了包含深度问数、汇智查房等医疗AI产品,为医疗机构提供从临床决策到科研创新的全链条解决方案,大幅提升诊疗质量与科研效率。
总阅读31
粉丝0
内容31