大数跨境
0
0

AAAI 2026 | 佛山大学:通道扰动&预训练知识的统一多模态图像融合

AAAI 2026 | 佛山大学:通道扰动&预训练知识的统一多模态图像融合 极市平台
2025-11-26
0
导读:↑ 点击蓝字 关注极市平台作者丨小蒋来源丨MIP Lab编辑丨极市平台极市导读 多模态图像融合目标在于整合异构
↑ 点击蓝字 关注极市平台
作者丨小蒋
来源丨MIP Lab
编辑丨极市平台

极市导读

 

多模态图像融合目标在于整合异构成像传感器获取的互补信息,构建更为全面、稳健的场景表征。然而,如何构建一个有效的多模态图像统一融合框架,使其既能保持跨模态泛化能力,又能捉模态特异性特征,始终是当前的研究难题。为此,本工作提出了UP-Fusion,通过引入通道扰动机制与预训练知识集成策略,在编码-调制-解码过程实现语义引导的动态适配,为构建统一多模态融合模型提供了一种有效的思路和参考>>加入极市CV技术交流群,走在计算机视觉的最前沿

论文标题:Text-Guided Channel Perturbation and Pretrained Knowledge Integration for Unified Multi-Modality Image Fusion

作者:Xilai Li(本科生), Xiaosong Li(指导老师), Weijun Jiang(本科生)

机构:佛山大学

录用信息:AAAI 2026

论文地址:https://arxiv.org/pdf/2511.12432

代码地址:https://github.com/ixilai/UP-Fusion

01 研究动机:统一模型构建中的性能-泛化权衡难题

图1.对比单编码器(TIMFusion)、多编码器(GIFNet)与本文UP-Fusion在跨任务融合中的表现

当前,基于自编码器的多模态图像融合研究可大致归类为两类架构范式。第一类基于单编码器(Single AE),通过共享特征提取器与解码器参数实现跨任务泛化。此类方法依赖持续学习或元学习策略优化权重统一性,但其本质缺陷在于缺乏显式的模态交互建模机制,导致融合结果在细节保真与结构保持上会差于专用模型。第二类采用多编码器(Multiple AE),为各模态独立设计编码分支并进行特征级联。尽管该策略能有效保留模态独特表达力,但编码器在训练过程中过度依赖模态特有特征,导致泛化性不足。

现有研究多聚焦于通过优化策略缓解决策边界冲突,较少有从特征表征层面重构统一架构。UP-Fusion提出了一种在通道维度实施动态重组与语义引导的策略,有效解决了冗余抑制、模态特异性保持与解码自适应三大核心挑战。

02 UP-Fusion的破局之道:从参数统一走向语义统一

图2. UP-Fusion的整体框架图
图2. UP-Fusion的整体框架图

UP-Fusion的核心在于,统一性不应体现为参数的机械共享,而应体现为语义理解能力的跨域迁移。该框架通过三个递进式设计,将预训练知识、几何先验与文本语义有机耦合,构建了"感知-调制-适应"的动态处理机制。

编码阶段的语义筛选:传统通道注意力机制完全依赖任务数据学习重要性权重,这在跨域场景中可能导致选择性偏差。SCPM模块的关键突破在于,引入预训练ConvNeXt模型的全局语义感知能力,为通道选择提供与任务无关的基准参考。这种设计并非简单的特征拼接,而是通过可学习参数α实现自适应加权,使先验知识既能纠正数据偏差,又不至于主导决策。

调制阶段的几何解耦:直接注入模态特征可能会导致过拟合,但完全放弃模态信息又会损失结构保真度。GAM模块的精巧之处在于只传递几何结构而非语义细节。通过全局池化与仿射变换,该模块将模态特异性编码为缩放与偏移两个宏观参数,在不增加参数量的前提下,实现了对融合特征空间分布的"轻量级"引导。这种"宏观引导、微观自由"的策略,既避免了编码器对模态细节的过拟合,又维持了跨模态的结构一致性。

解码阶段的文本重塑:最具颠覆性的是TCPM模块。传统解码器接收的是固定通道排列,这本质上是对训练数据分布的硬编码。TCPM通过文本语义驱动的通道重排索引,在推理阶段动态重组特征。这种设计超越了单一模型的能力边界,使解码器能根据任务描述(如"保留热辐射"或"强化场景对比度")灵活调整通道重要性。消融实验显示,移除该模块后医学融合性能全面崩溃,证实动态适应是泛化能力的核心支柱。

03 实验验证:单一权重下的跨域泛化能力

UP-Fusion仅在LLVIP红外-可见光数据集上训练100个周期,使用单一权重集在所有测试集上评估,充分验证其泛化鲁棒性。

3.1 定量性能分析

在MSRS、LLVIP、M3FD三大IVIF基准上,UP-Fusion在QNCIE、QP、VIF、SSIM、QAB/F五项指标上全面领先。如表1所示,在MSRS数据集上,所有指标的得分均排名第一。医学融合任务中,在哈佛医学院数据集的三个融合任务上(CT-MRI、PET-MRI、SPECT-MRI),UP-Fusion在四项指标排名第一,一项第二,显著优于其它对比方法。

表1. 不同方法在多模态融合数据集上的定量对比
表1. 不同方法在多模态融合数据集上的定量对比

3.2 定性视觉评估

图3至8展示了不同方法在多种融合任务上的视觉比较结果。可以发现,在红外与可见光图像融合任务中,其融合结果在保持红外目标显著性的同时,可见光纹理细节清晰可辨,未出现对比度损失或背景伪影。在医学影像中,所提算法有效提取了CT骨骼结构、MRI软组织纹理,颜色保真度超越多数专用方法。这种跨领域稳定性印证了通道扰动机制在消除模态标记依赖性方面的有效性。

图3. 不同方法在MSRS数据集上的融合结果
图3. 不同方法在MSRS数据集上的融合结果
图4. 不同方法在LLVIP数据集上的融合结果
图4. 不同方法在LLVIP数据集上的融合结果
图5. 不同方法在M3FD数据集上的融合结果
图5. 不同方法在M3FD数据集上的融合结果
图6. 不同方法在CT-MRI上的融合结果
图6. 不同方法在CT-MRI上的融合结果
图7. 不同方法在SPECT-MRI上的融合结果
图7. 不同方法在SPECT-MRI上的融合结果
图8. 不同方法在PET-MRI上的融合结果
图8. 不同方法在PET-MRI上的融合结果

3.3 下游任务迁移能力

融合质量的终极评判标准在于其对高层视觉任务的增益效应。语义分割实验(表2)采用BANet在MSRS数据集评估,UP-Fusion融合结果的mIoU达78.28%,较次优TDFusion提升0.14个百分点,在"Car"、"Person"类别IoU分别达90.49与73.47。目标检测实验(表3)基于YOLOv7在M3FD数据集,其mAP@0.5与mAP@[0.5:0.95]分别达到0.841与0.541,领先所有对比方法。实验结果证实,UP-Fusion不仅提升视觉保真度,更能增强特征可判别性,为感知任务提供高质量输入。

表2. 不同融合方法在MSRS数据集上的语义分割性能对比
表2. 不同融合方法在MSRS数据集上的语义分割性能对比
表3. 不同融合方法在M3FD数据集上的目标检测性能对比
表3. 不同融合方法在M3FD数据集上的目标检测性能对比

04 消融研究:模块化贡献的定量解耦

本工作在哈佛医学数据集上实施系统性消融,表4与图9的定量及定性消融结果共同验证:SCPM、GAM、TCPM三模块缺一不可。移除SCPM导致QNCIE降至0.8052,SSIM降至0.2645,表明通道剪枝对信息保真至关重要;移除GAM使QP降至0.5488,反映几何调制对结构保持的作用;移除TCPM则引发全面性能衰退,证实在解码阶段引入动态自适应的必要性。进一步分析表明,SCPM与TCPM中的通道注意力(CA)模块具有协同效应:前者用于压缩通道提取显著特征,后者过滤低显著性通道防止冗余干扰。移除任一侧CA均导致纹理模糊,其中移除SCPM的CA使SSIM下降0.0421,影响尤为显著。预训练模型引导的消融结果显示,移除ConvNeXt后跨任务性能明显退化,因CA权重依赖特定模态训练数据,缺乏先验知识时易在跨域任务中产生通道选择偏差。

图9.消融实验视觉对比
图9.消融实验视觉对比
表4. 消融实验定量对比
表4. 消融实验定量对比

05 结语

UP-Fusion框架通过语义感知通道剪枝、几何仿射调制与文本引导通道扰动的创新性协同,在多模态图像融合领域提供了新的技术范式。其"单权重-多任务"的设计理念不仅降低了工程部署成本,更为构建通用视觉感知基础设施提供了可行路径。该工作已被AAAI 2026接收,相关代码与模型已开源,预期将推动多模态融合技术在自动驾驶、智能监控、医疗诊断等领域的实质性应用。


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读5.7k
粉丝0
内容8.2k