极市导读
在 ICCV 2025 的最新成果中,AMDANet 针对多模态分割长期存在的“模态差异”问题提出了系统性解决思路。通过多视角特征对齐与差异压制机制,该模型在 RGB–红外两类模态上实现了稳定且一致的语义表达,并在分割与融合两项任务中均取得 SOTA 表现。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
在计算机视觉领域,多模态语义分割一直是研究热点。当RGB图像遇上红外图像,前者能提供丰富的色彩纹理信息,后者可在复杂光照下呈现清晰轮廓,二者结合本应碰撞出更强大的场景理解能力。然而,模态间巨大的视觉差异却成为精准分割的"拦路虎"。今天为大家介绍ICCV 2025的最新研究成果——AMDANet,这款注意力驱动的多模态差异对齐网络,通过创新设计的三大核心模块,在FMB、MFNet和PST900数据集上实现了mIoU分别提升3.6%、3.0%和1.6%的突破性进展。
论文信息
题目: AMDANet: Attention-Driven Multi-Perspective Discrepancy Alignment for RGB-Infrared Image Fusion and Segmentation【基于注意力驱动多视角差异对齐的RGB-红外图像融合与分割网络AMDANet】
作者: Haifeng Zhong, Fan Tang, Zhuo Chen, Hyung Jin Chang, Yixing Gao
源码: https://github.com/Zhonghaifeng6/AMDANet
多模态分割的核心困境:特征差异的"双重挑战"
RGB与红外图像的融合分割面临着难以逾越的鸿沟:
-
视觉特征差异:两种模态在轮廓、形状和纹理上存在天然差异,直接导致特征模糊性(如图1所示) -
编码器偏好偏差:网络在训练过程中会对特定模态产生"偏爱",导致差异特征在深层网络中不断累积
现有方法要么让一种模态特征占据主导,要么在匹配过程中丢失关键细节。AMDANet的创新之处在于:不是简单聚合相似特征,而是主动对齐差异特征,从根源上解决模态冲突。
AMDANet总体架构:三管齐下的差异对齐策略
AMDANet的整体框架如图2所示,通过三个核心组件形成完整的差异处理流水线:
-
语义一致性推理(SCI):消除编码器的模态偏好偏差 -
特征差异对齐模块(FDAM):从局部和全局视角对齐视觉差异 -
互特征掩码学习(MFML):增强跨模态特征的互补性
网络首先通过编码器提取RGB(F_vi)和红外(F_in)的四级特征,经过SCI模块处理后得到偏差修正特征(F_vi^a, F_in^a),再通过FDAM模块完成局部与全局的特征对齐,最后结合MFML策略实现鲁棒的多模态融合。
核心创新模块解析
1. 语义一致性推理(SCI):消除编码器的"偏心眼"
编码器在处理不同模态时,会因正则化和激活函数等因素产生固有偏好。SCI模块通过以下步骤修正这种偏差:
-
计算跨模态语义相似度,识别受偏差影响的特征 -
生成模糊掩码区分差异特征,构建参考特征P_in和P_vi -
计算偏差分量并从原始特征中抑制,得到对齐后的特征
实验表明,启用SCI后,网络对关键区域的注意力分布更集中,有效避免了模态偏好导致的特征混淆。
2. 特征差异对齐模块(FDAM):局部+全局的双重校准
FDAM采用分治策略处理视觉差异,包含两个关键环节:
局部对齐:
-
通道注意力:通过全局池化捕获有效响应,生成通道权重 -
空间注意力:利用卷积映射局部相关特征,生成空间权重 -
结合两种注意力修正特征,消除细粒度视觉差异
全局对齐:
-
采用显著跨模态注意力机制,基于显著特征进行长距离匹配 -
双向交互:先基于红外特征优化RGB特征,再基于优化后的特征反哺红外特征 -
最终生成语义一致的融合特征F_m
FDAM的优势在于:既关注局部细节匹配,又保证全局语义一致,有效避免了非关键特征导致的误匹配。
3. 互特征掩码学习(MFML):强化特征互补性
不同于传统的图像级掩码,MFML直接在特征图上进行像素级掩码操作:
-
随机掩码一种模态的部分特征通道 -
通过一致性正则化损失,迫使网络利用另一模态的互补信息 -
增强模型对模态退化的鲁棒性,促进跨模态特征融合
这种策略避免了骨干网络对图像掩码的错误重建,使模型更专注于学习有意义的互补特征。
实验结果:全面超越SOTA方法
在三大数据集上的实验充分证明了AMDANet的优越性:
语义分割性能
与十种先进方法的对比显示(表1-3),AMDANet在所有数据集上均实现最高mIoU:
-
FMB数据集:mIoU提升3.6% -
MFNet数据集:mIoU提升3.0% -
PST900数据集:mIoU提升1.6%
定性结果显示,AMDANet能更精准地描绘目标轮廓(如行人、车辆),在复杂场景中保持更好的边界一致性。
图像融合效果
在融合任务上,AMDANet在熵(EN)、空间频率(SF)等指标上表现最优:
-
增强了细微纹理信息,提高低光照条件下的目标可见性 -
有效抑制红外图像常见的伪影,生成视觉连贯的融合结果
消融实验验证
模块有效性分析(表5)显示:
-
移除FDAM导致性能下降最显著(mIoU降低4.8%),证明其在特征对齐中的核心作用 -
移除SCI和MFML分别导致3.5%和2.9%的性能损失,验证各模块的必要性
Grad-CAM可视化进一步证实:FDAM能有效聚焦关键区域,SCI可增强对语义区域的关注度(图10)。
总结与展望
AMDANet通过创新的"偏差修正-差异对齐-互补学习"框架,为多模态语义分割提供了新思路。其核心价值在于:
-
首次系统解决了模态差异的双重来源(视觉差异+编码器偏差) -
提出分治策略从多视角实现特征对齐 -
在保持合理复杂度的前提下,显著提升分割精度
未来,作者计划通过模型压缩技术降低计算复杂度,推动该方法在资源受限平台的部署应用。对于从事多模态融合、语义分割的研究者来说,AMDANet的设计思路为解决跨模态差异问题提供了重要参考。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

