>

ICCV 2025 | 多模态融合新标杆！AMDANet 多视角压制模态差异，RGB - 红外分割 & 融合双任务登顶 SOTA

>

0

0



ICCV 2025 | 多模态融合新标杆！AMDANet 多视角压制模态差异，RGB - 红外分割 & 融合双任务登顶 SOTA

ICCV 2025 | 多模态融合新标杆！AMDANet 多视角压制模态差异，RGB - 红外分割 & 融合双任务登顶 SOTA

极市平台

2025-12-08

2

↑ 点击蓝字关注极市平台

作者丨小白

来源丨小白学视觉

编辑丨极市平台

极市导读

在 ICCV 2025 的最新成果中，AMDANet 针对多模态分割长期存在的“模态差异”问题提出了系统性解决思路。通过多视角特征对齐与差异压制机制，该模型在 RGB–红外两类模态上实现了稳定且一致的语义表达，并在分割与融合两项任务中均取得 SOTA 表现。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

在计算机视觉领域，多模态语义分割一直是研究热点。当RGB图像遇上红外图像，前者能提供丰富的色彩纹理信息，后者可在复杂光照下呈现清晰轮廓，二者结合本应碰撞出更强大的场景理解能力。然而，模态间巨大的视觉差异却成为精准分割的"拦路虎"。今天为大家介绍ICCV 2025的最新研究成果——AMDANet，这款注意力驱动的多模态差异对齐网络，通过创新设计的三大核心模块，在FMB、MFNet和PST900数据集上实现了mIoU分别提升3.6%、3.0%和1.6%的突破性进展。

论文信息

题目： AMDANet: Attention-Driven Multi-Perspective Discrepancy Alignment for RGB-Infrared Image Fusion and Segmentation【基于注意力驱动多视角差异对齐的RGB-红外图像融合与分割网络AMDANet】

作者： Haifeng Zhong, Fan Tang, Zhuo Chen, Hyung Jin Chang, Yixing Gao

源码： https://github.com/Zhonghaifeng6/AMDANet

多模态分割的核心困境：特征差异的"双重挑战"

RGB与红外图像的融合分割面临着难以逾越的鸿沟：

视觉特征差异：两种模态在轮廓、形状和纹理上存在天然差异，直接导致特征模糊性（如图1所示）
编码器偏好偏差：网络在训练过程中会对特定模态产生"偏爱"，导致差异特征在深层网络中不断累积

现有方法要么让一种模态特征占据主导，要么在匹配过程中丢失关键细节。AMDANet的创新之处在于：不是简单聚合相似特征，而是主动对齐差异特征，从根源上解决模态冲突。

图1：跨模态视觉差异对语义分割的影响示意

AMDANet总体架构：三管齐下的差异对齐策略

AMDANet的整体框架如图2所示，通过三个核心组件形成完整的差异处理流水线：

语义一致性推理（SCI）：消除编码器的模态偏好偏差
特征差异对齐模块（FDAM）：从局部和全局视角对齐视觉差异
互特征掩码学习（MFML）：增强跨模态特征的互补性

图2：AMDANet网络结构总览

网络首先通过编码器提取RGB（F_vi）和红外（F_in）的四级特征，经过SCI模块处理后得到偏差修正特征（F_vi^a, F_in^a），再通过FDAM模块完成局部与全局的特征对齐，最后结合MFML策略实现鲁棒的多模态融合。

核心创新模块解析

1. 语义一致性推理（SCI）：消除编码器的"偏心眼"

编码器在处理不同模态时，会因正则化和激活函数等因素产生固有偏好。SCI模块通过以下步骤修正这种偏差：

计算跨模态语义相似度，识别受偏差影响的特征
生成模糊掩码区分差异特征，构建参考特征P_in和P_vi
计算偏差分量并从原始特征中抑制，得到对齐后的特征

图3：语义一致性推理模块结构

实验表明，启用SCI后，网络对关键区域的注意力分布更集中，有效避免了模态偏好导致的特征混淆。

2. 特征差异对齐模块（FDAM）：局部+全局的双重校准

FDAM采用分治策略处理视觉差异，包含两个关键环节：

局部对齐：

通道注意力：通过全局池化捕获有效响应，生成通道权重
空间注意力：利用卷积映射局部相关特征，生成空间权重
结合两种注意力修正特征，消除细粒度视觉差异

全局对齐：

采用显著跨模态注意力机制，基于显著特征进行长距离匹配
双向交互：先基于红外特征优化RGB特征，再基于优化后的特征反哺红外特征
最终生成语义一致的融合特征F_m

图4：显著跨模态注意力机制力

FDAM的优势在于：既关注局部细节匹配，又保证全局语义一致，有效避免了非关键特征导致的误匹配。

3. 互特征掩码学习（MFML）：强化特征互补性

不同于传统的图像级掩码，MFML直接在特征图上进行像素级掩码操作：

随机掩码一种模态的部分特征通道
通过一致性正则化损失，迫使网络利用另一模态的互补信息
增强模型对模态退化的鲁棒性，促进跨模态特征融合

这种策略避免了骨干网络对图像掩码的错误重建，使模型更专注于学习有意义的互补特征。

实验结果：全面超越SOTA方法

在三大数据集上的实验充分证明了AMDANet的优越性：

语义分割性能

与十种先进方法的对比显示（表1-3），AMDANet在所有数据集上均实现最高mIoU：

FMB数据集：mIoU提升3.6%
MFNet数据集：mIoU提升3.0%
PST900数据集：mIoU提升1.6%

图5：FMB数据集上的分割结果对比（第一行为本文方法）

定性结果显示，AMDANet能更精准地描绘目标轮廓（如行人、车辆），在复杂场景中保持更好的边界一致性。

图像融合效果

在融合任务上，AMDANet在熵（EN）、空间频率（SF）等指标上表现最优：

增强了细微纹理信息，提高低光照条件下的目标可见性
有效抑制红外图像常见的伪影，生成视觉连贯的融合结果

图6：MFNet数据集上的融合结果对比

消融实验验证

模块有效性分析（表5）显示：

移除FDAM导致性能下降最显著（mIoU降低4.8%），证明其在特征对齐中的核心作用
移除SCI和MFML分别导致3.5%和2.9%的性能损失，验证各模块的必要性

图7：不同模块组合的分割结果对比

Grad-CAM可视化进一步证实：FDAM能有效聚焦关键区域，SCI可增强对语义区域的关注度（图10）。

总结与展望

AMDANet通过创新的"偏差修正-差异对齐-互补学习"框架，为多模态语义分割提供了新思路。其核心价值在于：

首次系统解决了模态差异的双重来源（视觉差异+编码器偏差）
提出分治策略从多视角实现特征对齐
在保持合理复杂度的前提下，显著提升分割精度

未来，作者计划通过模型压缩技术降低计算复杂度，推动该方法在资源受限平台的部署应用。对于从事多模态融合、语义分割的研究者来说，AMDANet的设计思路为解决跨模态差异问题提供了重要参考。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络

0

0

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

内容 8155

粉丝 0

极市平台为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

总阅读5.7k

粉丝0

内容8.2k