大数跨境
0
0

ICCV 2025 | 多模态融合新标杆!AMDANet 多视角压制模态差异,RGB - 红外分割 & 融合双任务登顶 SOTA

ICCV 2025 | 多模态融合新标杆!AMDANet 多视角压制模态差异,RGB - 红外分割 & 融合双任务登顶 SOTA 极市平台
2025-12-08
2
↑ 点击蓝字 关注极市平台
作者丨小白
来源丨小白学视觉
编辑丨极市平台

极市导读

 

在 ICCV 2025 的最新成果中,AMDANet 针对多模态分割长期存在的“模态差异”问题提出了系统性解决思路。通过多视角特征对齐与差异压制机制,该模型在 RGB–红外两类模态上实现了稳定且一致的语义表达,并在分割与融合两项任务中均取得 SOTA 表现。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

在计算机视觉领域,多模态语义分割一直是研究热点。当RGB图像遇上红外图像,前者能提供丰富的色彩纹理信息,后者可在复杂光照下呈现清晰轮廓,二者结合本应碰撞出更强大的场景理解能力。然而,模态间巨大的视觉差异却成为精准分割的"拦路虎"。今天为大家介绍ICCV 2025的最新研究成果——AMDANet,这款注意力驱动的多模态差异对齐网络,通过创新设计的三大核心模块,在FMB、MFNet和PST900数据集上实现了mIoU分别提升3.6%、3.0%和1.6%的突破性进展。

论文信息

题目: AMDANet: Attention-Driven Multi-Perspective Discrepancy Alignment for RGB-Infrared Image Fusion and Segmentation【基于注意力驱动多视角差异对齐的RGB-红外图像融合与分割网络AMDANet】

作者: Haifeng Zhong, Fan Tang, Zhuo Chen, Hyung Jin Chang, Yixing Gao

源码: https://github.com/Zhonghaifeng6/AMDANet

多模态分割的核心困境:特征差异的"双重挑战"

RGB与红外图像的融合分割面临着难以逾越的鸿沟:

  • 视觉特征差异:两种模态在轮廓、形状和纹理上存在天然差异,直接导致特征模糊性(如图1所示)
  • 编码器偏好偏差:网络在训练过程中会对特定模态产生"偏爱",导致差异特征在深层网络中不断累积

现有方法要么让一种模态特征占据主导,要么在匹配过程中丢失关键细节。AMDANet的创新之处在于:不是简单聚合相似特征,而是主动对齐差异特征,从根源上解决模态冲突。

图1:跨模态视觉差异对语义分割的影响示意

AMDANet总体架构:三管齐下的差异对齐策略

AMDANet的整体框架如图2所示,通过三个核心组件形成完整的差异处理流水线:

  1. 语义一致性推理(SCI):消除编码器的模态偏好偏差
  2. 特征差异对齐模块(FDAM):从局部和全局视角对齐视觉差异
  3. 互特征掩码学习(MFML):增强跨模态特征的互补性
图2:AMDANet网络结构总览

网络首先通过编码器提取RGB(F_vi)和红外(F_in)的四级特征,经过SCI模块处理后得到偏差修正特征(F_vi^a, F_in^a),再通过FDAM模块完成局部与全局的特征对齐,最后结合MFML策略实现鲁棒的多模态融合。

核心创新模块解析

1. 语义一致性推理(SCI):消除编码器的"偏心眼"

编码器在处理不同模态时,会因正则化和激活函数等因素产生固有偏好。SCI模块通过以下步骤修正这种偏差:

  • 计算跨模态语义相似度,识别受偏差影响的特征
  • 生成模糊掩码区分差异特征,构建参考特征P_in和P_vi
  • 计算偏差分量并从原始特征中抑制,得到对齐后的特征
图3:语义一致性推理模块结构

实验表明,启用SCI后,网络对关键区域的注意力分布更集中,有效避免了模态偏好导致的特征混淆。

2. 特征差异对齐模块(FDAM):局部+全局的双重校准

FDAM采用分治策略处理视觉差异,包含两个关键环节:

局部对齐

  • 通道注意力:通过全局池化捕获有效响应,生成通道权重
  • 空间注意力:利用卷积映射局部相关特征,生成空间权重
  • 结合两种注意力修正特征,消除细粒度视觉差异

全局对齐

  • 采用显著跨模态注意力机制,基于显著特征进行长距离匹配
  • 双向交互:先基于红外特征优化RGB特征,再基于优化后的特征反哺红外特征
  • 最终生成语义一致的融合特征F_m
图4:显著跨模态注意力机制力

FDAM的优势在于:既关注局部细节匹配,又保证全局语义一致,有效避免了非关键特征导致的误匹配。

3. 互特征掩码学习(MFML):强化特征互补性

不同于传统的图像级掩码,MFML直接在特征图上进行像素级掩码操作:

  • 随机掩码一种模态的部分特征通道
  • 通过一致性正则化损失,迫使网络利用另一模态的互补信息
  • 增强模型对模态退化的鲁棒性,促进跨模态特征融合

这种策略避免了骨干网络对图像掩码的错误重建,使模型更专注于学习有意义的互补特征。

实验结果:全面超越SOTA方法

在三大数据集上的实验充分证明了AMDANet的优越性:

语义分割性能

与十种先进方法的对比显示(表1-3),AMDANet在所有数据集上均实现最高mIoU:

  • FMB数据集:mIoU提升3.6%
  • MFNet数据集:mIoU提升3.0%
  • PST900数据集:mIoU提升1.6%
图5:FMB数据集上的分割结果对比(第一行为本文方法)

定性结果显示,AMDANet能更精准地描绘目标轮廓(如行人、车辆),在复杂场景中保持更好的边界一致性。

图像融合效果

在融合任务上,AMDANet在熵(EN)、空间频率(SF)等指标上表现最优:

  • 增强了细微纹理信息,提高低光照条件下的目标可见性
  • 有效抑制红外图像常见的伪影,生成视觉连贯的融合结果
图6:MFNet数据集上的融合结果对比

消融实验验证

模块有效性分析(表5)显示:

  • 移除FDAM导致性能下降最显著(mIoU降低4.8%),证明其在特征对齐中的核心作用
  • 移除SCI和MFML分别导致3.5%和2.9%的性能损失,验证各模块的必要性
图7:不同模块组合的分割结果对比

Grad-CAM可视化进一步证实:FDAM能有效聚焦关键区域,SCI可增强对语义区域的关注度(图10)。

总结与展望

AMDANet通过创新的"偏差修正-差异对齐-互补学习"框架,为多模态语义分割提供了新思路。其核心价值在于:

  1. 首次系统解决了模态差异的双重来源(视觉差异+编码器偏差)
  2. 提出分治策略从多视角实现特征对齐
  3. 在保持合理复杂度的前提下,显著提升分割精度

未来,作者计划通过模型压缩技术降低计算复杂度,推动该方法在资源受限平台的部署应用。对于从事多模态融合、语义分割的研究者来说,AMDANet的设计思路为解决跨模态差异问题提供了重要参考。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读5.7k
粉丝0
内容8.2k