大数跨境
0
0

ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习

ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习 极市平台
2023-08-29
1
↑ 点击蓝字 关注极市平台
作者丨大连理工大学
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

本文提出了一个语义特征引导多交互式特征学习架构SegMiF,并且还构建了市面上最全标注率(98.16%),高精度配准,15 个类别涵盖多种挑战场景的多模态语义分割数据集MFB。>>关注公众号,后台回复「极市干货」即可获取最新整理CV知识内容合集

本篇文章介绍来自大连理工大学的论文Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation,收录于 ICCV 2023 Oral,研究用于图像融合和分割的多交互特征学习和全时多模态基准。详细信息如下:

文章链接:https://arxiv.org/pdf/2308.02097.pdf

代码链接:https://github.com/JinyuanLiu-CV/SegMiF

引言

实现感知友好的视觉表达和精确的语义理解是多模态图像融合的两大基本目标。现有大部分方法都仅考虑提升融合图像的视觉效果,忽略了对下游高级视觉任务的支持。目前也有一些研究尝试通过级联融合与感知网络设计联合框架,结合加权损失函数实现端到端学习。本文认为这些方案仍存在两个核心挑战:

  1. 同时为视觉感知与语义理解任务寻找合适的特征是非常困难的。
  2. 现有的多模态数据集仅关注图像融合效果,或者缺少与图像对应的分割标签,为融合与分割任务的探索带来阻碍。

为了解决上述问题,我们提出了一个语义特征引导多交互式特征学习架构:SegMiF (Multi-interactive Feature learning architecture for image fusion and Segmentation)

该网络结构包括融合子网络与分割子网络以及分层交互注意力块 Hierarchical Interactive Attention (HIA)。通过引入多任务动态权重因子实现对融合特征自适应学习。

另外,我们还构建了市面上最全标注率(98.16%),高精度配准,15 个类别涵盖多种挑战场景的多模态语义分割数据集 Full-time Multi-modality Benchmark (MFB)。

方法

为了实现融合与后续感知任务的统筹兼顾,本文将融合与分割任务的求解联合定制为一个优化目标:

其中 g(·) 是联合优化两个任务约束项,我们通过分层注意力 (HIA) 来实现这一目标。

分层注意力机制 HIA 可以构建模态特征 和分割特征 的精细映射,从而使模态/语义特征能够完全相互作用,具体如下图所示:

分层注意力机制包括面向语义与面向模态的两类注意力机制,通过引入语义信息,提出机制可以实现融合特征对下游任务的高效表达。

通过观察损失值的下降速率以优化网络的收敛过程,本文引入了任务动态权重因子来自动调整每个任务间相应权重,从而平衡交互特征对应关系,克服了繁琐的手工调整。通过下述公式实现第i个任务的动态权重设置:

此外,我们构建了一个智能多波段双目成像系统,并收集了一个用于融合和分割且内有15个像素级类别注释的多模态场景解析数据集。该数据集标注率高达98.16%,包含在不同光照条件下的各种真实驾驶场景,还包括带有雨、雾、强光等特殊情况的挑战场景。所提出的数据集克服了领域现存数据类别较少、注释稀疏和场景单调的问题,旨在促进实际的自动驾驶和语义理解任务的发展。

实验

定量实验

我们在四个指标(EN,SD,SF与SCD)取得了一致的优势,其中最高的 EN 和 SD 表明我们的方法能够显著地保留源图像的大量信息,并拥有较高的像素对比度。

我们在 MFNet 和 MFB 数据集上都取得了最高的 mIoU,与第二名相比提高了 7.66%。同时注意到我们的方法对于人和车的优越结果意味着我们的方法在应用于现实世界感知时有更高的性能。

定性实验

在视觉效果上,本文方法可以有效克服各类可见光降质因素的影响,例如强光干扰与极暗成像条件。一方面本文方法有效提取显著红外目标,例如第一行的行人。另一方面,本文方法可以有效保存纹理细节,更有利于后续语义分割任务。

MFNet 和 MFB 数据集上分割的可视化结果如上图所示。本文方法不仅在现有稀疏标注数据集提升明显,也能够有效解决新数据集上各类复杂成像条件的影响。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读197
粉丝0
内容8.2k