极市导读
UMCFuse首个统一复杂场景红外-可见光融合框架:用光传输感知分解干扰与结构,高频自适应去噪、低频多方向能量融合,无需训练即在雾/雨/雪、火焰等场景全面领先,代码已开源。>>加入极市CV技术交流群,走在计算机视觉的最前沿
论文标题:UMCFuse: A Unified Multiple Complex Scenes Infrared and Visible Image Fusion Framework
作者:Xilai Li, Xiaosong Li, Tianshu Tan, Huafeng Li, Tao Ye
机构:佛山大学、香港科技大学、昆明理工大学、中国矿业大学(北京)
论文链接:https://ieeexplore.ieee.org/abstract/document/11164947
代码链接:https://github.com/ixilai/UMCFuse
01 导读
在雾/雨/雪、过曝、噪声/模糊、火焰烟雾等多重复杂场景中,实现高质量的红外与可见光图像融合面临两大挑战:一是如何区分并抑制各种退化与干扰,二是如何在抑制干扰的同时保留目标与纹理细节。为此我们提出一个面向复杂场景的统一融合框架。UMCFuse 不依赖深度学习架构,以光传输感知为核心先验,将图像分解为干扰成分与有效结构;在高频(细节)分支采用自适应去噪以避免纹理流失,在低频分支基于多方向能量进行稳健融合,从而在多种真实与合成复杂场景上取得领先,并显著提升检测、分割、显著性和深度估计等下游任务的表现。
02 亮点速览
-
统一视角处理复杂场景:首次将光传输信息引入复杂场景融合,按可见光像素的散射程度对成分进行分解,兼顾干扰抑制与细节保持。 -
细节层自适应去噪 + 低频多方向能量融合:提出细节层自适应去噪策略,有效保留纹理;低频层从多方向分析能量特征,实现稳健跨模态整合。 -
覆盖多类复杂干扰:实验涵盖雾/雨/雪、过曝、噪声、模糊、火焰等真实与合成复杂场景,本方法融合结果指标更优,呈现更自然的对比度/色彩。 -
更高效的计算开销:UMCFuse 基于纯传统图像处理技术,模型无需训练,GFLOPs 较小,利于资源受限部署,后续可通过 GPU/C++实现进一步加速。
03 UMCFuse 的核心思路
传输感知 → 分解 → 双路径融合 → 重建
-
传输感知分解:依据可见光图像的光传输/散射程度,把图像拆成“结构/细节”与“强度/对比”两类成分——干扰随之被“分好类”。 -
细节层(高频):针对“雨线/雪粒/噪声”这类高频干扰,自适应去噪,控制滤波强度,以避免在抑制干扰的同时过度抹去细节。 -
低频层:用多方向特征衡量能量与结构显著性,做多方向加权融合,取得自然对比与稳定亮度。 -
重建:高/低频结果相加,得到最终融合图像。
04 和“修复+融合”范式有何不同?
现有融合方法仅针对单一复杂场景(如只除雾或只处理过曝),遇到组合干扰就力不从心;若为每种干扰添加一个复原模型,易导致算力与工程复杂度剧增。UMCFuse 把干扰识别,退化抑制和模态交互融合在同一框架,提升适应性与效率,同时避免对“先修复”的强依赖。
05 实验结果
5.1 定性比较结果
-
雾/雨/雪/模糊:能更好地区分干扰像素并保持目标/纹理与对比,面对“雨线+高斯噪声”的双重干扰仍稳定。 -
雾/雨/雪/模糊:能更好地区分干扰像素并保持目标/纹理与对比,面对“雨线+高斯噪声”的双重干扰仍稳定。 -
火焰:在保证整体对比的同时准确定位火源,不会因保留过量可见光信息而“泛白”。
5.2 定量比较结果
-
Average RoadScene:QG/Qab/f/QCV/VIF相对次优分别提升 7.72% / 5.49% / 1.85% / 3.31%。 -
Average M3FD:QG/Qab/f/QCV/EN提升 0.47% / 0.44% / 2.21% / 0.63%。 -
TNO(火焰):QNCIE/QG/Qab/f/SSIM提升 3.47% / 3.93% / 0.81% / 1.49%。 -
总体:相对11个方法的整体提升(四项信息类指标 + 四项视觉感知类指标)分别达到 13.64%与34.06%。,
5.3 下游任务比较结果
在语义分割/目标检测/显著性/深度估计四类任务与七种场景下,UMCFuse 整体最佳,特别是检测中目标数与置信度更高,说明融合图更有助于特征提取。
5.4 消融实验
传输图估计(Transmission Map)
将本文的传输图替换为两种常见先验:Saturation Line Prior (SLP) 与 Color Attenuation Prior (CAP)。结果显示,这两种先验得到的传输图更模糊,无法有效捕获关键结构信息;基于此得到的融合图对比度下降,如天空能量信息难以保留。
融合规则(Fusion Rule)
分别替换高频与低频的融合度量,构造两种变体:
-
H-SML:将高频融合中的 MPC(Monogenic Phase Consistency)替换为 SML(Sum-Modified-Laplacian); -
L-SML:在低频融合中,用 SML 提取的特征图替代原方法中的基于 Gabor 的多方向能量测量。 对比表明:H-SML 的高频结果出现细节流失、融合对比下降;L-SML 的低频结果图像能量降低、目标显著性变弱。
06 结语
在这次研究中,我们面向雾/雨/雪、过曝、噪声/模糊、火焰等多重复杂场景提出了以光传输感知为核心的统一融合框架 UMCFuse:先用传输图引导的成分分解,将干扰与有效结构解耦;再在高频层自适应去噪、低频层多方向能量融合,在保持自然观感的同时兼顾对下游任务的实用价值。相较“先修复再融合”的分步范式,UMCFuse在保证质量的同时具备更友好的计算开销,具备在算力受限设备上的落地潜力。
我们相信,“物理先验 + 统一融合”的思路为复杂场景下的红外与可见光融合提供了值得持续探索的新方向,期待未来在实时化、非对齐数据、多任务协同等方面进一步拓展。如果您对我们的工作感兴趣,欢迎查阅论文全文与 GitHub 代码仓库。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

