TPAMI 2024｜多模态图像修复与融合新突破！DeepM2CDL：多种任务实现SOTA性能



TPAMI 2024｜多模态图像修复与融合新突破！DeepM2CDL：多种任务实现SOTA性能

极市平台

2024-06-08

↑ 点击蓝字关注极市平台

作者丨许静怡

编辑丨极市平台

极市导读

该工作瞄准跨模态图像间复杂的信息耦合特性，为多模态图像修复与融合问题提供了基于层级式多尺度字典学习的通用神经网络框架，在具有卓越的可解释性的同时，在多模态图像超分辨、去噪、多曝光融合以及多焦点融合这四种任务中均实现了SOTA。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

本文介绍了发表于IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI 2024)上的工作“DeepM CDL: Deep Multi-Scale Multi-Modal Convolutional Dictionary Learning Network”。该工作瞄准跨模态图像间复杂的信息耦合特性，为多模态图像修复与融合问题提供了基于层级式多尺度字典学习的通用神经网络框架，在具有卓越的可解释性的同时，在多模态图像超分辨、去噪、多曝光融合以及多焦点融合这四种任务中均实现了SOTA。

论文地址：https://ieeexplore.ieee.org/abstract/document/10323520

代码地址：https://github.com/JingyiXu404/TPAMI-DeepM2CDL

【创新点】

由于不同图像模态之间存在复杂的关系，在构建网络时融入跨模态字典学习算法对于多模态图像处理任务非常有效。然而，现有的基于字典学习的多模态图像处理网络存在以下缺点：

第一，为了实现稀疏系数的迭代求解以及算法在不同多模态数据集上的推广，在这些算法中稀疏先验通常被手动设置为范数，限制了算法的灵活性；

第二，这些算法仅在利用迭代方法求解输入图像特定的稀疏系数，而对不同的输入使用相同的字典，忽略了更重要的字典学习过程，没有完全利用传统字典学习方法的优势；

第三，这些算法多采用较为简单的单层级、单尺度结构，从而限制了模型的表征能力。

针对上述问题，该工作构建了更契合传统字典学习机理的多尺度多模态卷积字典学习（）模型，并设计了与该模型对应的DeepM CDL网络，以充分利用多模态图像间依赖关系进行跨模态信息提取和交互。下表直观地对比了我们所提出的网络相较于其他前沿基于字典学习的多模态图像处理网络的优势：

【方法】

① DeepM CDL的总体框架

下图所示为DeepM CDL的网络框架。具体来讲，针对多模态图像修复（Multi-modal Image Restoration，MIR）与多模态图像融合（Multi-modal Image Fusion，MIF）两类任务，我们设计了一个通用的多层级框架，通过N个MIRM（MIFM）模块，逐步实现修复（融合）图像的更新。

其中每个MIRM（MIFM）模块均由3个子模块组成：MDLBx模块，MDLBy模块和RB（FB）模块。特别的，MDLBx和MDLBy用于获取表征各模态的稀疏系数以及对应的卷积字典，并且针对修复与融合两种任务MDLBx和MDLBy的结构相同；而由于各输入模态在修复和融合两种任务中的角色不同，我们分别针对修复和融合任务设计RB和FB模块，以实现稀疏系数的融合、卷积字典的更新以及目标图像的重建。

接下来我们介绍多尺度多模态卷积字典学习模型的构建，并且分别阐述M2CDL模型针对多模态图像修复和融合任务的稀疏系数融合与卷积字典更新步骤的微调。

② 模型多尺度图像字典学习建模

多模态图像处理的任务的目的是通过对输入图像对进行处理, 获取高质量输出模态。在本工作中, 我们首先对两个模态进行“由粗到细”的多尺度稀疏表征, 并为每一个模态的每一个尺度分配一个新的字典滤波器, 得到如下式所示模型。

其中表示尺度总数, 符号表示卷积运算, 和分别表示和在第个尺度下的图像分解。对于尺度和分别是和的卷积字典滤波器。与之对应地, 是从通过字典滤波器提取的稀疏特征集合,而是通过从提取的稀疏特征集合。

③ 模型针对多模态图像修复任务的稀疏系数融合与卷积字典更新

在图像修复任务中, 如果只使用低质量图像的稀疏特征对的重构, 效果可能并不理想。因此与多数 MIR 任务所采用的方法相似, 考虑到和是在同一场景中获得的, 从高质量图像中提取的特征有助于更好地从修复。基于这一观点, 我们定义了一组非线性映射函数。对于尺度利用从各模态提取的特征和生成联合特征 , 如下所示

这里, 联合稀疏特征是通过整合来自各模态的特征得到的。因此, 它比更有利于的重构。为了让卷积字典更好地匹配联合稀疏特征, 我们通过下式中的转换函数进一步更新字典到

于是, 在得到了重构所需的联合特征和卷积字典后, 可以通过下式进行重构得到修复图像

在联合稀疏特征和更新字典的作用下, 图像的质量高于 , 可以被视为修复目标图像的粗略版本。与之类似的，将视为新输入，我们对和进一步建模, 并仿照上述步骤继续进行稀疏特征的提取与融合, 对应卷积字典滤波器的更新, 可以重建出一系列中间修复图像 , 逐渐接近目标图像。最终得到的最后一个中间修复图像即为修复图像。

④ 模型针对多模态图像融合任务的稀疏系数融合与卷积字典更新

与图像修复任务不同, 在多模态图像融合 (MIF)任务中, 和模态被认为具有相同的图像质量。因此, 我们针对 MIF 任务对模型稀疏系数融合与卷积字典更新步骤进行了微调。具体的, 考虑到每种模态都包含另一种模态所缺失的信息, 我们分别为各个尺度的和模态生成联合特征和 , 同时对相应的卷积字典进行联合更新, 如下所示

然后，可以生成中间融合图像和 , 如下所示

最后，我们可以生成一系列中间融合图像。理想情况下，随着中间层数的增加, 生成的中间图像和均会更接近目标融合图像。经过次迭代后, 过引入权重变量和 , 融合图像可以由和的加权平均值生成。

⑤ 基于模型的迭代展开构建 DeepM CDL 网络

基于上述两节中的模型, 我们开发了 DeepM CDL 网络来解决 MIR 和 MIF 任务, 其中模态的多尺度词典学习模块 MDLBx 通过对多尺度图像字典学习建模优化方程进行迭代求解

MDLBx的结构如下图所示。各模块的详细介绍见论文。

【实验与结果分析】

为验证DeepM CDL网络在多模态处理任务上的可行性，本论文将网络应用于深度图像指导RGB图像超分辨、闪光图像指导非闪光图像去噪、多焦点图像融合以及多曝光图像融合任务中，这四种任务都通过MSE损失进行约束。下面将依次展示该工作在各任务中的SOTA主客观结果。

① 闪光图像指导非闪光图像去噪（Flash Guided Non-Flash Image Denoising）

针对闪光图像指导非闪光图像去噪任务，我们在Aksoy数据集上随机选取12张作为测试图像，400张作为训练图像，并采用Y-PSNR作为评价指标。实验结果表明我们的网络在σ=25,50,70这三种不同的噪声等级上较其他多模态去噪对比算法有平均0.95dB PSNR的提升；通过对比去噪输出主观图，证明我们的算法相较于其他SOTA算法能够恢复出更清晰的边缘和更充足的细节。

② 彩色图像指导深度图像超分辨（RGB Guided Depth Image Super Resolution）

针对彩色图像指导深度图像超分辨任务，我们使用DPDN数据集作为训练数据集，而从Middlebury和Sintel数据集中选择7组图像作为测试图像，并采用RMSE和SSIM作为超分辨效果的评价指标。在深度图像指导RGB图像进行4倍超分辨任务中，我们所提出的网络不仅获得了最高的平均SSIM值，并且较对比算法提升15.4%的RMSE指标；通过对比超分辨输出主观图，证明我们的算法相较于其他SOTA算法恢复出前景和背景区域中边缘都更清晰的深度图像。

③ 多焦点图像融合（Multi-Focus Image Fusion）针对多焦点图像融合任务，我们使用通用数据集作为DIV2K作为原始图像构建训练集，并选择Lytro数据集作为测试集，为了更全面的验证网络性能，我们选用SD、AG、EI、VIF四个评价指标来进行定量比较。如下表所示在多焦点图像融合任务中，该工作在4个评价指标上均超过SOTA对比算法。特别是在客观评价指标EI上提升3.4%，主观评价指标VIF提升2.2%。

为了进行更全面的主观效果对比，我们在下图中可视化了不同融合算法所获取的多焦点融合结果差异图。差异图表示融合图像与远焦点源图像之间的差异。理想情况下，差异图中的背景区域应该全为零，因为背景区域在融合图像和远焦点图像中应该是相同的。由下图我们可以看出，我们的背景是所有方法中最干净的，而其他的对比方法的背景比较混乱，尤其是 IFCNN 和 ZMFF。除此之外对于前景区域，我们的方法提供了非常干净和清晰的边缘和图像细节，而比较方法无法实现。这表明我们的方法能够在融合过程中清楚地区分近焦点和远焦点区域，并避免这两个部分的重复叠加。

④ 多曝光图像融合（Multi-Exposure Image Fusion）

针对多曝光图像融合任务，我们使用SICE数据集作为训练数据集，并选择SICE、MEFB、PQA-MEF数据集中的八十组图像作为测试集，选用FMI、MEF-SSIM、PSNR、四个评价指标来进行定量比较，如下表所示。特别的，DeepM CDL相较于第二名的算法在MEF-SSIM指标上提升6.8%；除此之外，该网络相较于其他算法能生成色彩饱和度高、图像细节丰富的图像，并且图像在视觉上看起来很漂亮。

⑤ DeepM CDL的中间特征可视化

该工作通过可视化中间层学习的字典和稀疏系数，验证了网络与模型相符的可解释性，如下图所示。以多模态图像超分辨任务为例，从低分辨率深度图像中提取的特征边缘模糊，许多结构细节丢失，例如背景中的怪物。相比之下，从 RGB 图像中提取的特征边缘清晰，纹理细节充足。在我们的DeepM CDL方法中，通过RB块将这些特征组合起来后，就能得到一个边缘清晰、结构完整的联合特征。换句话说，下图印证了RGB 图像的稀疏特征有助于锐化和完善低分辨率深度图像的稀疏特征，从而有助于还原高分辨率深度图像。所有这些可视化结果表明，我们的网络具有良好的可解释性。

【总结与展望】

本文针对多模态图像修复和融合任务，提出了一种新颖的可解释网络，即DeepM CDL网络。该网络的设计是将多尺度多模态字典学习融入深度学习，使其既保留了深度学习的高效性，又具备字典学习的可解释性。与其他网络使用的手工前验不同，我们通过网络训练同时学习字典和稀疏前验，这对多模态图像内容更具适应性。通过对各种任务的详尽实验，包括闪光灯引导的非闪光灯图像去噪、RGB引导的深度图像超分辨率、多焦点和多曝光图像融合，评估了所提出的网络的有效性。实验结果表明，所提出的DeepM CDL 在所有这些任务中都取得了稳定的一流性能。此外，我们还对从网络中学习到的中间稀疏特征和字典进行了可视化，这表明我们的网络具有良好的可解释性。

在未来，探索卷积字典学习在弱监督、自监督或无监督多模态图像处理中的潜力将会是很有趣的研究方向。除此之外，我们的DeepM CDL可以从几个方面得到增强。例如，可以采用注意机制来探索不同模态的全局信息。此外，当前的工作仅侧重于多模态图像处理。通过跨帧和跨模态字典学习，来设计用于多模态视频处理的可解释网络也是未来可以研究的一项工作。