

底层任务超详细解读｜MANet：盲图像超分辨率中空间变体核估计的互仿射网络

极市平台

2023-07-13

↑ 点击蓝字关注极市平台

作者丨科技猛兽

编辑丨极市平台

本文首发于极市平台，转载须经授权并注明来源插入公众号名片。

极市导读

现有的盲图像超分辨率方法大多假设模糊核在整个图像上是空间不变的。然而，这种假设很少适用于真实图像，其模糊核通常由于物体运动和失焦等因素而在空间上变化。为了解决这个问题，本文提出了一种用于空间变异核估计的互仿射网络MANet。>>加入极市CV技术交流群，走在计算机视觉的最前沿

本文目录

12 盲图像超分辨率中空间变体核估计的互仿射网络
12.1 盲超分任务介绍
12.2 模糊核应该建模为空间变化的
12.3 互仿射网络
12.4 互仿射卷积
12.5 超分模型 RRDB-SFT
12.6 MANet 训练方法
12.7 MANet 对比实验结果
12.8 MANet 模糊核估计实验结果
12.9 超分任务实验结果

12 盲图像超分辨率中空间变体核估计的互仿射网络

论文名称：Mutual Affine Network for Spatially Variant Kernel Estimation in Blind Image Super-Resolution (ICCV 2021)

论文地址：

https://arxiv.org/pdf/2108.05302.pdf

12.1 盲超分任务介绍

作为基本的 low-level 视觉问题，单图像超分辨率 (SISR) 越来越受到人们的关注。SISR 的目标是从其低分辨率观测中重建高分辨率图像。目前已经提出了基于深度学习的方法的多种网络架构和超分网络的训练策略来改善 SISR 的性能。顾名思义，SISR 任务需要两张图片，一张高分辨率的 HR 图和一张低分辨率的 LR 图。超分模型的目的是根据后者生成前者，而退化模型的目的是根据前者生成后者。经典超分任务 SISR 认为：低分辨率的 LR 图是由高分辨率的 HR 图经过某种退化作用得到的，这种退化核预设为一个双三次下采样的模糊核 (downsampling blur kernel)。 也就是说，这个下采样的模糊核是预先定义好的。但是，在实际应用中，这种退化作用十分复杂，不但表达式未知，而且难以简单建模。双三次下采样的训练样本和真实图像之间存在一个域差。以双三次下采样为模糊核训练得到的网络在实际应用时，这种域差距将导致比较糟糕的性能。这种退化核未知的超分任务我们称之为盲超分任务 (Blind Super Resolution) 。

令和分别代表和图片, 退化模型为:

式中, 代表输入图像, 代表卷积操作, 模型主要由3部分组成：模糊核 , 下采样操作和附加噪声。前人工作中最广泛采用的模糊核是各向同性高斯模糊核 (Isotropic Gaussian Blur Kernel)。一般为加性白高斯噪声 (Additive White Gaussian Noise, AWGN)。Blind SISR 任务就是从 LR 图片恢复 HR 图片的过程。

对于盲超分任务而言, 和模糊核是末知的, 对于同一张 , 可能存在不同组的和模糊核。把上述卷积写成矩阵乘积的形状就如下式所示:

式中, 代表模糊核 ( 为模糊核的尺寸, 为 HR 图的尺寸), 的每一行代表对应上面一个位置的模糊核。如果退化过程是空间不变的, 则是 Toepliz matrix。

12.2 模糊核应该建模为空间变化的

许多盲超分方法假设模糊核是空间不变的 (spatially invariant)，并且它们对于一张图片只估计一个模糊核，这会带来两个次生问题：

其一，一些环境因素 (譬如真实世界中物体的运动和深度的差异，或者失焦和相机抖动造成的成像效果不理想) 导致一张图片不同位置的模糊核往往是不同的。

其二，为一整张估计出一个模糊核会受到图片中一些平滑区域 (flat patches) 带来的不利影响。对于一张自然图像，有些 patch 包含了边缘或棱角，它们对核的估计起了很大作用，比如下图1中的柱子。但是另外一些 patch 比如下图1中的，内容相对平坦，对核的估计作用较小，因为它们对应于各种不可区分但正确的模糊核。

图1：MANet 方法在 Urban100 数据集 img017 图片不同位置的核估计结果 (展示的是 SR 图，原来的 HR 图被右上角绿色框的模糊核模糊化)

本文作者认为一张图片的不同位置应该对应不同的模糊核。也就是模糊核在与 HR 图片做卷积时应该是空间变化的，不同位置本质上应该是不同的模糊核。即，同一个模糊核 a (比如21×21大小) 可能仅仅对图片中21×21大小的片区 A 有影响。另外，如果另一个片区 B (对应模糊核 b) 的图片内容来估计片区 A 的模糊核 a，还可能是有害的。因此，理想的核估计模型应该只根据待估计的核影响的局部图像片区的信息。

所以作者认为问题的关键是模糊核估计的深度神经网络不能具有太大的感受野，若感受野太大，则在估计模糊核 a 时很有可能使用到了另一个片区 B 的信息。

12.3 互仿射网络

本文提出了一种互仿射模型 (Mutual Affine Network, MANet)，用来估计模糊核，如下图2所示。它的特点是感受野大小适中 (比如22×22)，包含了特征提取模块和模糊核重建模块。

图2：互仿射模型架构，包含了特征提取模块和模糊核重建模块

特征提取模块包含一个卷积层，残差块，下采样层和上采样层。LR 图片首先通过3×3卷积提取图像特征，再依次通过三个残差块。每个残差块包含2个互仿射卷积 (MAConv) 和一个激活函数，相邻的残差块之间分别连接了下采样层和上采样层。此外，作者在特征提取模块中增加了两个 skip-connection，以利用不同级别的特征并提高模型的表达能力。

特征提取模块之后是模糊核重建模块。模糊核重建模块由一个3×3卷积操作，softmax 层，和最近邻插值得到模糊核。

通过以上这种精心设计的 MANet 架构，MANet 在 LR 图像输入上具有22×22的不大的感受野，这确保了它在估计某个像素对应位置的模糊核的时候不会受到其他距离大于11像素的图像块的干扰。同时，MANet 还提出了互仿射卷积操作，确保模型有足够的能力来预测卷积核。

12.4 互仿射卷积

一般来讲，更小的感受野意味着更浅的网络模型，学习模糊核的表征能力就更弱。要解决这个问题，一种直观的方法是增加网络的通道数。但是，它带来了呈二次方增加的参数量和计算量，所以本文提出一种新的相互仿射卷积(MAConv) 层来解决这个问题，如下图3所示。

设为 MAConv 的输入特征, MAConv 首先把该特征沿着 channel 分成几部分:

对于每一块 , 互补的部分定义成。和都被传入仿射变换模块, 该模块具有全连接网络 , 它的功能是从学习变换参数和。然后, 参数和分别用于缩放和移动。整个过程可以写作:

式中, 代表 Hadamard product。全连接网络由 2 个卷积和一个 ReLU 激活函数构成, 其输入层, 隐藏层和输出层的维度分别是: 。

图3：互仿射卷积

在仿射变换以后, 对于 split 的每一块, 都再通过一次卷积以生成特征:, 其中是输出通道数, MAConv 最终将个特征 concat 在一起得到最终的输出结果:

MAConv 通过相互仿射变换来利用不同通道之间的相互依赖性, 而不是像常规卷积层那样完全连接所有输入和输出通道。这种设计可以提高特征表示能力, 并大大减少模型大小和计算复杂性。比如, 对于常规的卷积操作, 参数量和计算量分别是和 ; 而 MAConv 的参数量为 , 计算量为。

图4：几种不同卷积的比较，在256×256大小的 LR 图片上测试得到

值得注意的是，MAConv 的感受野仍然与单个3×3卷积层相同，因为仿射变换不增加感受野。

损失函数使用 MAE：

其中, 和分别代表估计的模糊核和模糊核, 分别代表训练 HR 图片的数量, 高度和宽度。

12.5 超分模型 RRDB-SFT

MANet 所使用的超分模型基于 RRDB 模块和 SFT 层 , 超分模型称之为 RRDB-SFT, 如下图5 所示。可以看出, RRDB-SFT 通过将 LR 图像和相应的模糊核作为输入来重建 HR 图片。具体来说, 它首先通过主成分分析 (PCA) 将模糊核的大小从 reshape 成 , 并将维数从降低到。之后, 将核 PCA 向量拉伸成的模糊核图片, 其中分别是 HR 图片的高度, 宽度和 scale factor。然后, 通过 SFT 层将模糊核 PCA 图与不同级别的图像特征连接起来。

图5：MANet 超分模型

超分模型 RRDB-SFT 使用了10个 RRDB，10个 SFT 层。PCA 向量的维度是15，训练使用 DIV2K 和 Flickr2K 数据集，随机 crop 192×192大小的图片，并通过 random flip 和 rotation 进行数据增强。使用 Adam 优化器训练480,000 iterations，学习率初始2e-4，每120,000 iterations 降低一倍。MANet 网络估计得到的模糊核将输入给超分模型 RRDB-SFT，用来辅助重建 HR 图片。当与 MANet 结合使用时，作者冻结 MANet 的参数并微调 RRDB-SFT。学习率初始5e-5，迭代200,000 iterations。

12.6 MANet 训练方法

作者遵循已有的盲超分工作, 在的各向异性的高斯核上进行实验。假设超分的 scale factor 为 , 则高斯核的宽度使用 , 旋转角度。作者从 DIV2K 中随机裁剪192×192的图像块, 并通过随机翻转和旋转对其进行扩充。然后, 图像块被随机核模糊。值得注意的是, MANet 即使是在模糊核空间不变的图片上训练, 也能够学习到空间变化的模糊核。三个残差块的通道数分别是128，256，128。split 数默认为2。使用 Adam 优化器 ( ) 训练300,000 iterations, 学习率初始2e-4, 每50,000 iterations 降低一倍。

性能评价指标

当 scale factor 为 4 时, 从均匀采样卷积核。当 scale factor 为 2 或3时, 从均匀采样卷积核。这样的策略使得对于测试集的每张图片都有 9 种不同的退化图，带来了9个测试对。对于模糊核的评估，使用模糊核的 PSNR 是不合适的，因为一个图像 patch 可能对应于多个正确的模糊核。因此, 作者使用重建的 LR 图像 PSNR/SSIM 进行评估。对于图像评估, 作者比较了空间的通道上的 SR 图像 PSNR/SSIM。

12.7 MANet 对比实验结果

如上图4所示，作者对比了常规卷积，分组卷积和 MAConv 的参数量，计算量，运行时间以及最终性能的区别，并观察得到以下结论：

首先，MAConv 在 LR 图像 PSNR/SSIM 上实现了最佳性能，表明 MANet 估计得到的模糊核与其它竞争对手相比可以更好地保持数据真实性。MAConv 相比常规卷积具有更少的参数量和计算量。但是 MAConv 的运行时间比普通卷积稍长，因为实现代码没有针对不同拆分的并行计算进行优化。

第二，随着通道数的增加，MAConv 的模糊核估计性能得到改善。

第三，MAConv 的模糊核估计性能随着 split 次数的增加而增加。这意味着更大数量的 split 可以更好地利用通道的相互依赖性并增加特征表示能力。为了平衡准确性和运行时间，作者将通道数和分割数分别设置为 [128, 256, 128] 和 2。

MAConv 层数的影响

作者将残差块中的 MAConv 层数从2增加到4，以研究其对核估计的影响。相应地，MANet 的感受野从22×22增加到38×38。如下图6所示，结果显示，具有两个 MAConv 层的 MANet 可以准确地估计不同 patch 的核，但是当 MAConv 层数为4时，模糊核的估计就不够准确了。

图6：当比例因子为4时，残差块中不同数量的 MAConv 层和不同训练损失的比较

Kernel Loss 和 LR Image Loss

除了上文6式所使用的 Kernel Loss 之外，另一种损失函数是 LR Image Loss，即：度量 LR 图片与根据模糊核退化后得到的 LR 图之间的 mean absolute error (MAE)。LR Image Loss 相比于 Kernel Loss 并没有对预估的模糊核有过于严格的要求，只是希望预估的模糊核能够得到比较真实的退化后的图片。如上图5对比了这两种损失函数得到的模糊核的估计结果，我们可以看出，MANet 在使用 Kernel Loss 的情况下成功地估计了模糊核。但是当使用 LR Image Loss 时，MANet 不能成功地区分不同种类的图像 patch，并且总是预测一个固定的模糊核，该模糊核可能是所有可能的模糊核的平均值。

即使 MANet 在训练的时候是一张图片对应一个 GT 模糊核，但是 MANet 在实际估计模糊核的时候也能够学会从不同的 non-flat patch 中精确地估计对应的模糊核，并为 flat patch 生成固定的模糊核。

12.8 MANet 模糊核估计实验结果

对于一张测试图片，作者作出了不同位置的模糊核估计结果，如上图1所示。可以看到对于那些不平滑的块 (non-flat patch，比如图中的 "柱子")，MANet 能够比较精确地估计出模糊核；对于那些平滑的块 (flat patch，比如图中的 "天空")，MANet 倾向于估计得到固定的模糊核。

如下图6所示右侧是一张 HR 图片，左侧是它的退化图片 (经过绿色框的模糊核退化作用)。HR图片中有一些长度不一的黑色的线 (1×1, 3×3, 5×5, 7×7, 9×9, 11×11, 21×21, 41×41, 61×61)，左侧是它们对应的模糊核的估计结果。可以看出 MANet 可以根据最小9×9大小的图像块估计模糊核，当图像块更大时，估计效果更加准确。对于没有角和边的平坦的片区，MANet 将估计一个固定的类似各向同性的核。

图6：MANet 对于一张合成图片的模糊核估计结果，右侧是 HR 图片，左侧是退化后的图片 (经过绿色框的模糊核退化作用)

12.9 超分任务实验结果

空间变化的模糊核实验

作者将 MANet 与其他一些超分模型做了对比, 图7是BSD100 数据集空间变化的模糊核 (每一个 patch 用的模糊核是不一样的) 的盲超分任务实验结果。每张测试图片被分成个块, 高斯核的宽度分别为。对于 patch , 也就是每一个 patch 用的模糊核是不一样的。

图7：BSD100 数据集空间不变的模糊核的盲超分任务实验结果

从实验结果可以看出，对于不同的空间变化的模糊核类型，MANet 都能得到最佳的性能。相比之下，本文提出的 MANet 估计图像上每个位置的核。因此，它可以处理空间变化的退化模糊作用，并基于相同的非盲模型大幅超过 IKC。即使在有图像噪声的情况下，MANet 仍然取得了优于其他模型的性能。

下图8比较了不同方法的视觉结果。虽然已知 GAN 损失可以提高视觉质量，但是为了简单和公平的比较，作者仅用 L1 像素损失来训练所有这些模型。可以看到，当内核不匹配时，HAN 倾向于生成模糊的结果，而 DIP 生成的图像带有一些类似噪声的伪像。KernelGAN 和 IKC 的核估计要么太平滑，要么太尖锐，导致最终 SR 图像上出现环状或模糊的伪影。相比之下，本文提出的 MANet 能够处理空间变化的退化，并产生最佳的视觉效果。

图8：BSD100 数据集空间不变的模糊核的盲超分任务实验视觉效果

空间不变的模糊核实验

作者进一步测试了当模糊核是空间不变时的各个模型的性能对比。如图9所示为不同数据集空间不变的模糊核的盲超分任务实验结果。MANet 通过为不同的图像块估计不同的模糊核，使得其性能依然超过了已有的方法如 HAN，DIP，SRSVD，IKC 等等。

图9：不同数据集空间不变的模糊核的盲超分任务实验结果

真实世界图片盲超分视觉效果

作者进一步对比了不同的模型在真实世界图片盲超分视觉效果。真实世界图片没有 GT 的 HR 图，结果如上图8中的最后一行所示。HAN 的结果比较模糊，DIP 和 KernelGAN 有人工伪影，IKC 过度锐化了图像，并且在边缘上有明显的伪像，可能是因为它只为不同的区域估计一个模糊核。本文提出的 MANet 效果更佳。MANet 为不同位置估计了不同的模糊核，自适应地将高频细节添加到边缘，将低频信息添加到平坦区域，因此复原的图像具有较少的伪像和更加自然的边缘。

总结

本文提出的 MANet 是一种估计模糊核的网络，它的特点是具有大小适中的感受野，因为作者认为真实世界中的退化作用是空间变化的，因此不同位置应该建模成不同的退化作用，因此模糊核估计网络的感受野不宜过大。具体而言，MANet 使用一种 MAConv 操作，在不增大感受野的前提下同时通过增强通道之间的建模来提升模型的表达能力。空间变化的模糊核实验，空间不变的模糊核实验和真实世界盲超分实验都证明了模型的有效性。

参考

^ Esrgan: Enhanced super-resolution generative adversarial networks
^Recovering realistic texture in image super-resolution by deep spatial feature transform