极市导读
对盲超分辨率问题进行了深入的研究,从退化模型、基准线方法到性能上限等方面进行了详细探讨。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
本文目录
15 更近距离观察盲超分:退化模型、基线和性能上限
15.1 盲超分任务介绍
15.2 实用退化模型简介
15.3 盲超分方法的局限性
15.4 门控实用退化 (GD) 模型
15.5 盲超分模型的性能上限分析
15 更近距离观察盲超分:退化模型、基线和性能上限
论文名称:A Closer Look at Blind Super-Resolution: Degradation Models, Baselines, and Performance Upper Bounds (CVPRW 2022)
论文地址:
https://arxiv.org/pdf/2205.04910.pdf
15.1 盲超分任务介绍
作为基本的 low-level 视觉问题,单图像超分辨率 (SISR) 越来越受到人们的关注。SISR 的目标是从其低分辨率观测中重建高分辨率图像。目前已经提出了基于深度学习的方法的多种网络架构和超分网络的训练策略来改善 SISR 的性能。顾名思义,SISR 任务需要两张图片,一张高分辨率的 HR 图和一张低分辨率的 LR 图。超分模型的目的是根据后者生成前者,而退化模型的目的是根据前者生成后者。经典超分任务 SISR 认为:低分辨率的 LR 图是由高分辨率的 HR 图经过某种退化作用得到的,这种退化核预设为一个双三次下采样的模糊核 (downsampling blur kernel)。 也就是说,这个下采样的模糊核是预先定义好的。但是,在实际应用中,这种退化作用十分复杂,不但表达式未知,而且难以简单建模。双三次下采样的训练样本和真实图像之间存在一个域差。以双三次下采样为模糊核训练得到的网络在实际应用时,这种域差距将导致比较糟糕的性能。这种退化核未知的超分任务我们称之为盲超分任务 (Blind Super Resolution) 。
令 和 分别代表 和 图片, 退化模型为:
式中, 代表输入图像, 代表卷积操作, 模型主要由3部分组成: 模糊核 , 下采样操作 和附加噪声 。前人工作中最广泛采用的模糊核是各向同性高斯模糊核 (Isotropic Gaussian Blur Kernel)。 一般为加性白高斯噪声 (Additive White Gaussian Noise, AWGN)。最后 代表 JPEG 压缩得到 。Blind SISR 任务就是从 LR 图片恢复 HR 图片的过程。
15.2 实用退化模型简介
与经典退化模型不同,实用退化模型假设 HR 图像经历一系列退化情况以生成 LR 图像:
其中 表示实用退化模型, 表示基本退化 类型。例如, 是模糊退化, 是噪声退化。
为了模拟更复杂的降解情况,BSRGAN[1]和 RealESRGAN[2]中的退化模型使用大量退化类型,包括多种模糊类型 (generalized Gaussian blur 和 plateau-shaped Gaussian blur)、多种下采样方案 (nearest, bilinear, bicubic) 和多种噪声 (Poisson noise 和 camera sensor noise)。BSRGAN[1]通过引入 shuffle 操作拓展退化空间,而 RealESRGAN[2]则通过人工定义的高阶退化模型模拟现实世界中的复杂退化作用。
15.3 盲超分方法的局限性
本文确定了三个在以前的研究中没有很好检查的关键问题:
-
覆盖大多数甚至所有退化情况的通用退化模型的设计。 -
可以很好地处理大多数退化情况的强基线模型。 -
盲超分性能上界的研究,该性能上界可用于评估现有盲 SR 方法在不同退化情况下的性能。
本文认为已有的盲超分方法存在3大主要的局限性:
-
对于上述问题1: 真实世界图像的退化过程是高度随机的,有简单有复杂。经典退化模型仅考虑了最简单的模糊退化类型,而实用退化模型考虑最复杂的混杂退化情况。 -
对于上述问题2: 由于缺乏统一的退化模型,现有方法无法在各种退化情况下表现良好。因此,需要能够很好地处理不同退化情况的强基线模型。 -
对于上述问题3: 由于缺乏用特定退化类型 (例如模糊2.0) 训练的 SR 网络的性能上限的研究。没有与上限的比较,很难评估盲超分模型在特殊退化情况下是否足够好。
本文针对这些局限性给出了3个解决方案:
-
对于上述问题1: 本文提出了一个统一的门控实用退化 (GD) 模型。具体而言,所提出的 GD 模型引入了一种门控机制,该机制可以生成各种退化类型的组合,以覆盖现实世界中尽可能多的退化情况。在退化过程中,作者使用随机门控制器来确定 HR 图像是否经历了某种退化。因此,提出的 GD 模型可以包括传统情况 (非盲超分)、简单退化情况 (经典盲超分)、复杂退化情况 (实际盲超分) 以及许多其他常见的 corner cases (不同退化类型子集的组合)。 -
对于上述问题2: 基于 GD 模型,作者提出了强基线网络,可以很好地处理大多数退化情况,它可以令人惊讶地获得超过现有方法的一致且显著的性能增益。 -
对于上述问题3: 作者引入了性能上限来有效地评估现有的方法和各种退化情况的基线,可以通过在相应的数据集上训练 SR 网络来获得特定退化情况的性能上限。
15.4 门控实用退化 (GD) 模型
门控实用退化 (GD) 模型针对的是现实世界中普遍存在的基础退化类型的不同子集的组合,它通过引入一个门机制来随机选择退化过程中包含的基本退化类型:
式中, 代表门控退化过程 (gated degradation process), 表示门控实用退化 (GD) 模 型, 表示基本退化类型。
其中, 表示输入 HR 图像。里面当所有门 时, 门控退化模型相当于实际退化模型, 而当所有门 时, 它与传统的非盲超分相同, 门控制器允许产生各种基础退化类型的组合, 因此是一个统一模型,包括非盲超分、经典盲超分和实用盲超分。
15.5 盲超分模型的性能上限分析
本文中,作者使用了 one-branch 的模型 RRDBNet[3]作为基线模型,退化模型包括各向同性高斯模糊 [0.1, 3.0],加性高斯噪声 [1, 30] 和 JPEG 压缩噪声 [40, 95]。
作为评估,作者设计了一个验证集 Practical8,包括每一个 corner case 的退化作用:[bic、b2.0、n20、j60、b2.0 n20、b2.0 j60、n20 j60、b2.0 n20 j60]。然后作者针对这8种退化作用训练了8个超分模型得到每一种退化作用的性能上界。因此,可以使用 BSRNet 和上界之间的 PSNR 距离对模型进行评估。
经典盲超分退化模型
作者在5种退化作用 bicubic (bic) 和 Gaussian blur {0.6, 1.2, 1.8, 2.4} 上训练了5个超分模型作为 upper bound ,又按照 FAIG[4]的方式,在经典退化模型 isotropic Gaussian blur [0, 3.0] 上训练了盲超分网络,命名为 BSRNet-FAIG。结果如下图2所示。
与相应的上限相比,BSRNet 在 PSNR 上有轻微的性能下降 (大约 0.3dB)。在盲超分问题上,轻微的性能下降是相对可接受的,因为它比非盲超分更具挑战性。
实用盲超分退化模型
作者在实用退化模型 (15.2节) 上训练了盲超分网络,命名为 BSRNet-PD。如下图3显示,BSRNet-PD 在 bicubic、blur2.0、noise20 和 blur2.0 noise20 的退化情况下有显著的性能下降,而在 blur2.0 jpeg60 和 noise20 jpeg60 的退化情况下下降最小。有趣的是,在复杂情况 b2.0 n20 j60 中,BSRNet-PD 与上限之间的PSNR 距离为 0.09 dB,下降非常微小,因为 PD 模型专注于模糊、噪声和 JPEG 的组合。
如下图4所示,BSRNet-PD 无法在 bic、b2.0 和 n20 上生成逼真的纹理,而在复杂情况 b2.0 n20 j60 上的视觉结果与上限相比比较接近。PSNR 值有 0.16dB 的微小下降。
门控实用退化 (GD) 模型
作者在门控实用退化 (GD) 模型 (15.4节) 上训练了盲超分网络,命名为 BSRNet-GD。如图3显示,BSRNet-GD 在 b2.0 和 b2.0 n20 上分别实现了 0.82 dB 和 0.63 dB 的性能提升。其他情况的性能也更接近相应的上限。与BSRNet-PD 相比,BSRNet-GD 在复杂情况 b2.0 n20 j60 上的 PSNR 值略微下降了 0.13 dB。
如下图5所示,在 b2.0 和 n20 退化上,BSRNet-GD 可以生成比 BSRNet-PD 更真实的纹理。复杂案例 b2.0 n20 j60 的掉点是完全可以接受的,因为在视觉效果上我们几乎分辨不出 BSRNet-PD 和 BSRNet-GD 的区别。
门控实用退化 (GD) 模型虽然在复杂情况下具有微小的牺牲,但是与 PD 模型相比,大多数退化情况的性能可以获得明显的提高。这样的退化模型得到的盲超分网络可以处理所有退化类型,与上限相比具有小的性能下降。
15.6 实验结果
MSE-based 盲超分模型
训练集: DIV2K (800 images) 和 Flickr2K (2650 images)
验证集: BSD100 和 Urban100
训练时的退化模型: 遵循 BSRGAN 和 RealESRGAN 的设置,退化模型包括各向同性高斯模糊核 [0.1, 3.0]、加性高斯噪声[1, 30] 和 JPEG 压缩噪声 [40, 95]。下采样采用 RealESRGAN 版本的 ×4 双三次。GD 模型,每个门的概率被设置为0.5,以生成所有退化情况。
基线模型: 使用 RRDBNet 和 SwinIR:基于 CNN 的 RRDBNet-GD、基于 Transformer 的 SwinIR-GD 以及基于 GAN 的基线 BSRGAN-GD 和 SwinIRGAN-GD。
测试时的退化模型: 作者设计了一个验证集 Practical8,包括每一个 corner case 的退化作用:[bic、b2.0、n20、j60、b2.0 n20、b2.0 j60、n20 j60、b2.0 n20 j60]。然后作者针对这8种退化作用训练了8个超分模型得到每一种退化作用的性能上界。因此,可以使用 BSRNet 和上界之间的 PSNR 距离对模型进行评估。
评估指标: 采用 PSNR 来比较基于 MSE 的方法,采用 PSNR/NIQE 来比较基于 GAN 的方法。
优化器使用 Adam,初始学习率 2e-4,在 [25e4, 50e4, 75e4, 100e4] 时刻减半,一共 100e4 iterations, Loss。
实验结果如下图6所示,可以看到 RRDBNet 仅比 SRResNet-FAIG 高约 0.03dB。与其他方法相比,SwinIR 实现了最高的性能。其次,在 BSD100 和 Urban100 数据集上,基于 GD 退化模型的 RRDBNet-GD 和 SwinIR-GD 的平均性能实现了显著的改善 (0.3-0.6 dB)。RRDBNet 在 bic、b2.0、n20 等8种退化模型上训练的结果被用来作为 upper bound,实用退化模型训练出的的盲超分网络在某些退化作用 (bic, b2.0, 和 b2.0 n20) 下与 upper bound 相比具有显著下降。基于 GD 模型,则在多数情况下都有显著的改进。
图7显示基于 GD 退化模型的 RRDBNet-GD 和 SwinIR-GD 可以产生更好的视觉效果。
如下图8所示为不同结构的盲超分模型在 GD 退化模型训练之后的性能与 upper bound 的比较。SRResNet-16 只有 1.52M 的参数,但是平均 PSNR 只有 0.39dB 的下降。SRResNet-46 和 RRDBNet-5 获得了大约 0.1dB 的性能提升。SwinIR v1 和 v2 通过 GD 退化模型也进一步提升了盲超分的性能。
GAN-based 盲超分模型
本文作者采用相同的设置来训练基于 GAN 的网络。损失函数结合了 L_1L_1 Loss、感知损失和 GAN 损失,分别具有权重 [1, 1, 0.1]。BSRGAN-GD 和 SwinIRGAN-GD 在 GD 退化模型上训练。使用的判别器与 RealESRGAN 一致,为 U-Net 架构。如下图9所示为各种 GAN-based 盲超分模型实验结果。基于 GD 模型,与实用退化模型 PD 相比,重建性能得到了进一步的提高。有趣的是,SwinIRGAN 更关注重建性能 PSNR,所以感知度量 NIQE 值高于 BSRGAN-GD。如图10显示,与现有方法相比,GD 退化模型可以生成逼真的视觉效果。
总结
本文研究盲超分任务的退化模型,提出了一种门控实用退化 (GD) 模型针对的是现实世界中普遍存在的基础退化类型的不同子集的组合,它通过引入一个门机制来随机选择退化过程中包含的基本退化类型。门控制器允许产生各种基础退化类型的组合,因此是一个统一模型,包括非盲超分、经典盲超分和实用盲超分。实验结果显示,常用的盲超分模型在使用了 GD 退化模型之后取得了更逼真的复原结果和更高的性能。这个退化模型促进未来盲超分问题的研究。
参考
-
^abDesigning a practical degradation model for deep blind image super-resolution -
^abReal-esrgan: Training real-world blind super-resolution with pure synthetic data -
^Real-esrgan: Training real-world blind super-resolution with pure synthetic data -
^Finding discriminative filters for spe- cific degradations in blind super-resolution
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货
# 极市平台签约作者#
科技猛兽
知乎:科技猛兽
清华大学自动化系19级硕士
研究领域:AI边缘计算 (Efficient AI with Tiny Resource):专注模型压缩,搜索,量化,加速,加法网络,以及它们与其他任务的结合,更好地服务于端侧设备。
作品精选

