

浅浅窥探一下超分网络的黑盒！一探究竟超分模型中的「语义」信息

极市平台

2023-05-06

↑ 点击蓝字关注极市平台

作者丨科技猛兽

编辑丨极市平台

极市导读

本文对超分网络的语义信息进行了详细而深入的研究和探讨，是一篇高质量的研究超分模型可解释性的技术报告。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

本文目录

7 探究超分模型中的 "语义" 信息代表什么
7.1 探究超分模型中的 "语义" 信息的动机和背景
7.2 分类任务和超分任务的问题定义
7.3 超分模型中的 "语义" 信息：退化作用
7.4 超分模型和分类模型中 "语义" 信息的差异
7.5 什么样的超分模型能够提取 "语义" 信息
7.6 超分模型能够区分不同退化程度的图像吗
7.7 特征图的可视化
7.8 新的发现：超分模型的泛化性

7 探究超分模型中的 "语义" 信息代表什么

论文名称：Discovering "Semantics" in Super-Resolution Networks

论文地址：

https://arxiv.org/pdf/2108.00406.pdf

7.1 探究超分模型中的 "语义" 信息的动机和背景

深度卷积神经网络 (CNN) 的出现，使得大量底层视觉任务出现了很多新的解决方案。图像超分辨率技术也实现了性能上的飞跃。用于 SR 的深度神经网络能够以更高的效率产生视觉上让人更加愉悦的结果。然而，即使我们从超分深度神经网络中受益匪浅，却对 SR 网络中发生的事情知之甚少。

它们究竟与传统方法 (插值等等) 有哪些区别？
相比于传统方法，性能的提高仅仅来自更复杂的映射函数吗？
SR 网络内部与分类网络内部相比有什么不同吗，比如具有鉴别能力的分类网络？

之所以超分网络可解释性的工作非常缺乏，一个非常重要的因素是在 High-level 任务里面，语义信息已经有了预先定义好的含义。但是在 Low-level 任务里面，还没有这种定义。此外，High-level 任务通常在具有不同类别的离散目标域中执行分类，而 Low-level 任务旨在解决具有连续输出值的回归问题。因此，如果没有预定义的语义信息的指导，解释 Low-level 任务网络似乎不是那么简单。

因此，要弄清楚超分网络可解释性，首先是要搞明白超分模型中的 "语义 (semantic)" 信息代表什么。这些语义信息与分类模型当中的语义信息有哪些不同？现有的工作无法回答这些问题，因为很少有关于解释底层视觉深度模型的研究。然而，了解超分网络中语义信息的含义是非常重要的。它不仅可以帮助我们进一步了解底层模型的工作机制，还可以指导我们设计更好的底层模型和评估算法。

当前的主流观点是：SR 网络似乎只是学习到了一个从输入到输出的非线性映射，其特征中间不含有任何的语义信息。但是真的是这样吗？SR 网络的特征中间真的没有任何语义信息？

本文对超分模型的语义信息究竟代表什么给出了确切的答复。那就是：SR 网络中的确存在语义信息。不同于分类任务等 High-level 视觉任务，其语义信息与物体的类别等等密切相关，超分任务这种 Low-level 任务其语义信息代表这张图像的退化作用，而与这张图像的内容无关。分类模型的语义信息可以称之为 "Deep Representations (DDR)"，那么超分模型的语义信息可以称之为 "Deep Degredation Representations (DDR)"。

相信本文的发现可以为 SR 网络的可解释性提供一些积累，为更具挑战性的任务提供更好的解决方案，如 Real-world Blind SR。

以一个模型为例，CinCGAN 是没有成对训练数据的真实世界 SR 的代表性解决方案。具体可以参考文章：

底层任务超详细解读 (六)：无成对训练数据的真实世界场景超分解决方案：CinCGAN

CinCGAN 就是为盲超分任务设计的，它能够把退化的 LR 图片映射为去退化作用之后的 HR 图片。但是作者发现 CinCGAN 的应用范围非常有限，即：输入图像的退化作用必须是训练数据的退化作用之一时，CinCGAN 才有去退化的功能。如果输入图像的退化作用不包括在训练数据中，CinCGAN 将无法将退化的输入转换为干净的输入。

这个现象可以用图1来表示。图1中的 (a)，(b)，(c) 分别代表来自数据集 DIV2K-mild，DIV2K-noise20 和 Hollywood 的数据。CinCGAN 模型以无成对训练数据的方式在 DIV2K-mild 数据集 (a) 上进行训练。BM3D 是一个去噪的模型，作者进一步使用 bicubic interpolation 上采样来统一输出图片的分辨率。

作者把数据 (a)，(b)，(c) 分别输入两个模型 CinCGAN 和 BM3D 中。得到下图1的结果。结果发现：

如果输入图像符合训练数据分布 (a) (训练数据和测试数据都是 DIV2K-mild)，CinCGAN 将产生比 BM3D 更好的复原结果。
如果输入图像不符合训练数据分布 (b)，(c) (训练数据是 DIV2K-mild，测试数据是 DIV2K-noise20 或 Hollywood)，CinCGAN 将产生较差的复原结果，无法完成去噪任务。

相比较而言，去噪模型 BM3D 具有明显而稳定的去噪性能。虽然 BM3D 的结果非常一般 (图像纹理和细节在很大程度上被过度平滑)，但它确实试图去噪了每一张输入图像。这揭示了在传统方法和基于 CNN 的方法之间存在显著的差异。

换句话说，CNN 的 SR 网络似乎在它的训练数据分布中找出了具体的退化类型，任何训练数据分布不匹配都将使网络 "关闭" 它的这种能力。

图1：把数据 (a)，(b)，(c) 分别输入两个模型 CinCGAN 和 BM3D 中得到的结果

7.2 分类任务和超分任务的问题定义

这一小节我们简单介绍下分类任务和超分任务的问题定义和网络架构，已经熟悉的同学们可以直接跳过这一小节。

分类任务定义

分类任务希望通过一个神经网络对任意的输入计算一个概率值

其中, 是网络的预测结果, 而是标签 (真值), 分类任务一般通过下面的 Cross-Entropy Loss 来优化模型:

超分任务定义

一般图像退化过程可以建模如下：

其中, 是图, 是卷积操作, 是退化核, 是下采样操作, 代表加性噪声。因此, 超分辨率可以被视为去噪和去模糊等其他恢复任务的超集。

超分任务希望通过一个神经网络对任意的 LR 输入计算一个图片

其中，是 scale factor，代表超分的倍数。

超分网络一般有2类：一类是 MSE-based，一类是 GAN-based。

前者使用下面的式子优化：

这个式子把 SR 任务视为是一个回归问题，其利用诸如 Loss 这种逐像素损失来实现高 PSNR 值。

这是许多图像复原任务中最广泛使用的损失函数。然而，这种损失往往会产生过度平滑 (over-smoothing) 的图像。为了生成逼真的 SR 结果，后一种方法结合了对抗性学习和感知损失，以有利于更好的视觉感知：

在这种对抗学习中, 引入了判别器来区分超分辨率图像和真实的 HR 图像。那么, 的损耗定义为:

从公式中，我们可以清楚地看到，图像分类和图像超分辨率代表了机器学习中的两个典型任务：分类和回归。分类任务的输出是离散的，而回归任务的输出是连续的。

7.3 超分模型中的 "语义" 信息：退化作用

本文作者探究超分模型中的 "语义" 信息的主要方法是：首先借助 PCA 把特征的维度降为50，再使用 t-SNE 降为2维进行可视化。

可视化实验1：

首先可视化的是 CinCGAN 模型，因为 CinCGAN 模型对于不同的输入表现非常不同，因此作者进一步对比了3个不同的测试数据集：1) DIV2K-mild：CinCGAN 模型的原始训练集。2) DIV2K-noise20：在 DIV2K 数据集上添加 =20的噪声信号。3) Hollywood100：从 Hollywood 数据集中挑选的100张图片，包含具有未知退化的真实世界旧胶片帧。每个数据集都有100张图片。

这3个不同的数据集通过 CinCGAN 模型的可视化结果如下图 2(a) 所示。可以看到，对于来自相同数据集的数据点，往往聚类在一起。而对于不同的数据集，即使它们的图像内容相同，它们对应的数据点仍然属于不同的聚类中心。在分类任务中，往往语义信息相似的点 (比如都是 dog) 才会聚集在一起，这说明 CinCGAN 模型中包含的语义信息与图像的退化类型密切相关，而不是与图像的内容信息密切相关。

可视化实验2：

基于以上发现，作者很好奇这种退化相关的语义信息是否在 SR 网络中是普遍存在的。因此，作者设计了一个通用的基于 GAN 的 SR 架构 SRGAN-wGR (wGR 和 woGR 的意思分别表示网络是否有全局残差，区别如下图3) 来重复可视化实验。SRGAN-wGR 只使用 DIV2K 数据集来进行训练，LR 图片只使用双三次下采样，没有其他退化作用。作者使用3个不同退化类型的数据集进行测试：1) DIV2K-clean：DIV2K 的原始验证集。2) DIV2K-blur：在 DIV2K-clean 数据集上添加高斯模糊核，从而使其包含额外的模糊退化。对于每幅图像，kernel width 从 [2, 4] 中随机采样，kernel size 固定为15×15。3) DIV2K-noise：在 DIV2K-clean 数据集上添加高斯噪声，从而使其包含额外的噪声信息。噪声水平从 [5, 30] 中随机采样。

这3个不同的数据集通过 SRGAN-wGR 模型的可视化结果如下图 2(b) 所示。可以看到，对于来自相同退化类型的数据集的数据点，往往聚类在一起。而对于不同退化类型的数据集，即使它们的图像内容相同，它们对应的数据点仍然属于不同的聚类中心。这3个数据集是完全相同的图像内容，只是退化作用不一样，结果是聚类成为了不同的3类，这个结果很好地说明了 SR 任务的语义信息其实是退化作用而不是图像内容，作者将这种语义称为深度退化表示 (Deep Degredation Representations，DDR)。

图2：3个不同的数据集通过 CinCGAN 模型 (a) 和 SRGAN 模型 (b) 的可视化结果

图3：SRResNet-woGR 和 SRResNet-wGR 的模型架构，这里 RB1 代表第1个残差模块

小结

通过以上2个可视化实验和分析，作者回答了：

我们能在超分辨率网络中找到语义信息吗？
SR 网络中的语义信息是什么?

答案是： 我们确实能在超分辨率网络中找到语义信息，SR 网络中的语义信息其实是退化作用而与图像内容无关，作者将这种语义称为深度退化表示 (Deep Degredation Representations，DDR)。

需要注意的是 SR 模型训练时只看到过 clean 的 LR 和 HR 图片，而没看到过带有其它的退化作用的图像。但是在测试时却能够区分不同的退化作用，这证明了退化作用是隐含在图像内部的语义信息。

7.4 超分模型和分类模型中 "语义" 信息的差异

分类任务作为 High-level 任务中最具代表性的任务，其语义标签就是图像的类别。由于已经有了明确定义的语义信息，分类网络被天然地被赋予了语义辨别的能力。以 ResNet-18 为例，在 CIFAR-10 数据集上测试，各个层的特征输出可视化结果如下图4所示。随着网络层数的加深，不同类别的图片的特征区分度更加明显了，展示出了分类网络的语义信息。分类网络的语义信息与人工预先定义的类别标签是一致的。

图4：CIFAR-10 数据集通过 ResNet-18 模型不同层特征的 t-SNE 可视化结果

接下来对比超分模型和分类模型中 "语义" 信息的差异。作者首先在 CIFAR-10 测试集 "plane"，"car"，"bird" 上添加一些 noise 或者 blur 的退化作用，这样就一共有9种训练样本，它们分别是：plane(clean)，car(clean)，bird(clean)，plane(blur)，car(blur)，bird(blur)，plane(noise)，car(noise)，bird(noise)。

将以上这9种训练样本通过1种分类网络 (ResNet-18) 和2种 SR 网络 (SRResNet-wGR，SRGAN-wGR) 得到的特征的 t-SNE 可视化结果如下图所示、在将模糊或噪声添加到数据之后，由分类网络 (ResNet18) 获得的深层特征仍然按照对象类别进行聚类，这表明由分类网络提取的特征更关注 High-level 的对象类别信息，而不是 Low-level 的图像退化信息。相反，通过 SR 网络 (SRResNet-wGR 和 SRGAN-wGR) 获得的深层特征聚类的信息是不同的退化类型信息。换句话讲，相同对象类别的特征没有被聚类在一起，而相同退化类型的特征被聚类在一起。

图5：9种训练样本通过1种分类网络 (ResNet-18) 和2种 SR 网络 (SRResNet-wGR，SRGAN-wGR) 得到的特征的 t-SNE 可视化结果

这个现象直观地说明了 SR 网络和分类网络在深层语义表示上的差异，如下图6所示：分类网络的语义是一种 content-related semantics，与图像内容有关，相同对象类别的特征被聚类在一起。而超分网络的语义是一种 degradation-related semantics，与图像退化有关，相同退化类型的特征被聚类在一起。有趣的是，SR 网络可以学习提取与图像退化信息相关的特征，而无需任何预定义的标签或退化先验。

图6：SR 网络和分类网络在深层语义表示上的差异。分类网络的语义是一种 content-related semantics，与图像内容有关，相同对象类别的特征被聚类在一起。而超分网络的语义是一种 degradation-related semantics，与图像退化有关，相同退化类型的特征被聚类在一起。

7.5 什么样的超分模型能够提取 "语义" 信息

1) 几个用于评估聚类性能的指标

为了更好地衡量衡量语义的区分度，根据 t-SNE 降维后的数据结构，有下面几个用于评估 KK 聚类性能的指标：

Within-Cluster Dispersion (WD)：

其中, 代表属于第个类别的第个数据点, 代表属于第个类别的所有数据点的均值。属于同一类的数据点应该彼此足够接近, WD 度量一个类内的紧密度。

between-clusters dispersion (BD)：

其中，代表所有数据点的均值。BD 度量类与类之间的紧密度。直观上，BD 值越大，表明不同特征聚类之间的区分度越强。

Calinski-Harabaz Index (CHI)：

其中，Calinski-Harabaz Index (CHI) 得分来衡量语义的区分度：不同特征聚类之间的区分度越强，同一类内部的紧密度越高，CHI 分数更高。也就是说，当聚类被很好地分开时，CHI 分数更高，这表明语义区分能力更强。

7.4小节的实验说明了 SR 网络能够学习到一种深度退化表示 (Deep Degredation Representations)，它代表的是与图像退化信息相关的特征。作者进一步介绍两个可以帮助有效提取上述 "语义" 信息的关键因素，即全局残差学习 Global Residual Learning (GR) 和生成对抗训练 (Generative Adversarial Training)。

2) 全局残差学习 Global Residual Learning (GR) 对 SR 网络"语义" 信息提取能力的影响

为了研究全局残差学习 Global Residual Learning (GR) 对 SR 网络"语义" 信息提取能力的影响，作者训练了2个类 SRResNet 的超分网络。一个带有双线性上采样的全局残差连接，一个不带全局残差连接。两个网络都使用 DIV2K 数据集进行训练，LR 图片是从 HR 图片进行双三次下采样得到的。作者分析了这2个网络的输出特征，结果如下图7所示。

图7：SRResNet-woGR (第1行) 和 SRResNet-wGR (第2行) 网络提取的输出特征的 t-SNE 可视化结果

可以得出以下重要的观察结果：对于 MSE-based SR 方法，全局残差学习 Global Residual Learning (GR) 对 SR 网络"语义" 信息提取至关重要。 SRResNet-wGR 的 ResBlock16 层输出特征已经显示出了明显的可区分性，干净、模糊、噪声的数据被单独聚类。但是 SRResNet-woGR 的输出特征则没有。作者认为可能是全局残差学习可以帮助网络提取更多的退化相关特征，而不需要过多地去关注内容信息。

3) 生成对抗训练 (Generative Adversarial Training) 对 SR 网络"语义" 信息提取能力的影响

基于 MSE 的方法和基于 GAN 的方法是目前基于 CNN 的 SR 方法的两种主流大类，网络的代表是 SRResNet 和 SRGAN。本小节讨论二者在特征提取上的差异。作者训练了2个类 SRGAN 的超分网络。一个带有双线性上采样的全局残差连接，一个不带全局残差连接。两个网络都使用 DIV2K 数据集进行训练，LR 图片是从 HR 图片进行双三次下采样得到的。作者分析了这2个网络的输出特征，结果如下图7所示。

图8：SRGAN-woGR (第1行) 和 SRGAN-wGR (第2行) 网络提取的输出特征的 t-SNE 可视化结果

可以得出以下重要的观察结果：对于 GAN-based SR 方法，无论是否使用全局残差学习，SR 网络都能够有效地提取出"语义" 信息。 SRGAN-woGR 的 ResBlock16 层输出特征已经显示出了明显的可区分性，干净、模糊、噪声的数据被单独聚类。作者认为可能是全局残差学习可以帮助网络提取更多的退化相关特征，而不需要过多地去关注内容信息。这清楚地表明，基于 MSE 的方法和基于 GAN 的方法的学习到的深层特征是不同的。作者认为可能是对抗训练的方式能够帮助网络学习到退化内容的信息，而不是图像内容。同时全局残差也是有利于 SR 网络"语义" 信息的提取。

7.6 超分模型能够区分不同退化程度的图像吗

在前面的部分里面，作者通过实验证明了以干净的数据集训练的超分模型能够自动去区分不同退化作用的输入图像。在这一小节中，作者将探索以干净的数据集训练的超分模型能否区分不同退化程度的图像。作者在不同噪声程度和模糊程度的退化图像上测试 SR 网络，结果如下图9所示。除了不同退化类型的输入会造成特征的差异以外，即使是同一类型的退化，不同的退化程度也会造成特征的差异。退化程度之间的差异越大 (如 noise5 和 noise30，blur1 和 blur4)，区分能力越强。

图9：SRResNet-wGR (第1行) 和 SRGAN-wGR (第2行) 在输入不同退化类型图片时的输出特征。即使是同一类型的退化，不同的退化程度也会造成特征的差异。

这也反映了超分网络和分类网络的语义信息的另一个区别。对于分类任务而言，语义信息通常是离散的，因为语义与离散的对象类别相关联。然而，对于超分任务而言，语义信息似乎存在一个连续过渡的谱，即可辨别性与退化类型和程度之间的差异具有单调关系。

7.7 特征图的可视化

在这个小节中，作者直接可视化从 SR 网络提取的深度特征图。具体来说，我们提取从四个模型 (SRResNet-wGR，SRResNet-woGR，SRGAN-wGR 和 SRGAN-woGR) 分别在不同退化 (clean，blur4，noise20) 的图像上获得的特征图。然后，作者将每个特征图视为一个单通道图像，如下图10所示。

图10 (a)： clean 图像得到的特征图保留了原始图像的细节，纹理，内容等的信息。在对输入图像应用模糊和噪声的退化作用之后，提取的特征也出现类似的退化。对于模糊/有噪声的输入图像，提取的特征图也包含相应的模糊/噪声退化作用。

图10 (b)： 主要想讨论全局残差连接 (GR) 的作用。通过采用全局残差连接，提取的特征似乎包含较少的原始形状和内容信息的成分。因此，全局残差连接可以帮助去除冗余的图像内容信息，并使网络更加集中于获得低级的图像退化信息相关的特征。

图10 (c)： 主要想讨论 GAN-based model 的作用。作者发现 GAN-based SR 方法可以更好地获得区分不同退化类型的特征表示。如图10(a) 和图10(c) 所示，与 MSE-based SR 方法相比，GAN-based SR 方法提取的特征图包含更少的对象形状和内容信息。这部分解释了为什么 GAN-based SR 方法的深层特征更具区分性。

图10 (d)： GAN-based SR 方法当存在全局残差时，包含图像原始图像的内容信息进一步减少，导致 SR 模型对退化类型的更强的辨别能力。

7.8 新的发现：超分模型的泛化性

图像复原任务面临的一大挑战是，现实世界中存在无数复杂的情况，退化类型和程度各不相同。因此，设计一个能够成功处理所有退化情况的鲁棒性强的算法是很重要的。解决这一问题的一个关键是使算法具有退化适应性 (Degradation-Adaptive)，从而使得模型可以处理不同的退化作用。

在前面的部分里面，作者通过实验证明了以干净的数据集训练的超分模型能够自动去区分不同退化作用的输入图像。训练数据仅包含下采样退化作用，而没有模糊或噪声。如果我们在训练过程中使用加了模糊或者噪声的数据会怎样？为了探索这个问题，作者在噪声数据上训练了一个 SRGAN-wGR 模型 (在 LR 图像中添加 =20 的高斯噪声)，并比较在干净数据和退化数据上训练的模型之间的特征差异。如下图11所示，作者观察到，通过将退化数据合并到训练中，SR 模型能够同时完成复原和超分任务。从特征方面来看，如果模型只在干净数据上训练，得到的特征表示对干净数据和有噪数据表现出很强的区分能力 (图11左)；但是，如果模型是在退化的数据上训练的，这种区分能力就消失了 (图11右)。

这表明，通过将更多的退化数据结合到训练中，模型对更多的退化类型表现出了鲁棒性，并且退化数据深层特征的分布变得与干净数据深层特征的分布一致，体现出超分模型的泛化性能。

图11：如果模型只在干净数据上训练，得到的特征表示对干净数据和有噪数据表现出很强的区分能力 (左)；但是，如果模型是在退化的数据上训练的，这种区分能力就消失了 (右)。

总结

本文对超分网络的语义信息进行了详细而深入的研究和探讨，是一篇高质量的研究超分模型可解释性的技术报告。这份报告的结论如下：

超分任务这种 Low-level 任务其语义信息代表这张图像的退化作用，而与这张图像的内容无关，作者将这种语义称为深度退化表示 (Deep Degredation Representations，DDR)。
通过超分网络 (SRResNet-wGR 和 SRGAN-wGR) 获得的深层特征聚类的信息是不同的退化类型信息。对深层特征进行聚类，则发现相同对象类别的特征没有被聚类在一起，而相同退化类型的特征被聚类在一起。
对于 MSE-based SR 方法，全局残差学习 Global Residual Learning (GR) 对 SR 网络"语义" 信息提取至关重要。对于 GAN-based SR 方法，无论是否使用全局残差学习，SR 网络都能够有效地提取出"语义" 信息。通过特征图可视化也能够验证这一点：全局残差学习 SR 模型和 GAN-based SR 模型的特征图包含图像原始信息更少，退化信息更多，导致 SR 模型对图像退化类型有更强的辨别能力。
超分模型能够区分不同退化程度的图像。对于分类任务而言，语义信息通常是离散的，因为语义与离散的对象类别相关联。除了不同退化类型的输入会造成特征的差异以外，即使是同一类型的退化，不同的退化程度也会造成特征的差异。退化程度之间的差异越大，区分能力越强。
通过将退化数据合并到训练中，SR 模型能够同时完成复原和超分任务。但是深层模型的特征对干净数据和有噪数据没有了区分能力。