
极市导读
为解决单幅图像超分辨率(SISR)领域普遍存在的难部署于资源受限设备的问题,本文提出蓝图可分离残差网络,引入更有效注意力操作的同时摒弃传统冗余卷积操作,性能达到目前高效SR方法中的SOTA。代码即将开源~ >>加入极市CV技术交流群,走在计算机视觉的最前沿
为解决单幅图像超分辨率(SISR)领域普遍存在的难部署于资源受限设备的问题,本文提出蓝图可分离残差网络,引入更有效注意力操作的同时摒弃传统冗余卷积操作,性能达到目前高效SR方法中的SOTA。代码即将开源~
论文地址:https://arxiv.org/abs/2205.05996
代码地址:https://github.com/xiaom233/BSRN
一、单幅图像超分辨率领域的一大痛点
单幅图像超分辨率(SISR,以下简称SR)旨在由低分辨率输入重建并输出高分辨率图像,然而现有方法普遍存在模型容量大、计算复杂(密集层连接策略)等特点。对于更看重实际推理速度的现实场景而言,能做到轻量且有效的方法更被青睐。
而在现有流行的SOTA模型之一——RFDN中,一个明显的问题便是其存在大量冗余的卷积操作,这些冗余不可避免的为模型带来计算负担。
因此本文设计轻量级的蓝图可分离残差网络(BSNR)来解决上述问题,主要针对优化卷积操作和引入有效注意力模块两个方面展开。其简单性能对比如下所示:
二、如何解决?——BSNR深度剖析
如图2所示,BSNR由四个部分所构成:浅层特征提取、深层特征提取、多层特征融合以及图像重建。
在第一个BSConv(蓝图卷积)之前,输入图片被简单复制并沿通道维度连接至一起。此处BSConv的作用是扩展通道至更高维度并进行浅层特征提取。
其中BSConv为CVPR 2020中论文《Rethinking Depthwise Separable Convolutions: How Intra-Kernel Correlations Lead to Improved MobileNets》所提出,这里仅做简要介绍:
简析蓝图卷积(BSConv)
蓝图卷积与GhostNet有异曲同工之妙,作者等人对卷积核进行可视化后,发现很多卷积核呈现类似的分布(即类似于一个模子/蓝图,经过不同线性变换得到),如下图:
因此可将蓝图卷积表示如下(卷积核由蓝图内核(即一个K×K的卷积核)和一个M×1的权重向量组成):
那么具体如何实现这样的卷积呢?对于BSConv-U(无限制蓝图卷积)来说,可视为深度可分离卷积的逆过程,即先对深度方向上加权组合再卷积,如下图所示:
即与深度可分离卷积(DSC)相比,DSC相当于隐式地假设一个用于所有内核的3D蓝图,而BSConv则是依赖于每个内核的单独2D蓝图。
回到图2,深层特征提取部分中顺序堆叠的若干个ESDB被用于提取并细化深度特征。同时不同阶段/深度的特征输出在多层特征融合部分被连接至一起,并通过1×1卷积和GELU函数进行进一步融合和映射。
图像重建之前,再次使用BSConv来细化融合并映射后的特征,同时一个横跨多个ESDB的残差连接被应用于重建前的特征。
最终的图像重建过程由一个标准3×3卷积层和pixel-shuffle操作组成,同时用如下损失函数进行优化(其中
模型核心组件——高效可分离蒸馏块(ESDB)剖析
如图6 (b),ESDB由三个部分所构成:特征蒸馏(Conv-1)、特征浓缩/细化(BSRB)及特征增强(注意力模块)。
各级特征依次通过并行的蒸馏、浓缩操作,并在最后沿通道维度拼接起来,辅以1×1卷积进一步浓缩特征。
其中BSRB代表蓝图浅残差块,它以上述所介绍的无限制蓝图卷积为基础,辅以残差连接与GELU激活函数所组成。
为什么要使用蓝图卷积而不是其他的轻量级卷积操作呢?是因为作者等人考虑到,此前有大量研究证明在多数情况下蓝图卷积对标准卷积表现出更好的分离表现,因此使用蓝图卷积在轻量化的同时保持模型性能。其简单对比结果如下表所示:
在模块的尾部,添加了两个不同的注意力模块来进一步提高模型表现能力。ESA代表增强空间注意模块(详见论文),其实现如图6 (e)所示。CCA则代表对比度感知通道注意模块(详见论文),其实现如图6 (f)所示,CCA不同于以往利用全局平均池化后的特征计算出的通道注意力,而是利用平均值与标准差之和的对比信息来计算通道注意力。
需要注意的是,论文中将ESA中的卷积替换为蓝图卷积,旨在减轻注意力计算带来的额外负担。
本文将两种不同的注意力方法设计为串联形式,先空间后通道。笔者思考CBAM中先通道后空间的方式,CBAM中作者等人对先空间后通道、先通道后空间、通道与空间并行这三种不同的注意力顺序进行了一些对比实验,最终先通道后空间的形式性能权衡最好。因此尚不清楚本文中两种不同的注意力模块交换次序后是否会带来更好的效果。
三、性能对比
论文进行了大量详细的性能对比实验,其与各种流行的SOTA方法比较结果如下:
其可视化结果如下:
其实际推理速度对比如下:
四、思考与总结
本文以轻量且有效为目标,提出针对优化卷积与引入注意力两方面的BSNR方法,性能得到有效提升。
然而本文针对参数量展开对比,在在现实场景中实际推理速度更被看重,而作为理论分析的参数量仅仅是物理设备上推理时间的一种表示。
在表3中本文方法与RFDN进行对比,尽管参数量大幅度减少,实现了理论级别的“轻量化”,然而Runtime指标却出现意料之外的上升。
显然,本文的方法更为耗时。满足理论意义上的“轻量化”似乎并不能很好实现本文最初的目标,即解决难部署于资源受限设备上的问题。
但蓝图卷积的成功引入,注意力方法的成功应用,都给了我们一定启发,即使注意力会带来额外的计算负担,也可以用蓝图卷积在保持性能的同时去减轻一定负担。
期待未来能看到更多看重实际应用的工作出现~
公众号后台回复“数据集”获取30+深度学习数据集下载~
# 极市平台签约作者#
Ziyang Li
知乎:Ziyang Li
东电机器人专业在读,一个努力上进的CVer,一个普普通通的学生。
研究领域:先进传感技术、模式识别、深度学习、机器学习。
希望将路上的收获分享给同样前进的你们,共同进步,一起加油!
作品精选:
CVPR 2022 Oral|百度&中科院开源新的视觉Transformer:卷积与自注意力的完美结合
性能远超ConvNeXt?浅析谷歌提出的「三合一」transformer模型MaxViT+伪代码分析
觉得有用麻烦给个在看啦~ 

