大数跨境
0
0

DSRL:灵活而简单的框架,提高网络精度的且不引入额外的计算量,CVPR2020

DSRL:灵活而简单的框架,提高网络精度的且不引入额外的计算量,CVPR2020 极市平台
2021-04-28
1
导读:本文提出提出了灵活而简单的双支路网络框架(叫DSRL),可以有效提高网络精度的同时不引入额外的计算量。
↑ 点击蓝字 关注极市平台

作者丨Z
审稿丨邓富城
编辑丨极市平台

极市导读

 

本文提出DSRL框架,引入了超分辨率作为辅助支路,来帮助网络保持高分辨率特征信息,并且在推理阶段将其从网络中删除,从而降低了算力(金钱)的消耗。 >>公众号后台回复“79”或者“陈鑫”获得CVPR 2021:TransT 直播链接

深度学习网络模型的性能和网络的大小有着密切的关系,大型网络在性能上一般比小型网络模型更好,显而易见,大型网络推理运行时消耗的算力要求比较高,而算力代表“金钱”!。本文提出DSRL框架,引入了超分辨率作为辅助支路,来帮助网络保持高分辨率特征信息,并且在推理阶段将其从网络中删除,从而降低了算力(金钱)的消耗。

paper: https://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_Dual_Super-Resolution_Learning_for_Semantic_Segmentation_CVPR_2020_paper.pdf

Abstract

语义分割是场景理解的一项基本任务, 它在自动驾驶,机器人感应等领域中具有多种潜在应用。对于大多数此类应用,同时保持高效的推理速度和出色的性能是一个挑战。

目前语义分割通常用高分辨率的输入去提高模型性能,这种方法使得计算量增加很多。我们提出了灵活而简单的双支路网络框架(叫DSRL),可以有效提高网络精度的同时不引入额外的计算量。具体的来说,我们的方法分为三部分:1.超分辨率分割(SSSR)2.单张图像超分辨率(SISR)3.特征关联(FA)模块。可以在低分辨率的输入的情况下保持高分辨率,同时减少计算量。这种方法还可以很简单的应用到其他任务上如人体姿态估计。我们的方法在人体姿态估计与Cityscaps的分割任务上提高了2%的精确度的同时保持Flops不变。

双支路网络框架 (Dual Super-Resolution  Learning)

DSRL框架的整体结构,如图1所示。

图1.概述了提出的DSRL框架,包括三个部分:语义分割超分辨率(SSSR)分支,单幅图像超分辨率(SISR)分支和特征关联(FA)模块。编码器在SSSR分支之间共享和SISR分支。该体系结构将通过三个方面进行优化:SISR分支的MSE损失、FA损失和特定于任务的损失,例如,语义分割的交叉熵损失。

SISR可以在低分辨率输入下有效地重建图像的结构细节信息,这对于语义分割十分有帮助。为了更好地理解,我们将图2中的SSSR和SISR的特征可视化。通过比较图3中的(b)和(c),我们可以轻松地发现SISR包含对象的更完整结构。尽管这些结构没有明确暗示类别,但是可以通过像素与像素或区域与区域之间的关系有效地对它们进行分组。众所周知,这些关系可以隐式传递语义信息,从而有利于语义分割的任务。因此,我们应用从SISR中恢复的高分辨率特征信息来辅助网络学习,并且这些细节可以通过内部像素之间的相关性或关系来建模。

图2.(a)语义分割超分辨率(SSSR)分支;   (b)扩展(a)与单个图像的超分辨率(SISR)分‘’编码器‘’表示共享特征提取器。
图3.相同输入(0.5×)下SSSR和SISR特征级可视化. (a) 输入图像,(b)SSSR特征可视化,和(c)SISR特征可视化。

分辨率与性能

最近,紧凑的分割网络已经出现由于其在资源受限设备中的应用优势,也引起了广泛关注。然而,它们的性能远远不如最先进的方法。为了缩小精度差距,这些方法通常是结合高分辨率输入(例如1024×2048或512×1024),这也带来了显著的计算代价。一旦限制了输入大小,不管什么规模网络,它们的性能会下降,图4显示了两个具有代表性的分段网络的性能:ESPNetv2[24]和DeepLabv3+[4],具有不同的输入分辨率。我们可以观察到当输入分辨率从512×1024降低时到256×512,两种网络的精度都降低了超过10%。

图4。CityScapes验证集上不同网络的精度与输入大小。绿点表示不同输入大小(256×512, 320×640, 384×768,448×896, 512×1024和1024×2048)的DeepLabv3+的结果,蓝色三角形标记ESPNetv2的结果。红色代表我们的方法基于DeepLabv3+和ESPNetv2。

实验对比

为了进一步验证我们方法的有效性,我们将双重超分辨率学习方法应用于其他一些架构,例如,以ResNet101为背景的PSPNet,以及为实时应用而设计的几个紧凑型网络,例如, 基于ResNet的DABNet和BiseNet18。 可以看到,我们的方法可以改善不同复杂性网络上的结果:ESPNetv2,BiseNet,DABNet,PSPNet和DeepLabv3 +。对于使用解码器(例如PSPNet)的网络,测试集的改进幅度为4.3%,而baseline为69.3%。与蒸馏方法相比,我们提供了另一条有效的支路,以在相同的FLOPs下获得更高的性能。

表1。在CityScapes验证(Val)和测试(test)上与其他最新方法的分割结果比较。我们报告的GFLOPs的图像分辨率与计算精度。†:指用知识提炼出来的中的方法,‡:指在多个尺度上测试网络。

为了更好地理解DSRL,我们可视化baseline ESPNetv2和DSRL之间的最终分割特征。如下图所示,我们的方法 能显著增强边界的锐度和清晰度 提高不同类别的完整性,例如道路, 汽车等,从而增强了模型对车的最终辨别能力。

图5。分割特征的可视化 (a)输入图像 (b) 分割特征比较baseline(c)DSRL分割特征

图6显示了每个类别的IoU。可以看到,我们的DSRL方案显著地提高了性能,带来性能明显提升的是那些小目标,例如pole和rider。

图6.DSRL方法在实际应用中的有效性举例 。CityScapes验证集下DeepLabv3+网络上的各类IoU分数,我们的DSRL方案显著地提高了性能,带来性能明显提升的是那些小目标,例如pole和traffic light。

另外在人体姿态估计的试验中,不同的分辨率作为输入,我们的方法比HRNet高出1.2%到3.3%,反映出了良好的高分辨的输出对于该任务也是有提升的。反映出了良好的高分辨的输出对于该任务也是有提升的。

表2.COCO2017验证集上HRNet-w32的人体姿势估计结果。

总结

本文基于现有语义分割算法,引入了超分辨率恢复的任务,构成DSRL框架,DSRL含有SISR和SSSR双个支路,它们共享相同的特征提取器,在训练过程中SISR支路对SSSR支路的特征的进行了优化,然后在推理阶段将SISR支路从网络中删除,实现了更加轻量的推理结构,因此,DSRL框架在算力有限的设备上的有一定的研究意义,并且降低了大规模部署推理服务时的成本。同时,DSRL框架很容易扩展到其他任务,并且通过多个的网络证明了我们的方法对性能提升的有效性,通用性。



如果觉得有用,就请分享到朋友圈吧!

△点击卡片关注极市平台,获取最新CV干货

公众号后台回复“李铎”获取【极市线下沙龙】CVPR2021:通过反转卷积的内在性质进行视觉识别资源


极市干货

YOLO教程:YOLO系列(从V1到V5)模型解读YOLO算法最全综述:从YOLOv1到YOLOv5

实操教程使用Transformer来做物体检测?DETR模型完整指南PyTorch编译并调用自定义CUDA算子的三种方式

算法技巧(trick)半监督深度学习训练和实现8点PyTorch提速技巧汇总

最新CV竞赛:2021 高通人工智能应用创新大赛CVPR 2021 | Short-video Face Parsing Challenge


极市原创作者激励计划 #


极市平台深耕CV开发者领域近5年,拥有一大批优质CV开发者受众,覆盖微信、知乎、B站、微博等多个渠道。通过极市平台,您的文章的观点和看法能分享至更多CV开发者,既能体现文章的价值,又能让文章在视觉圈内得到更大程度上的推广。

对于优质内容开发者,极市可推荐至国内优秀出版社合作出书,同时为开发者引荐行业大牛,组织个人分享交流会,推荐名企就业机会,打造个人品牌 IP。

投稿须知:
1.作者保证投稿作品为自己的原创作品。
2.极市平台尊重原作者署名权,并支付相应稿费。文章发布后,版权仍属于原作者。
3.原作者可以将文章发在其他平台的个人账号,但需要在文章顶部标明首发于极市平台

投稿方式:
添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿
△长按添加极市平台小编


觉得有用麻烦给个在看啦~  
【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读7.6k
粉丝0
内容8.2k