
极市导读
论文对CornerNet进行了性能优化,提出了CornerNet-Saccade和CornerNet-Squeeze两个优化的CornerNet变种,优化的手段具有很高的针对性和局限性,不过依然有很多可以学习的地方。>>加入极市CV技术交流群,走在计算机视觉的最前沿
-
论文地址:https://arxiv.org/abs/1904.08900 -
论文代码:https://github.com/princeton-vl/CornerNet-Lite
Introduction
-
CornerNet-Saccade:该变种主要通过降低需要处理的像素数量来达到加速的目的,首先通过缩小的图片来获取初步的目标位置,然后根据目标位置截取附近小范围的图片区域来进行目标的检测,准确率和速度分别可达到43.2%AP以及190ms/张。 -
CornerNet-Squeeze:该变种主要通过降低每个像素的处理次数来达到加速的目的,将SqueezeNet和MobileNets的思想融入hourglass提出新的主干网络,准确率和速度分别可达到34.4%AP以及30ms/张。
CornerNet-Saccade
Estimating Object Locations
-
将输入的图片缩小至长边为255像素和192像素两种尺寸,小图进行零填充,使其能同时输入到网络中进行计算。 -
对于缩小的图片,预测3个attention特征图,分别用于小目标(长边<32像素)、中目标(32像素<=长边<=96像素)和大目标(长边>96像素)的位置预测,这样的区分能够帮助判断是否需要对其位置区域进行放大,对于小目标需要放大更大,下一部分会提到。 -
Attention特征图来源于hourglass上采样部分的不同模块,尺寸较大的模块特征图输出用于更小的目标检测(主干网络结构后面会介绍),对每个模块输出的特征图使用 Conv-ReLU模块接 Conv-Sigmoid模块生成Attention特征图。
Detecting Objects
-
如果检测结果出现在截取区域的边缘,需要将其去掉,因为该截图区域很可能包含了目标的一部分。 -
如果目标挨得很近,两者的截取区域会高度重叠,网络很可能产生高度重叠的重复结果。为此,采用类似NMS方法来处理各尺寸预测结果中过近的预测位置,从而提高效率。
-
批量进行截取区域的获取 -
将原图保存在GPU内存中,并且直接在GPU进行原图的放大以及截取 -
批量进行截取区域的检测
Backbone Network
CornerNet-Squeeze
SqueezeNet的核心在于fire模块,首先通过包含 卷积的squeeze层降低输入特征的维度,然后通过包含 卷积和 卷积的expand层提取特征。MobileNet则采用 深度分离卷积替换标准的 卷积,能够有效地减少网络的参数。
-
为了降低hourglass模块的最大特征图,在第一个hourglass模块前增加一个下采样模层。对应地,去除每个hourglass模块的一个下采样层。 -
将预测模块的 卷积替换为 卷积。 -
将最近的相邻上采样层替换为 的反卷积。
Experiments
Conclusion
推荐阅读


