目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。
近几年来,目标检测算法取得了很大的突破。比较流行的算法可以分为两类,一类是基于Region Proposal的R-CNN系算法(R-CNN,Fast R-CNN, Faster R-CNN等),它们是two-stage的,需要先算法产生目标候选框,也就是目标位置,然后再对候选框做分类与回归。而另一类是Yolo,SSD这类one-stage算法,其仅仅使用一个卷积神经网络CNN直接预测不同目标的类别与位置。第一类方法是准确度高一些,但是速度慢,但是第二类算法是速度快,但是准确性要低一些。
1.FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding
论文链接:
https://www.aminer.cn/pub/6049ecc691e01118b758f098?conf=cvpr2021
简介:给出了很少的训练示例,这就是所谓的少发物体检测(FSOD),这引起了人们的新兴兴趣来识别以前看不见的物体。最近的研究表明,良好的特征嵌入是获得良好的一次性学习性能的关键。我们观察到具有不同的联合交叉点(IoU)分数的对象建议类似于在对比方法中使用的图像内增强。并且我们利用这种类比,并结合监督的对比学习,以在FSOD中实现更强大的对象表示。我们介绍了通过对比提议编码(FSCE)进行的少量物体检测,这是一种简单而有效的方法,用于学习对比感知的对象提议编码,从而有助于对检测到的物体进行分类。我们注意到稀有对象的平均精度(AP)下降主要是由于将新实例错误分类为可混淆类。而且,通过我们的对比提案编码损失(CPE损失),可以提高实例级别的类内部紧凑性和类间差异,从而缓解了分类错误的问题。我们的设计在任何镜头和所有数据分割方面均胜过当前最新技术,在标准基准PASCAL VOC上最高+ 8.8%,在具有挑战性的COCO基准上最高+ 2.7%。
2.General Instance Distillation for Object Detection
论文链接:
https://www.aminer.cn/pub/6040b1fa91e011a0653f071c?conf=cvpr2021
简介:近年来,知识蒸馏已被证明是模型压缩的有效解决方案。这种方法可以使轻量级的学生模型获得从繁琐的教师模型中提取的知识。但是,以前的蒸馏检测方法对于不同的检测框架具有较弱的概括性,并且严重依赖地面实况(GT),而忽略了实例之间的宝贵关系信息。因此,我们提出了一种新的基于区分性实例的检测任务的精馏方法,该方法不考虑GT区分出的积极或消极,这称为一般实例精馏(GID)。我们的方法包含一个通用实例选择模块(GISM),以充分利用基于特征的,基于关系的和基于响应的知识进行蒸馏。广泛的结果表明,在各种检测框架下,学生模型可显着提高AP的表现,甚至优于老师。具体来说,RetinaNet和ResNet-50在COCO数据集上具有GID的mAP的mAP达到了39.1%,比基线的36.2%超出了2.9%,甚至比具有38.1%的AP的基于ResNet-101的教师模型更好。
3.Depth from Camera Motion and Object Detection
论文链接:
https://www.aminer.cn/pub/603f692691e011cacfbda372?conf=cvpr2021
简介:本文解决了在给定一些摄像机运动测量值(例如来自机器人运动学或车辆里程测量法)的情况下学习估计被检测物体深度的问题。我们通过以下方法实现这一目标:1)设计一个循环神经网络(DBox),它使用边界框和未校准的相机运动的广义表示来估计对象的深度,以及2)通过运动和检测数据集(ODMD)引入对象深度。ODMD培训数据是可扩展和可配置的,并且ODMD基准测试包含21,600个示例,涵盖四个验证和测试集。这些集合包括使用末端执行器摄像头从YCB数据集中定位对象的移动机器人实验,以及在摄像头运动或边框数据中添加了扰动的示例。除了ODMD基准测试之外,我们还在其他单目应用领域中评估DBox,在现有的驾驶和机器人技术基准测试中获得最先进的结果,并使用照相手机估算物体的深度。
4.MobileDets: Searching for Object Detection Architectures for Mobile Accelerators
论文链接:
https://www.aminer.cn/pub/5eabf34391e011664ffd284f?conf=cvpr2021
简介:基于深度卷积的倒置瓶颈层已成为移动设备上最新对象检测模型的主要构建块。在这项工作中,我们通过重新讨论常规卷积的有用性来质疑这种设计模式在广泛的移动加速器中的最优性。通过在搜索空间中加入常规卷积,并通过神经体系结构搜索将其有效地放置在网络中,我们在延迟精度折衷方面取得了实质性的改进。我们获得了一系列的对象检测模型MobileDets,它们可以跨移动加速器获得最先进的结果。在COCO对象检测任务上,MobileDets在可比的移动CPU推理延迟上比MobileNetV3 + SSDLite领先1.7 mAP。MobileDets在移动CPU上的运行速度也相当快,在移动CPU上的性能优于MobileNetV2 + SSDLite,分别为1.9 mAP,EdgeTPU和3.7 mAP。此外,即使不使用功能金字塔,MobileDets仍可与移动CPU上最新的MnasFPN相提并论,并且EdgeTPU和DSP上的mAP得分更高,速度提高了2倍。
5.UP-DETR: Unsupervised Pre-training for Object Detection with Transformers
论文链接:
https://www.aminer.cn/pub/5fb6418191e0116363c2c6a9‘?conf=cvpr2021
简介:借助变压器编码器-解码器体系结构,带变压器的目标检测(DETR)借助Faster R-CNN达到了竞争性性能。受到预训练转换器在自然语言处理中的巨大成功的启发,我们提出了一个名为“随机查询补丁检测”的前置任务,以无监督的预训练DETR(UP-DETR)进行对象检测。具体来说,我们从给定图像中随机裁剪补丁,然后将其作为查询提供给解码器。该模型经过预训练,可以从原始图像中检测这些查询补丁。在预培训期间,我们解决了两个关键问题:多任务学习和多查询本地化。(1)为了权衡在前置任务中分类和定位的多任务学习,我们冻结了CNN主干,并提出了与补丁检测共同优化的补丁特征重构分支。(2)为了执行多查询本地化,我们从单查询补丁引入UP-DETR,并将其扩展到具有对象查询混洗和注意掩码的多查询补丁。在我们的实验中,UP-DETR在PASCAL VOC和COCO数据集上具有更快的收敛性和更高的精度,从而极大地提高了DETR的性能。
阅读原文,直达“CVPR2021”会议专题,了解更多会议论文!