大数跨境
0
0

CVPR 2021 | MSRA提出像素级别自监督预训练方法PixPro,大幅提升下游检测分割任务性能

CVPR 2021 | MSRA提出像素级别自监督预训练方法PixPro,大幅提升下游检测分割任务性能 极市平台
2021-04-14
1
导读:本文介绍了来自清华、西交大和MSRA提出的像素级别的对比学习新基准PixContrast和挖掘像素级别一致性的新方法PixPro。
↑ 点击蓝字 关注极市平台

来源丨CVer
编辑丨极市平台

极市导读

 

本文介绍了来自清华、西交大和MSRA提出的像素级别(Pixel-level)的对比学习新基准PixContrast和挖掘像素级别一致性的新方法PixPro,大幅提升了自监督方法在物体检测和语义分割等下游任务上的性能。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

过去的一年,基于图像级别对比学习(Contrastive Learning)的自监督学习方法在ImageNet线性评估上取得了不俗的成绩,但其在重要的下游任务物体检测和语义分割上并未有太大提升。清华、西交大和MSRA提出了像素级别(Pixel-level)的对比学习新基准PixContrast和挖掘像素级别一致性的新方法PixPro,大幅提升了自监督方法在物体检测和语义分割等下游任务上的性能。基于ResNet-50,PixPro在Pascal VOC(C4)物体检测,COCO (FPN/C4)物体检测和Cityscapes语义分割任务上分别取得了60.2 AP,41.4/40.5 mAP和77.2 mIoU的结果,分别比之前的最优方法提升了2.6 AP,0.8/1.0 mAP和1.0 mIoU

Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised Visual Representation Learning


论文地址:https://arxiv.org/abs/2011.10043
代码地址:https://github.com/zdaxie/PixPro

注:文中部分的图示选自下述链接,推荐学习
https://ancientmooner.github.io/doc/recent-progress-self-supervised-learning-cv-hanhu.pdf

自MoCo以来,自监督学习方法在ImageNet线性评估上的表现取得了长足的进步,其top-1准确率在过去一年内从60.6%上升到了CLSA的76.2%,提升幅度达到了惊人的15.6%,如下图所示:

图1 过去一年自监督预训练方法在ImageNet-1K线性评估上的性能提升

然而,在主要的下游微调任务Pascal VOC物体检测上,其性能在过去的一年里只从MoCo的55.9 AP上升到了InfoMin的57.6 AP,提升幅度仅有1.7 AP,如下图所示:

图2 过去一年自监督预训练方法在Pascal VOC物体检测任务上的性能提升

基于此,MSRA提出了主要针对下游密集任务的自监督算法PixPro,一下子将之前最好的结果提升了2.6 AP,比过去一年总的进步还要大。而其中的关键,就是从图像(实例)级别的预训练,转向像素级别的预训练。如图3所示,左边是传统的基于实例区分的自监督学习方法,包括memory bank,MoCo,SimCLR,BYOL,SwaV和PIC等方法均属于此类,右边是该文提出的PixPro方法,其基于像素级别的预训练任务,通过区分图像上的每个像素来进行预训练。

图3 从实例级别(Instance-level)对比学习到像素级别(Pixel-level)对比学习

在Pascal VOC物体检测任务上,PixPro比之前最优的自监督预训练方法提升了2.6 AP,达到了60.2 AP,远超过去一年的提升。在COCO(FPN/C4)物体检测和Cityscapes语义分割上,PixPro分别比之前的最优方法提升了0.8/1.0 mAP和1.0 mIoU,取得了41.4/40.5 mAP和77.2 mIoU的结果。

【基准方法PixContrast】

图4 像素级别对比学习(Pixel-level Contrastive Learning)任务
图5 PixContrast网络结构

该文首先将对比学习直接推广到像素级别,示意图和网络结构图如图4和图5所示。在该预训练任务中,学习的目标是将两个视图中距离较近像素点的特征拉近(pull),同时推远(push)距离较远像素点的特征。该方法称为PixContrast,其在检测和分割等下游任务上已能取得不错的性能。

【PixPro方法】

图6 像素到传播一致性(Pixel-to-Propagation Consistency)任务
图7 PixPro 网络结构
图8 像素传播模块(Pixel Propagation Module,PPM)

此前的基准方法PixContrast只鼓励尽可能的区分每个像素,该任务使得学习到的特征具备很强的空间敏感性,这有利于分割中边缘部分的识别。然而,在实际密集预测任务中,特征的空间平滑性很重要,这种性质对于识别物体中心部分会很有用。为了使特征同时具备空间敏感性和平滑性,该文提出了PixPro方法,如图6所示,视图1采用正常的特征,而视图2采用经过平滑后的特征,该特征平滑模块如图8所示,而网络的整体结构如图7所示。此外,该方法去掉了拉远的分支,而只关注距离较近的像素之间的特征一致性,这进一步放松了空间敏感性,而增强了特征的空间平滑性。

【扩展】

图9 将带有FPN结构的FCOS与PixPro相结合

像素级别的预训练使得预训练可以拓展到除backbone以外的其他部分,例如物体检测中常用的FPN结构,实验发现,预训练FPN能对物体检测基准算法FCOS带来明显提升。
此外,像素级别的预训练还能与实力对比学习很方便的结合,并兼容。

【实验】

表1. 系统级别结果

如表1所示,PixPro使用ResNet-50在Pascal VOC(C4)物体检测,COCO(FPN/C4)物体检测和Cityscapes语义分割任务上分别取得了60.2 AP,41.4/40.5 mAP和77.2 mIoU的点数,比之前最好的无监督方法高出了2.6 AP,0.8/1.0 mAP和1.0 mIoU的点数,更远超有监督预训练的基准。

表2 PixPro与基准方法PixContrast的比较
表3 PixPro方法与实例级别方法形成互补
表4 PixPro预训练下游任务网络以及结合实例级别对比学习结果
表5 PixPro在半监督学习上的表现

推荐阅读


行人搜索也可以Anchor-Free?这篇CVPR 2021论文给出了答案

2021-04-01

白给的性能不要?cvpr2021-Diverse branch block

2021-03-31

CVPR 2021|Neighbor2Neighbor:无需干净图像的自监督图像降噪

2021-03-28



# CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart2)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~


△点击卡片关注极市平台,获取最新CV干货

觉得有用麻烦给个在看啦~  
【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k