

CVPR 2022｜看看谷歌如何在目标检测任务使用预训练权值

极市平台

2022-04-25

↑ 点击蓝字关注极市平台

作者丨VincentLee

来源丨晓飞的算法工程笔记

编辑丨极市平台

极市导读

论文对下游任务中的预训练权值使用方式进行了深入研究，发现长时间的fine-tuned会使得网络远离优秀初始化特征表达，这也解释为什么预训练初始化与从零训练的性能差异会随着训练时间的延长而消失。从论文的实验结果来看，搭配容量足够的检测组件，冻结预训练权值更有利于目标检测和实例分割的训练，还能显著减少计算资源消耗 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文地址：https://arxiv.org/abs/2204.00484

Introduction

迁移学习是深度学习中广泛采用的技巧，利用包含大型数据集的上游任务进行模型预训练，再将预训练模型应用到目标任务中。从ImageNet等大数据集上进行迁移学习能够有效地提升各种视觉任务、网络结构和训练方法的性能，这个做法经过了反复的证明和实践。

对于目标检测，通常先使用分类任务预训练得到的权值初始化主干网络，在训练其他探测器组件的同时对主干网络进行微调。最近，对目标检测的迁移学习有两个看似矛盾的观点：

大分类数据集预训练对目标检测是有益的。
预训练初始化与从零训练的性能差异随着训练时间的延长而消失。

论文以最简单的形式重新对转移学习进行研究，在检测器训练期间冻结主干网络权值。这样能够更好地分析预训练特征的有用性，不会因微调而产生混淆因素。使用这种方法，论文得出了以下两个观察结果：

在研究预训练特征的有用性时，较长时间的训练会产生歧义，因为微调后的主干权值会远离预训练权值。
最关键的一点，在上游分类任务中学习到的预特征比在检测数据集上微调或从头开始训练学习到的特征更适用于目标检测。

跟微调和从零训练对比，冻结预训练主干网络也能带来同样幅度、甚至更大幅度的提升，这表明后续的目标检测组件具有足够的特征表达能力。为此，论文认为可以在训练目前的检测模型时冻结预训练主干网络，不仅能得到类似或更高的性能，还能显著减少对计算资源的需求，如图1所示。如果按不同标注数量的类别进行性能分析时，冻结预训练主干网络带来的性能优势会更加明显，特别是对于标注数量较少的类。

Methodology

由于分类数据集（ImageNet (1.2 M) 和 JFT300M (300 M)）比 MSCOCO (118K) 和 LVIS (100 K) 等常见检测数据集包含的图片数量要多几个数量级，所以论文认为在大规模图像分类任务上学习的特征比在相对较小的检测数据集中学习的特征更适合目标检测任务。

为此，论文提出冻结从分类任务中学习的权值，并且选择有足够的能力来学习detection-specific特征的目标检测组件。

Preserving classification features

为了保留从分类数据集中学习到的特征表达能力，论文采用最直接的冻结主干网络的权值的做法。相对于在预训练初始化后继续训练所有权值的常见做法，冻结主干权值不仅节省了计算，加快了训练速度，而且还提高了许多现有检测网络的性能。

Detection-specific capacity

为了将分类网络用于检测任务，通常需要添加检测相关的组件，如RPN、FPN以及Cascade RCNN等。论文发现检测组件的容量对网络的泛化能力起着重要作用，特别是使用预训练主干网络的情况下。当检测的组件具有足够的容量时，冻结权值比微调或从头开始训练表现得更好。此外，使用更多样化的分类数据集进行预训练时，性能收益会更加明显。