

CVPR 2023｜UniMatch: 重新审视半监督语义分割中的强弱一致性

极市平台

2023-03-30

↑ 点击蓝字关注极市平台

作者丨LeolhYang@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/617650677

编辑丨极市平台

极市导读

本工作重新审视了半监督语义分割中的“强弱一致性”方法。所提工作UniMatch十分简单有效，在自然图像，遥感影像变化检测，以及医学影像 (ACDC)上均取得了远远优于以往方法的结果。作者开源了所有场景下的代码和训练日志。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

在这里和大家分享一下我们被CVPR 2023录用的工作"Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic Segmentation"。在本工作中，我们重新审视了半监督语义分割中的“强弱一致性”方法。我们首先发现，最基本的约束强弱一致性的方法FixMatch[1](proposed three years ago in 2020)即可取得与当前SOTA相当的性能。受此启发，我们进一步拓展了FixMatch的扰动空间，以及利用双路扰动更充分地探索原扰动空间。

我们最终的方法UniMatch十分简单有效，在自然图像 (Pascal VOC, Cityscapes, COCO)，遥感影像变化检测 (WHU-CD, LEVIR-CD)，以及医学影像 (ACDC)上均取得了远远优于以往方法的结果。我们开源了所有场景下的代码和训练日志，以方便大家更好的复现，也希望能作为大家的baseline。

文章链接（此为CVPR camera-ready版本，和arXiv-V1相比，我们增加并更新了部分实验结果）:

https://arxiv.org/abs/2208.09910

代码及实验日志链接：

https://github.com/LiheYoung/UniMatch

我们也整理了一份半监督语义分割的awesome list:

https://github.com/LiheYoung/UniMatch/blob/main/docs/SemiSeg.md

Background

半监督语义分割希望利用尽可能少的有标注图像以及大量的无标注图像来学得一个较好的分割模型。其中，对有标注图像的学习一般类似于全监督语义分割（计算预测结果与人工标注之间的交叉熵损失），_问题的关键在于如何利用无标注图像_。

在半监督学习中, FixMatch 是一种非常简单有效的利用无标注图像的框架, 其核心思想就是去约束“强弱一致性”, 示意图如下所示。具体来说, 对于一张原始的无标注图像 , 我们首先对其进行弱扰动（包括resize, crop, flip）得到，接着对进行强扰动（包括color jitter，blur，grayscale, CutMix 以得到。将和输进网络分别得到预测结果和 , 由于更容易预测而更有助于学习（信息量更丰富）, 所以作为的伪标签, 监督的训练。

Observations

当把上述十分简单的FixMatch复现到半监督语义分割中时，我们发现在多个settings上，FixMatch都可以取得和当前的SOTA方法接近甚至明显更优的结果，对比结果如下：

于是我们进一步对FixMatch的核心模块，即强扰动部分，进行了消融实验，如下表所示。我们发现在半监督语义分割任务中，强扰动对于FixMatch也至关重要。我们默认采用的强扰动包括color jitter, blur, grayscale以及CutMix，当移除所有的这些强扰动时 (w/o any SP)，FixMatch性能变得极差；此外，之前的一些方法如CPS[3]仅采用CutMix这单一的强扰动策略，然而我们发现当只用CutMix时 (w/ CutMix)，相比于用全部的强扰动 (w/ whole SP)，性能也有明显的下降。

FixMatch中强扰动 (Strong Perturbations, SP)的重要性

Our UniMatch

Unified Perturbations (UniPerb)

根据上述结果，强扰动可以带来极大的性能增益。然而，FixMatch只在输入空间（图像） 上进行了强扰动，因此我们提出进一步去扩展FixMatch的扰动空间，增加了一个训练分支来进行特征空间上的强扰动，如下图(a)所示。

具体地, 我们对弱扰动图像的特征（encoder的输出）进行两分支的处理, 第一支直接输入 decoder得到预测结果作为伪标签, 另一支我们首先对特征进行强扰动 (feature perturbations, FP)，之后再送进decoder得到预测结果。图像空间上的强扰动分支和FixMatch保持一致。因此, 相较于原始的FixMatch, 我们多了一个可学习的特征强扰动分支, 同时作为和的伪标签。值得一提的是, 我们采用的特征扰策略极其简单, 仅需对特征进行通道维度的Dropout (PyTorch中的 nn. Dropout2d )。

需要说明的是，也有一些工作如PS-MT[4]同时进行了图像和特征上的强扰动，然而他们将这些强扰动施加在了同一个分支中，导致学习的难度过大；而我们将不同性质的强扰动分离到不同的分支分别进行学习，我们在消融实验中说明了这种做法的优越性。此外我们也展示了相比于一些特征扰动的工作如VAT[5]，我们的特征Dropout策略更简单有效。

Dual-stream Perturbations (DusPerb)

既然图像上的强扰动如此有效, 我们希望尽可能充分地利用。同时, 我们发现一些自监督学习和半监督学习的方法如SwAV 和ReMixMatch 进行了多支的扰动并约束一致性, 于是我们尝试将这种思想引入到半监督语义分割中。如上图(b)所示, 我们对进行两次独立的强扰动得到和 (由于强扰动是随机的, ) 。接着, 及被送入网络以分别得到，及。类似于FixMatch，我们用作为和的监督信号。

Overall UniMatch

结合上述的两个模块UniPerb和DusPerb，我们可以得到最终的UniMatch框架，如下图所示。针对无标签图像，UniMatch一共包括四个前向传播分支，其中有一个“干净”的分支来产生伪标签、一个特征层面的强扰动分支（作用于的特征上），以及两个图像层面的强扰动分支（无特征扰动）。其中后三个分支用于网络的训练（此图中我们省略了有标签图像的训练分支）。

Experiments

与SOTA方法的比较：Pascal VOC 2012

Pascal VOC 2012中一共包括10,582张训练图像，覆盖21个类别。其中有1,464张图像的标注质量比较高。因此有三种不同的选择标注图像的策略：（1）从1,464张精标注图像中选择；（2）从10,582张图像中随机选择；（3）优先从1,464张精标注中选择，如果需要更多的有标注图像，则从剩余的粗标注图像中选择。结果如下所示，在各种选择策略、数据划分、backbone下，我们的方法均取得了最优的性能。

第一种数据划分下的结果：

Pascal VOC 2012. 表头中的92, 183等表示有标签图像的数量，SupBaseline表示只利用有标签图像的结果

第二种、第三种数据划分下的结果:

Pascal VOC 2012. 其中表头中的1/16, 1/8, 1/4表示有标签图像的比例，321和513表示训练图像的分辨率

与SOTA方法的比较：Cityscapes

Cityscapes中一共包含2,975张训练图像，覆盖19个类别。

与SOTA方法的比较：COCO

遵循已有工作PseudoSeg[8]，我们这里采用的是COCO-Things数据集（不包含Stuff类别），一共包含81个类别，118,287张训练图像。

扩展到更多场景：半监督遥感影像变化检测

该场景要求通过同一地点、但不同时间的遥感影像来识别出变化的地块，可以大致看作一个二分类的分割问题。通常的框架如下所示，利用encoder分别提取两张影响的特征，之后对他们特征相减后再送入decoder进行预测。

我们在两个主流数据集WHU-CD和LEVIR-CD上做了验证，尝试了PSPNet和DeepLabv3+两种网络结构，在所有的数据划分下都取得了显著提升。

遥感影像变化检测，WHU-CD和LEVIR-CD数据集。单元格中的两个数据分别表示changed-class IoU和overall accuracy。表头中的5%, 10%等表示有标签图像的比例

扩展到更多场景：半监督医学影像分割

我们在ACDC数据集上做了验证，尝试了仅用1/3/7个标注的病例。仅用1个标注case，UniMatch即可远远超过其他利用3个标注cases的方法。

消融实验

这里只展示部分消融实验，更多的消融实验请参考论文。

UniMatch与FixMatch相比的优越性

下面我们在Pascal VOC, Cityscapes, COCO上都验证了UniMatch相比于FixMatch的优越性

Pascal VOC 2012. UniPerb和DusPerb相对于FixMatch都有显著提升，最终UniMatch取得了最优结果

验证双路强扰动 (DusPerb)的增益是non-trivial的，并不等价于双倍的batch size或双倍的训练轮数

对比DusPerb和FixMatch w/ 2x Batch Size或FixMatch w/ 2x Epochs

验证将不同特性的强扰动分离到不同的分支的必要性

Hybrid View表示将图像强扰动和特征强扰动施加在同一个前向传播分支上，而我们的UniPerb分离了这两个分支。

不同的特征扰动策略

总结

在本工作中，我们展示了FixMatch迁移到半监督语义分割任务中的有效性。我们通过消融实验验证了强扰动的重要性，并进一步通过特征强扰动扩展了FixMatch的扰动空间，以及通过双路强扰动来更充分地探索原扰动空间。我们最终的方法十分简单有效，在自然图像、遥感影像变化检测、以及医学图像分割中都取得了最优的性能。

最后，我们也有另外几个半监督语义分割工作被CVPR录用：

[CVPR 2022] ST++: Make Self-training Work Better for Semi-supervised Semantic Segmentation

Paper：https://arxiv.org/abs/2106.05095

Code：https://github.com/LiheYoung/ST-PlusPlus
[CVPR 2023] Augmentation Matters: A Simple-yet-Effective Approach to Semi-supervised Semantic Segmentation

Paper：https://arxiv.org/abs/2212.04976

Code：https://github.com/ZhenZHAO/AugSeg
[CVPR 2023] Instance-specific and Model-adaptive Supervision for Semi-supervised Semantic Segmentation

Paper：https://arxiv.org/abs/2211.11335

Code：https://github.com/ZhenZHAO/iMAS

参考

^abFixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence, NeurIPS 2020. https://arxiv.org/abs/2001.07685
^CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features, ICCV 2019. https://arxiv.org/abs/1905.04899
^Semi-Supervised Semantic Segmentation with Cross Pseudo Supervision, CVPR 2021. https://arxiv.org/abs/2106.01226
^Perturbed and Strict Mean Teachers for Semi-supervised Semantic Segmentation, CVPR 2022. https://arxiv.org/abs/2111.12903
^Virtual Adversarial Training: A Regularization Method for Supervised and Semi-Supervised Learning, TPAMI 2018. https://arxiv.org/abs/1704.03976
^Unsupervised Learning of Visual Features by Contrasting Cluster Assignments, NeurIPS 2020. https://arxiv.org/abs/2006.09882
^ReMixMatch: Semi-Supervised Learning with Distribution Alignment and Augmentation Anchoring, ICLR 2020. https://arxiv.org/abs/1911.09785
^PseudoSeg: Designing Pseudo Labels for Semantic Segmentation, ICLR 2021. https://arxiv.org/abs/2010.09713