

颠覆认知！数据增强、正则化可导致不易察觉的灾难？

极市平台

2022-06-11

↑ 点击蓝字关注极市平台

作者丨子龙

来源丨夕小瑶的卖萌屋

编辑丨极市平台

极市导读

本文主要讨论了一种常见的现象：引入正则或数据增强后导致类别间效果不均衡，并给出严格的证明和实验结。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

作为常用的炼丹技巧，正则化 (Regularization) 和数据增强 (Data Augmentation, DA) 常常被简单粗暴地引入模型中来防止数据过拟合，进而提升最后的 performance。如果说，更高的performance就意味着更好的泛化能力，那么形式并不复杂的正则化和数据增强简直就是各大排名的屠榜利器、人工智能的指路明灯。然而，事情并不会这么简单，万事皆有代价，今天介绍的文章将会指出：虽然引入正则化和数据增强表面上能够提高模型的整体效果，但却会导致类别之间的不均衡问题。简单来说，就是虽然平均来看，整体效果有所提升，但其中却牺牲了部分类别的效果，而“偏心”于另外一些类别。

论文链接:
https://arxiv.org/abs/2204.03632

为了佐证这一结论，作者给出了数学上的严格证明，进而结合实验结果进一步分析，让我们一起来看看吧。

基本原理

文章首先将问题表述成如下形式：

训练数据: , 假设和之间存在关系 , 即 , 那么我们模型的目的就是拟合函数 , 使得和尽可能的在训练数据上接近。数据增强(DA)可以一般化为, 给定参数会生成一个基于的新样本加入训练。

根据上述定义, 作者声称：如果DA中的参数无法保证生成的新样本和对应的原数据点位于的同一"水平集(level-set)", 同时模型能够最小化 training loss, 那么就会在上产生无法消除的偏差。

即：

其中第一项表示生成的数据不在同一 level-set 上, 第二项表示模型有能力最小化 loss。篇幅有限, 具体证明过程可以参照论文, 其中心思想是: 如果无法在同一 levelset 上生成数据, 同时模型能够最小化 loss, 模型习得的函数与就会有偏差, 即。

(level-set 指: ; 即 )

于是, 除非同时改变新数据的标签来消除在 level-set 上产生的偏移, 否则数据增强算法总会引入一定的偏差。 若上述公式中第一项为 0 , 即不存在同一 level-set 上的偏差, 这一性质被称为"label preserving", 而这一性质依赖于特定的类别, 即一部分类别偏差更小, label-perserving 的能力更强, 当相同的数据增强的方法被运用于所有类别, 自然而然, 模型就会偏向于部分 label-preserving 更强的类别, 进而产生类别间的不均衡。

具体实例

图中展示了运用不同数据增强的方法，对常见图片分类模型特定类别的分类效果，横轴是数据增强的程度，每种方法各不相同，但从整体趋势可以看出，对一些类别（红色）而言，尽管提高数据增强的比例，模型依旧能够学到足够的信息，但对另外一些类别（黑色），其结果下降明显。

根据之前的定义，红色所对应的类别 label preserving 的能力更强，黑色所对应的类别就相对较弱，这进一步佐证了作者在前文中的证明。

Weight Decay呢？

前文论述了 DA 会导致类别间的不均衡问题，那其他的正则方法呢？作者进一步给出了 Weight Decay 的实验结果。Weight Decay 是指在原本的损失函数上添加，也就是我们常说的 L2 正则。作者参照之前数据增强的实验，罗列了新的结果：

其中蓝色表示整体的平均分类准确率，红色和黑色表示对应的类别。与数据增强类似，虽然 Weight Decay 可以提升整体的平均分类效果，但是会导致类别间的不均衡。

小结

这篇文章主要讨论了一种常见的现象：引入正则或数据增强后导致类别间效果不均衡，并给出严格的证明和实验结果。无论是各种不同的数据增强结果，抑或是最为常见的正则方法 Weight Decay，即便往往使平均效果有所提升，但都会引入类别间的不均衡问题。可见，即使总体效果出色，也要关心一下各个类别更为具体的数据，否则就只是刷榜的机器学习，其泛化能力并不一定出色，也就不能完美地运用于具体的应用场景中。

公众号后台回复“CVPR 2022”获取论文合集打包下载～

△点击卡片关注极市平台，获取最新CV干货

极市干货

最新数据集资源：医学图像开源数据集汇总

实操教程：Pytorch - 弹性训练原理分析｜《CUDA C 编程指南》导读

极视角动态：效率与安全兼备！极视角算法提升铁路货运智能化水平｜极视角发布EQP激励计划，招募优质算法团队展开多维度生态合作！