ECCV 2024｜1p-frac：已开源，仅用单张分形图片即可媲美ImageNet的预训练效果

$ECCV 2024｜1p-frac：已开源，仅用单张分形图片即可媲美ImageNet的预训练效果$ 极市平台

2024-08-27

↑ 点击蓝字关注极市平台

作者丨VincentLee

来源丨晓飞的算法工程笔记

编辑丨极市平台

极市导读

本文寻找一个最小的、纯合成的预训练数据集，这个数据集能够实现与ImageNet-1k的100万张图像相当的性能。论文从单一的分形中生成扰动来构建这样的数据集，仅包含1张分形图片。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

分形几何是一个数学分支，主要应用于作图方面。一般来说，分形经过无数次递归迭代后的结果。比如取一条线段，抹去中间的三分之一，会得到长度是原三分之一长的两条线段，中间隔着相同长度的间隙。然后重复这个动作，直到所有的线段都被抹掉，就将会得到被以固定模式出现的间隙隔开的无限多的点，这就是康托尔集合。

目前有许多研究通过生成分形图像进行模型的预训练，完全不用真实图片甚至训练图片与下游任务完全不相干的，也能达到大规模数据集的预训练效果。

论文寻找一个最小的、纯合成的预训练数据集，这个数据集能够实现与ImageNet-1k的100万张图像相当的性能。论文从单一的分形中生成扰动来构建这样的数据集，仅包含1张分形图片。

论文: Scaling Backwards: Minimal Synthetic Pre-training?

论文地址：https://arxiv.org/abs/2408.00677

论文代码：https://github.com/SUPER-TADORY/1p-frac

Abstract

预训练和迁移学习是当前计算机视觉系统的重要构建块。虽然预训练通常是在大规模的真实世界图像数据集上进行的，但在本论文中，我们提出了一个重要的问题——是否真正有必要使用这样的数据集。为此，我们通过这些工作，我们的主要贡献表现如下三个发现。

（i）即使具有非常有限的合成图像，我们也能证明预训练仍然有效，全量微调时性能与使用大规模预训练数据集如ImageNet-1k相当。

（ii）我们研究了在构建数据集的单个参数中用于构建人工类别的方式。我们发现尽管形状差异在人类看来几乎无法区分，但正是这些差异对于获得强大性能至关重要。

（iii）最后，我们研究了成功的预训练的最小要求。令人惊讶的是，从1k个合成图像大幅减少到仅1个，甚至可能使预训练性能得到提升，这激发了我们进一步探索“逆向缩放”的可能性。

最后，我们从合成图像扩展到真实图像尝试发现，即使单张真实图像通过形状增强也能展现类似的预训练效果。我们发现使用灰度图像以及仿射变换甚至使真实图像也能够进行有效的“逆向缩放”。源代码已开放在https://github.com/SUPER-TADORY/1p-frac上。

Introduction

在图像识别中，预训练可以帮助发现下游任务应用的基本视觉表示，提高了视觉任务的性能并可以利用小规模的特定任务数据集。最近，预训练已被用作构建基于超过数亿张图像进行训练的基础模型的关键技术。在某些情况下，基础模型可以进行零样本识别的调整，而无需额外数据。

预训练通常被解释为在大规模数据集中发现通用结构，从而后续有助于适应下游任务。论文挑战了这种解释，提供一个由单个分形（fractal）生成的最小预训练数据集，其实现了类似的下游性能。论文研究的核心问题是：预训练可能只是更好的权重初始化，而不是有用视觉概念的发现。如果属实，进行数亿张图像昂贵的预训练可能并非必要，还可以使得预训练免受授权或道德问题影响。

自从深度神经网络的兴起以来，ImageNet数据集一直是最常用的预训练数据集之一。最初，预训练是通过使用人工提供的标注进行监督学习（SL）来进行的。然而，现在已经明确，通过自监督学习（SSL）也可以实现预训练，而无需人工提供的标签。

在这种情况下，Asano等人成功地获得了视觉表示，同时大大减少了所需图像的数量。他们得出结论，SSL即使只有一个训练示例，也可以产生足够的图像表示，但仅适用于识别模型的较早层。然而，目前尚不清楚这些发现如何转化为现代架构和表示学习方法。基于此，视觉变换器（ViT）通过实例判别（instance discrimination）学习信号，仅使用2040个真实图像即可进行预训练。

最近的研究表明，即使不使用真实图像和人工提供的标签，也可以获得基本的视觉表示，生成标注图像用于合成预训练的趋势正在上升。基于公式的监督学习（FDSL）从生成公式中生成图像，并从其参数中生成标签。在FDSL框架下，可以通过改变公式来调整合成预训练图像数据集。虽然FractalDB构建了一个百万级别的图像数据集，但论文发现合成预训练其实可以减少到更少的分形图像。

受到这些发现的启发，论文相信找到图像识别预训练的关键要点是可能的。有研究仅使用1000个人工生成的图像来完成ViT训练，因此，论文相信即使用更少的图像也可以达到相同的性能。随着接近在图像识别中最小化合成预训练数据集，这一考虑无疑非常重要，这与基础模型朝着增加数据集规模的趋势相悖。

在本文中，作者引入了一个最小化合成数据集，即1-parameter Fractal as Data(1p-frac)，如图1所示，它包括了单一分形以及用于预训练的损失函数。论文关于极简合成预训练的贡献如下：

Ordinal minimalism：引入局部扰动交叉熵（LPCE）损失进行基于单个分形的预训练，利用扰动的分形图像进行训练，神经网络学习对小扰动进行分类。在实验中，论文展示了即使只有一个分形也可以进行预训练。而且，1p-frac的预训练效果可与百万级标记图像数据集相媲美。
Distributional minimalism：引入具有可控扰动程度的局部整合经验（LIEP）分布，以研究合成图像的概率密度分布的最小支撑。论文观察到，即使通过产生人类无法区分的形状差异的小，也能产生积极的预训练效果。论文还展示了如果太小，视觉预训练会崩溃。基于这些观察，论文建立了从数学公式生成良好预训练图像的通用界限。
Instance minimalism：根据实验结果，合成图像不应仅包含复杂形状，应该在视觉预训练中应用类似于自然界中的对象的递归图像模式。通过对真实图像进行增强分类的实验表明，通过对灰度图像中的边缘突出对象执行“仿射变换”，可以实现良好的预训练效果。这些操作几乎与所提出的1p-frac的配置是同义的。

总之，论文将预训练数据集的大小显著减小，从原来的100万张图像（分形数据库（FractalDB））或1000张图像（单实例分形数据库（OFDB）），减少到只有1张，并且表明这甚至改善了预训练效果，这激励了scaling backwards的想法。

Scaling Backwards with a Single Fractal

1-parameter Fractal as Data （ -frac）仅包含一个单独的分形，并提出了一种在其上对神经网络进行预训练的方法。关键思想是引入局部整合经验（LIEP）分布 , 使得即使只有一个分形图像，也能进行预训练。由于 LIEP 分布设计成在扰动程度趋近于零时, 收敛到单个图像的经验分布 , 可以通过减小来缩小分布的支撑范围, 如图所示。

Preliminary

FractalDB

FractalDB 可以有效地利用 FractalDB 对神经网络进行预训练, 该数据库是由迭代函数系统（IFSs）生成的一组分形图像。具体而言, FractalDB 的包括一百万个合成图像：, 其中是一个 IFS, 是由生成的分形图像, 是分形类别的数量, 是每个类别的图像数量。每个 IFS 专门生成一个分形类别 , 并定义如下: