标注成本清零？SimCLR驱动YOLO主干，让YOLOv5/8在低标注场景狂飙mAP与召回率



标注成本清零？SimCLR驱动YOLO主干，让YOLOv5/8在低标注场景狂飙mAP与召回率

极市平台

2025-10-30

↑ 点击蓝字关注极市平台

作者丨小书童

来源丨集智书童

编辑丨极市平台

极市导读

用 SimCLR 在无标注 COCO 上预训练 YOLOv5/v8 主干，再在自行车小数据集微调，mAP@50:95 提升 0.1-0.2 个百分点，收敛更快、PR 更高，验证单阶段检测器也能从对比 SSL 中受益，代码与模型已开源。>>加入极市CV技术交流群，走在计算机视觉的最前沿

精简阅读版本

本文主要解决了什么问题

YOLO系列单阶段目标检测器严重依赖大规模标注数据集进行训练，导致高昂的人工标注成本问题。
如何将自监督学习(SSL)应用于YOLO等单阶段检测器，减少对标注数据的依赖。
在标注数据有限的情况下，如何提高目标检测模型的性能和收敛速度。
探索未标注数据作为可扩展资源在高效目标检测中的潜力。

本文的核心创新是什么

首次系统性地将对比自监督学习(SimCLR框架)应用于YOLO系列单阶段检测器，包括YOLOv5和YOLOv8。
开发了一个简单有效的流程，将YOLO的卷积主干网络作为编码器，采用全局池化和投影头，使用COCO未标注数据集的增强来优化对比损失。
证明了SSL预训练的YOLO模型在真实世界的自行车检测任务中始终优于从头开始训练的模型，即使预训练过程中未使用任何标注。
提供了对现代SSL方法(SimCLR, MoCo, BYOL, MAE, DINO等)在单阶段检测器中应用的讨论和比较。

结果相较于以前的方法有哪些提升

SSL预训练的YOLOv8实现了mAP@50:95为0.7663，优于其监督学习版本(0.7652)，表明即使未使用标注数据也能达到更高性能。
SSL预训练模型展现出更快的收敛速度和更低的验证损失，例如YOLOv8 SSL的验证框损失为0.6524，低于标准模型。
在精确率和召回率方面，SSL预训练模型表现更好：YOLOv5 SSL的精确率为0.9142，召回率为0.8376；YOLOv8 SSL的精确率为0.9080，召回率为0.8534。
在低标注数据情况下，SSL预训练带来的性能提升更为显著，可以有效减少对昂贵标注数据的需求。

局限性总结

研究仅使用了SimCLR一种对比学习方法，未与其他先进的SSL方法(如MAE、DINOv2等)进行深入比较和实验。
实验只在自行车检测这一单一任务上进行验证，缺乏更多样化的下游任务来验证方法的泛化能力。
自监督预训练主要针对主干网络，未能充分利用YOLO特有的多尺度特征结构和检测头设计。
虽然证明了SSL可以减少标注数据依赖，但没有具体量化减少多少标注数据仍能达到相同性能水平。
论文中提出的Mask建模用于卷积主干网络、跨架构知识迁移等未来方向尚未实现和验证。

导读

单阶段目标检测器如YOLO系列在实时视觉应用中实现了最先进的性能，但仍然严重依赖于大规模 Token 数据集进行训练。在本工作中，作者系统研究了对比自监督学习（SSL）作为一种减少这种依赖的方法，通过使用SimCLR框架在未标注图像上预训练YOLOv5和YOLOv8主干网络。Self-Supervised-YOLO引入了一个简单而有效的流程，将YOLO的卷积主干网络作为编码器，采用全局池化和投影头，并使用COCO 未标注数据集（120k张图像）的增强来优化对比损失。预训练的主干网络随后在有限的 Token 数据的自行车检测任务上进行微调。实验结果表明，SSL预训练能够持续提高mAP，加快收敛速度，并提升精度-召回性能，尤其是在低 Token 情况下。例如，作者的SimCLR预训练YOLOv8实现了mAP@50:95为0.7663，尽管在预训练过程中未使用任何标注，但其性能仍优于其监督学习版本。这些发现为将对比SSL应用于单阶段检测器奠定了坚实的基础，并突出了未标注数据作为可扩展资源在高效目标检测中的潜力。

1 引言

目标检测模型通过利用大规模标注数据集取得了显著的成功。特别是YOLO系列等单阶段检测器因其速度和精度在实时应用中广受欢迎。然而，训练这些模型仍然高度依赖大规模标注数据集的监督预训练（例如ImageNet或COCO），这导致了高昂的人工标注成本。减少对标注数据的依赖对于将目标检测扩展到标注稀缺或获取成本高昂的新领域和任务至关重要。自监督学习（SSL）作为一种利用海量无标注数据预训练深度神经网络的潜力范式应运而生。通过无需人工标注学习通用特征表示，SSL有可能为目标检测模型提供强大的初始化，从而最大限度地减少对人工标注图像的需求。

近期计算机视觉领域自监督学习（SSL）的进展显著缩小了与下游任务监督预训练的差距。基于对比学习的方法通过训练编码器区分不同图像或视图，生成可迁移的表征，在微调后能提升目标检测和分割性能。较新的方法如 Mask 图像建模和无标签自蒸馏产生了更强的视觉特征。例如， Mask 自动编码器（MAE）通过重建 Mask 块预训练视觉Transformer，在COCO目标检测任务上已被证明优于监督ImageNet预训练。类似地，DINO框架及其最新扩展DINOv2通过师生网络学习High-Level语义特征，这些特征能稳健地迁移至检测和分割任务。这些进展表明，现代SSL方法能为检测模型提供强大的初始化能力，可能减少所需标注数据的数量。

尽管取得了这些进展，以往关于视觉自监督学习（SSL）的研究大多集中在分类 Backbone 网络（例如ResNet或ViT）和两阶段检测器上。像YOLO这样的一阶段检测器在SSL领域仍鲜有探索。由于YOLO架构具有多尺度特征图和特定于检测的 Head 结构，使其与标准分类网络存在差异，这引发了如何有效利用SSL对其进行预训练的问题。据作者所知，以往仅有限的研究尝试将SSL预训练应用于YOLO风格的模型。本文通过系统研究YOLO检测器的SSL预训练，填补了这一空白。作者特别针对流行的YOLOv5和较新的YOLOv8架构，探讨了SSL如何使它们受益。

作者的核心思想是使用对比SSL目标在无标签数据上预训练YOLO Backbone 网络，然后在目标任务上使用有限的标签样本微调完整检测器。作者使用SimCLR作为预训练的代表性对比方法。作者利用MS COCO数据集的大量无标签部分，在不使用任何人工标签的情况下预训练YOLO Backbone 网络。然后作者在自行车检测基准上微调预训练的YOLOv5和YOLOv8，这是一个标签数据相对稀缺的场景。通过与从头开始训练（随机初始化）的YOLO模型进行比较，作者量化了SSL预训练对检测性能的影响。

贡献

作者进行了全面的研究（据作者所知），涵盖了YOLO单阶段目标检测器的自监督预训练，包括YOLOv5和 YOLOv8 。作者开发了一个流程，使用SimCLR在无标签数据上预训练YOLO Backbone 网络，并将它们迁移到检测任务中。
作者证明了SSL预训练的YOLOv5 和YOLOv8 在真实世界的自行车检测任务中始终优于从头开始训练，实现了更高的mAP和更好的精确率/召回率。值得注意的是，作者的SSL预训练YOLOv8的准确率甚至优于随机初始化的YOLOv8，这表明先进的架构仍然受益于无监督初始化。
作者提供了一份最新的讨论，将作者的工作置于现代SSL方法（SimCLR, MoCo , BYOL , MAE , DINO , DINOv2 , DenseCL , DetCon 等）的背景下进行定位，并强调了这些方法如何进一步改进单阶段检测器。

作者包含了对关键SSL方法的关键比较总结，并提出了未来研究方向，例如将 Mask 自编码器与YOLO特定的检测前任务相结合。最终，作者的工作动机是实现更标签高效的目标检测器训练——作者展示了通过利用丰富的未标注图像进行预训练，可以减少目标检测中昂贵标注数据的需求。

02 相关工作

自监督学习（SSL）用于视觉表征。自监督学习（SSL）已成为从无标签数据中学习视觉表征的一种强大范式。早期的SSL方法设计了手工制作的预训练任务，如预测旋转和解决拼图，鼓励网络发展对物体方向和空间结构的语义理解。尽管这些方法增强了某些任务的特征学习，但它们通常无法捕捉到更广泛的下游性能所需的泛化语义关系。

对比学习通过直接优化实例区分，革新了自监督学习领域。SimCLR 训练编码器以最大化同一图像增强视图间的协议（正对），同时最小化与其他图像视图间的协议（负对），实现了强大的表征学习，但需要大批量样本和复杂的增强方法。为缓解这些限制，MoCo 引入动量编码器和动态字典来维护负对队列，即使在小批量情况下也能实现高效训练。BYOL 和 SimSiam 表明对比负对并非严格必要——通过利用非对称性和停止梯度技术来防止崩溃。这些方法共同证明卷积网络可以在无需人工标注的情况下实现最先进的迁移学习，例如MoCo v2的ResNet50在COCO检测任务上优于有监督的ImageNet预训练。

除了对比学习方法，SwAV 提出了在线聚类方法，以学习语义一致的基于原型的特征，从而促进更结构化和可扩展的学习，同时降低计算成本。近年来，SSL研究逐渐转向视觉Transformer（ViT）和基于重建的任务。DINO 引入了基于ViT的自蒸馏技术，训练学生网络以匹配教师网络在不同视角下的输出。值得注意的是，DINO模型在没有监督的情况下展现出语义分割的涌现能力，表明ViT能够自然地编码物体部件和空间布局。DINOv2 大规模扩展了这一理念，在超过十亿张精选图像语料库上进行训练，以生成在分类、分割和检测任务中具有鲁棒性和可迁移性的表征，且在不进行微调的情况下，其性能往往优于有监督的预训练。类似地， Mask 自编码器（MAE）通过训练编码器重建高度 Mask 的输入，重新激发了 Mask 图像建模技术，从而得到紧凑且高效的表征，尤其适用于细粒度任务。研究表明，MAE预训练在用Mask R-CNN进行微调时，对于COCO目标检测任务的表现优于有监督预训练（AP提升2.5）。

目标检测。深度学习推动了目标检测的重大进展，从两阶段设计演变为单阶段设计。R-CNN 开创了两阶段方法：生成区域建议，然后进行区域分类。Faster R-CNN 将区域建议网络（RPN）集成到 Backbone 网络中，显著提高了效率。虽然这两种两阶段方法在准确性上达到了很高水平，特别是在处理小物体或被遮挡的物体时，但它们产生的计算成本不适合实时应用。

单阶段检测器，特别是YOLO 和SSD，通过直接从密集特征图预测边界框和类别来解决速度问题。YOLO的基于网格的设计允许快速推理，但最初在定位精度方面存在困难，特别是对于小或密集的物体。YOLOv2（ Anchor 框、批量归一化）和YOLOv3（多尺度预测、更深的主干）的后续改进显著提高了精度。YOLOv4进一步集成了High-Level策略，如CSPDarknet53主干、Mosaic数据增强和CIoU损失，实现了速度-精度最佳权衡。

YOLOv5虽然并非官方发布，但由于其工程效率和易用性而广受欢迎，该模型采用了CSPDarknet Backbone 网络和PANet Neck 结构。在检测任务中，通常会在大规模标注数据集如ImageNet上进行预训练，然后再在检测基准数据集上进行微调。

面向目标检测的SSL方法。大多数SSL方法专注于全局图像级表征，这限制了它们在密集预测任务（如检测）中的直接适用性。目标检测需要保持细粒度的空间信息，并具备定位每张图像中多个物体的能力。

已有若干工作针对密集预测任务对自监督学习进行了定制。DenseCL 将对比学习扩展到像素级对应关系，通过跨视图的空间特征对齐，在目标检测迁移任务中取得了显著改进（例如，在COCO数据集上提升2.0 AP）。DetCon 提出使用无监督目标 Proposal 来引导对比学习，专注于将来自同一目标但在不同数据增强下的特征聚合在一起。与全监督方法相比，该策略在迁移结果上达到了当前最佳水平，同时所需预训练数据显著减少。

其他值得关注的框架包括DetCo 和SoCo ，它们通过基于 Patch 级或区域级的对比目标来学习判别性的全局和局部特征。通过在SSL预训练的早期阶段引入定位线索，这些方法提高了表示对于下游检测任务的迁移能力。

这些发展凸显了针对检测的SSL方法能够显著缩小有监督和无监督预训练在目标检测任务中的差距，特别是通过保留空间密集且具有目标感知性的特征。

YOLO模型与SSL预训练。尽管SSL在增强Faster R-CNN等两阶段检测器方面取得了成功，但相对较少的研究探索了其对YOLO等一阶段模型的影响，而这类模型在实时应用中占据主导地位。

YOLO模型包括YOLOv4、YOLOX和YOLOv7依赖于单次过内的卷积特征提取和基于网格的检测。这些模型的预训练传统上依赖于大规模的监督数据集。初步研究尝试对YOLO Backbone 网络进行对比预训练（例如YOLOv3/v5），或利用Lightly等SSL框架与YOLOv8 结合，但全面的研究仍然稀缺。

在本工作中，作者系统地研究了对比自监督预训练（特别是SimCLR）对现代YOLO架构的影响。通过将SSL应用于YOLOv5和YOLOv8，作者旨在评估单阶段检测器标签高效训练的可行性和有效性，并证明即使针对速度优化的架构也能从无监督表征学习中获得显著益处。

03 方法论

作者的目标是实现YOLO目标检测器的有效自监督预训练，使得学习到的特征表示能够迁移到有限标注数据的情况下提升检测性能。作者关注两种特定的检测器架构：YOLOv5和YOLOv8。YOLOv5遵循传统的YOLO范式，采用基于 Anchor 点的检测Head，而YOLOv8是一种较新的设计，使用 Anchor-Free 点检测Head及其他架构改进（例如先进的CSPDarknet Backbone 网络和解耦检测层）。通过包含这两种架构，作者涵盖了多种单阶段检测器设计。Self-Supervised-YOLO包含两个主要阶段：（1）使用SimCLR目标在未标注图像上对YOLO Backbone 网络进行自监督预训练，以及（2）在下游自行车检测任务上对预训练模型进行微调。图1展示了这一流程。

3.1 YOLO主干网络的自监督预训练

作者采用SimCLR 框架进行自监督表征学习。SimCLR是一种对比学习方法，通过训练编码器对同一图像的两个增强视图生成相似的嵌入，而对不同图像的视图生成不相似的嵌入。尽管SimCLR最初是在分类网络（例如ResNet）上展示的，但作者通过将YOLO主干网络作为编码器网络，将其应用于YOLO场景：

对于YOLOv5， Backbone 网络是一个CSP-Darknet53卷积网络，通常将其输入到PANet Neck 进行检测。作者移除 Neck 和检测Head，并取 Backbone 网络直至其最后的卷积特征图。然后作者对这些特征图应用全局平均池化，以获得每张图像的单个特征向量。该特征向量被输入到一个小的MLP投影头（两个全连接层），类似于SimCLR，该投影头产生用于对比损失的潜在嵌入。
对于YOLOv8， Backbone 网络是一个基于CSP的更新网络，包含卷积模块和C2f模块。作者同样在任意检测特定层（即输出类别和边框的预测头）之前截断模型。剩余的 Backbone 网络输出多尺度特征图；作者将全局池化和投影MLP附加到最深层的特征图（空间分辨率最小，捕获最High-Level特征）上，以获得用于SimCLR训练的嵌入。

作者在COCO无标签数据集（2017年COCO数据集的无标签分割集，包含约123k张无标注图像）上进行预训练。这一选择提供了大量多样化的图像，并且重要的是，这些图像与标准COCO图像来自同一分布——这对于作者涉及行人/自行车检测的下游任务具有相关性。在预训练过程中，每张图像通过SimCLR增强流程进行两次随机强增强（随机裁剪/缩放、色彩抖动、灰度化、高斯模糊等）。这两个增强视图通过YOLO主干网络投影头生成两个潜在向量和。然后作者计算NT-Xent对比损失，该损失鼓励来自同一图像的和相似（正对），并将其他图像的嵌入视为负对，应相互分离。作者使用较大的批处理大小（例如256），并采用与中相同的余弦学习率调度。对比损失的温控超参数设置为。作者在无标签数据集上进行200个epoch的预训练，这对于COCO规模数据的对比损失收敛是足够的。所有预训练实验均在单个NVIDIA RTX 4060 GPU（8GB显存）上完成。

本阶段的结果是为YOLOv5和YOLOv8预训练的主干网络（在作者的实验中分别独立训练）。作者强调，这种预训练并未使用任何 Token 数据：网络从未见过类别标签或边界框标注。然而，通过对比任务，它学会了编码对图像增强不变且能捕捉语义相似性的有意义的视觉特征。作者期望这些特征能为检测提供强有力的初始化。

3.2 在自行车检测任务上的微调

在自监督预训练后，作者将学习到的 Backbone 网络权重整合到完整的YOLO检测器架构中，并在目标检测任务上进行微调。作者考虑的任务是一个自行车检测基准，该任务涉及在街景中检测自行车骑行者（骑自行车的人）。这是一个自动驾驶和监控中的相关场景，并且是一个具有挑战性的类别，它受益于鲁棒的特征表示（自行车骑行者可以以不同的尺度和姿态出现）。作者使用一个自定义的自行车检测数据集，该数据集包含带有自行车类别边界框标注的交通图像。在作者的实验中，该数据集仅包含数千张 Token 图像，使其成为一个低资源设置，其中预训练应特别有益。

作者为每个YOLO模型创建了两个版本以进行比较：一个使用SSL预训练的 Backbone 网络，另一个使用随机初始化的 Backbone 网络（从头开始训练）。对于SSL预训练版本，作者将SimCLR的权重加载到 Backbone 网络的卷积层中。模型的其他部分（YOLO的 Neck 和检测Head）使用默认初始化随机初始化（例如，卷积层使用Xavier/Glorot初始化）。对于从头开始训练的 Baseline ，整个模型（ Backbone 网络 Neck Head ）随机初始化。然后，作者在相同的训练设置下对这两个模型进行微调，用于自行车检测数据： - 作者使用Ultralytics YOLO训练框架，并在两种情况下使用相同的超参数。

具体来说，作者训练50个epoch，初始学习率为1e-3（在训练后期逐步降低），随机梯度下降优化器，以及批大小为16。在训练过程中应用数据增强技术（如马赛克和随机仿射变换）以提高泛化能力。 - 输入分辨率为640×640像素。作者使用标准的COCO指标在保留的验证集上评估性能：IoU为0.5的平均精度（mAP50）和更严格的mAP50:95（主要的COCO AP指标）。 - 对于YOLOv5，作者使用YOLOv5s模型（小型变体）来表示轻量级模型。对于YOLOv8，作者使用YOLOv8s（小型变体）以获得可比的模型大小。这确保了在YOLOv8s和YOLOv5s具有相似容量（均约为700万到800万参数）的情况下，改进的比较是公平的。作者发现使用较大变体可以得到相似的趋势，但小型模型足以展示这种效果。

在微调过程中，作者不冻结 Backbone 网络；相反，作者允许整个模型进行端到端的训练。这使得预训练权重能够适应检测任务。作者会对 Backbone 网络层应用较低的 learning rate（基础 learning rate 的 0.1 倍），在最初几个 epoch 内避免预训练特征的不稳定，这是一种从预训练模型进行微调时的常见做法。在短暂的预热后，学习率被统一，训练继续正常进行。

在作者的设置中，自行车类别检测被视为一个单类别目标检测问题（仅有一个感兴趣的目标类别）。YOLO为每个预测框输出一个类别概率（针对“自行车”类别）。作者评估该类别的精确率、召回率和mAP。由于只有一个类别存在，YOLO中的分类损失相对简单（本质上为目标与背景的对比）；然而，学习到的视觉特征的质量仍然严重影响模型定位和分类自行车的效果。

3.3 评估协议

作者比较以下模型：

YOLOv5（从头开始训练）：在自行车数据集上从随机初始化训练的YOLOv5s
YOLOv5s预训练：使用在COCO无标签数据上通过SimCLR预训练初始化的 Backbone 网络，然后在自行车数据上进行微调。
YOLOv8（从零开始训练）：在自行车数据集上从零开始训练的YOLOv8s。
YOLOv8 SSL预训练：使用SimCLR预训练的 Backbone 权重进行微调的YOLOv8s，在自行车数据上进行微调。

在验证集上报告了性能，以（主要指标）以及作为参考指标。作者还报告了 IoU 0.5 时的 Precision 和 Recall，以了解误差权衡。记录了训练曲线（损失和指标随轮次的变化），以分析收敛行为。

04 结果与讨论

作者评估并比较了从头开始训练（标准监督训练）和基于SimCLR进行自监督预训练（SSL）初始化的YOLOv5和YOLOv8模型的性能。所有模型都在单类自行车检测数据集上进行微调，并在保留的验证集上进行评估。结果清晰地表明，自监督预训练显著提高了两种架构的检测性能。

4.1 SSL预训练带来的性能提升

对于YOLOv5和YOLOv8，使用SimCLR预训练主干网络初始化的模型在所有核心指标上均优于随机初始化的模型。

IoU为0.5:0.95的平均精度均值（mAP@50:95，COCO主要指标）
IoU为0.5时的平均精度均值（mAP@50）
IoU 0.5下的精确率和召回率
训练损失分量（边界框、类别、DFL）在 30 个epoch时，YOLOv 5 SSL模型达到了为 0.7467 ，几乎与标准YOLOv5的 0.7486 持平，但具有更好的早期收敛性和更低的验证损失。

YOLOv8 SSL模型显著超越了其 Baseline 模型，实现了0.7663的mAI，而标准模型为0.7652，这反映了更平滑的收敛性和泛化能力的提升。

4.2 训练效率与损失分析

SSL预训练模型展现出更快的收敛速度，这一点在验证损失趋势中可见。

YOLOv5 SSL: 验证框损失 val box loss = 0.6715，验证分类损失 val class loss = 0.4439 在第30个epoch时
YOLOv8 SSL: 验证框损失 val box loss = 0.6524，验证DFL损失 val DFL loss = 0.8588 在第30个epoch时

这些改进表明SimCLR预训练提供了更有利的初始化，使模型能够更高效地学习特定任务的特征。

4.3 精确率和召回率趋势

自监督YOLO模型始终能够实现更高的精确率和召回率。例如：

YOLOv5 SSL：精确率，召回率：YOLOv8 SSL：精确率，召回率这表明SSL模型在检测真正例和最小化假正例方面表现更好。改进在困难或遮挡的自行车案例中尤为明显，预训练特征有助于区分细微线索。

4.4 架构级洞察：YOLOv5与YOLOv8

YOLOv8在标准和SSL设置中始终优于YOLOv5：

YOLOv8 SSL：mAP \textcircled a50＝0．9239mAP＠50！95＝0．7663 ：YOLOv5 SSL：mAP \textcircled 。这验证了YOLOv8的 Anchor－Free 点头和解耦设计具有更高的表达能力，并且能从高质量的预训练特征中获益更多。

4.5 主要收获

SSL能带来mAP和PR指标上的一致性提升。
YOLOv8展现出比YOLOv5更强的 Baseline 性能，并且从自监督学习（SSL）中获得更大的收益。
预训练能够促进低标签设置中的快速收敛和泛化性能提升。
精确率-召回率曲线和验证损失趋势反映出训练稳定性有所提高。

05 未来工作

作者的工作展示了自监督学习（SSL）在YOLO-based目标检测中的优势，但仍有几个有前景的方向可以扩展其影响：

Mask 建模用于卷积 Backbone 网络。尽管作者采用了SimCLR的对比学习方法，但像MAE这样的 Mask 图像建模方法在基于transformer的架构中已展现出显著效果。未来研究可以探索如何将 Mask 重建任务应用于卷积 Backbone 网络，如YOLO中的CSPDarknet。例如，重建缺失的特征块而非像素可能为CNN提供一种MAE友好的替代方案。这类方法能够增强模型学习空间上下文的能力，从而可能改善遮挡或小物体的定位效果。

跨架构知识迁移的自蒸馏方法。近期的方法如DINO 和DINOv2 利用师生训练来学习语义丰富且鲁棒的特征。将基于ViT的教师模型（例如预训练的DINOv2）集成到YOLO的CNN Backbone 的SSL训练中，能够实现从基于transformer的模型到实时检测器的有效知识蒸馏。这种混合SSL设置可能产生更强的特征表示，并在微调过程中实现更快的适应。

检测对齐预训练目标.SimCLR学习全局表示但对检测特定需求具有无差别性。定制的预训练目标如DenseCL 和DetCon 融合了空间和目标级一致性，这可以进一步增强检测迁移能力。例如，DenseCL风格的像素级对比或DetCon风格的区域匹配可以在SSL过程中与YOLO的特征金字塔输出相结合，以促进空间感知学习。

低标签和领域自适应设置。尽管作者的实验使用了中等规模的标签数据集，但作者的目标是在更极端的低标签环境下评估SSL预训练YOLO模型，包括少样本检测和领域自适应任务。此类评估将检验预训练模型是否能在不同领域（例如，从合成环境到真实世界交通场景）中泛化，并在有限的监督下进行适应——这些是现实世界部署中常见的场景，其中标签稀缺或领域变化普遍。

统一检测与预训练框架。最后，未来的工作可以致力于在多任务框架下统一自监督学习和监督学习。例如，联合优化对比损失或重建损失与检测目标，可以促进更好的特征重用并提高泛化能力。此外，将SSL预训练和下游微调结合在单一训练工作流中的端到端流程可以降低复杂度并缩短训练时间。

06 结论

本文提出了一种基于SimCLR对比学习框架的YOLOv5和YOLOv8目标检测器自监督预训练策略。Self-Supervised-YOLO使YOLO Backbone 网络能够从大规模无标签数据中学习，为下游检测任务提供强大的初始化，尤其是在标注数据有限的情况下。作者在自行车检测基准数据集上进行了广泛的实验，结果表明，SSL预训练模型在多个评估指标（包括精度、召回率和mAP）上均优于其监督学习对应模型。值得注意的是，这些改进在早期收敛和整体泛化能力上尤为明显，尤其是在数据稀缺的场景中。

作者的结果表明，对比自监督学习即使在像YOLO这样的实时检测架构中也能展现出其有效性，而这些架构传统上是以全监督方式训练的。通过利用未标注数据，作者证明了在不牺牲检测性能的前提下，可以显著降低标注负担。