极市导读
本文介绍的 DINO-YOLO 将自监督模型 DINOv3 与 YOLOv12 结合,通过特征双点注入策略显著提升了小样本检测效果。实验结果显示,在隧道裂缝、建筑工地PPE及KITTI数据集上均实现大幅性能提升,为小数据环境下的目标检测提供了高效解决方案。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
在土木工程的很多特定场景里,比如隧道裂缝检测、工地安全监控,我们常常面临一个头疼的问题:数据太少了。
传统的物体检测模型,像大家熟悉的YOLO系列,虽然强大,但在这种“小样本”的情况下,很容易“吃不饱”,导致性能不佳。今天,我们来聊一篇很有意思的论文,它提出了一个名为 DINO-YOLO 的新方法,巧妙地解决了这个问题。简单来说,DINO-YOLO 就是把两种强大的技术——自监督学习的 DINOv3 和高效的 YOLOv12 结合在了一起,专门用来在数据稀缺的土木工程领域做物体检测。
这个名字也很有趣,DINO 代表“自蒸馏且无需标签(self-DIstillation with NO labels)”,而 YOLO 则是我们熟知的“You Only Look Once”。两者的结合,旨在实现数据高效的精准检测。
-
论文标题: DINO-YOLO: Self-Supervised Pre-training for Data-Efficient Object Detection in Civil Engineering Applications -
作者: Malaisree P, Youwai S, Kitkobsin T, Janrungautai S, Amorndechaphon D, Rojanavasu P -
机构: MAA Consultants Co., Ltd., King Mongkut's University of Technology Thonburi(泰国国王科技大学), University of Phayao(帕尧大学) -
论文地址: https://arxiv.org/abs/2510.25140 -
代码仓库: https://github.com/Sompote/DINOV3-YOLOV12
01 研究背景:数据稀缺的困境
在通用领域,我们有像 COCO 这样包含数十万张图片、上百万个标注的大型数据集,足以训练出非常强大的检测模型。然而,在土木工程领域,获取并标注大量数据是极其困难和昂贵的。比如,要标注隧道壁上的微小裂缝,或者识别建筑工地上各式各样的个人防护装备(PPE),不仅需要专业知识,还非常耗时。因此,当一个大容量的 YOLO 模型在只有几百或几千张图片的数据集上训练时,很容易出现过拟合,模型学到的知识泛化能力很差,一到真实场景就“水土不服”。如何让模型在小数据集上也能学到鲁棒、通用的特征,是这个领域的一个关键挑战。
02 DINO-YOLO:当自监督遇上YOLO
为了解决上述问题,作者们提出了 DINO-YOLO,其核心思想是利用在海量无标签数据上预训练的自监督模型 DINOv3,来为 YOLOv12 的训练提供一个更好的起点。
技术原理
DINOv3 是一个视觉 Transformer 模型,它通过自监督学习的方式,在没有人工标注的情况下,从 17 亿张图片中学会了丰富的视觉表征。这些特征非常通用,能够捕捉到图像的深层语义信息。DINO-YOLO 的创新之处在于它如何将 DINOv3 的特征“注入”到 YOLOv12 的架构中。作者没有粗暴地替换整个主干网络,而是设计了一个精巧的“双点注入”策略:
-
输入端注入 (P0): 在图像进入 YOLO 主干网络之前,先用一个 DINOv3 预处理器(DINO3Preprocessor)对原始图片进行处理。这个过程将原始的像素信息转换成了带有丰富语义的特征图,相当于在源头上就为模型提供了更高质量的“原料”。 -
主干网络中部注入 (P3): 在 YOLO 主干网络的中间层(P3层,一个在语义抽象和空间分辨率之间取得良好平衡的位置),再次引入 DINOv3 模块。这一步直接增强了中层特征的表达能力,而这些特征对于检测中小物体至关重要。
架构图(图1)清晰地展示了这个过程。DINOv3 模块的参数是“冻结”的,只作为特征提取器使用,这使得训练过程更加高效。整个模型的输入是原始图像,输出则是标准的物体检测结果(边界框和类别)。
实验设计
为了验证 DINO-YOLO 的效果,作者选择了三个规模差异巨大的数据集,覆盖了从“极度稀缺”到“中等规模”的范围。
-
隧道裂缝检测 (Tunnel Segment Crack): 仅有 648 张训练图像,是典型的数据极度稀缺场景。 -
建筑工地PPE检测 (Construction PPE): 约 1000 张训练图像,属于小样本范围。 -
KITTI: 约 7000 张训练图像,是自动驾驶领域常用的中等规模数据集。
下图展示了隧道裂缝检测任务中的一些图像样本,可以看到其背景复杂、裂缝形态各异,检测难度很大。
03 惊人的实验结果
DINO-YOLO 的表现没有让人失望,在三个数据集上都取得了显著的性能提升,尤其是在中等数据规模的 KITTI 数据集上,效果堪称惊艳。
从上方的性能对比表和下方的趋势图中可以清晰地看到:
-
在 隧道裂缝检测 数据集上,性能提升了 **12.4%**。 -
在 建筑工地PPE 数据集上,性能提升了 **13.7%**。 -
在 KITTI 数据集上,性能提升幅度高达 **88.6%**!
这一结果有力地证明了,自监督预训练的特征在数据量相对有限时,能发挥出巨大的威力,有效弥补了标注数据不足的短板。
效率与消融实验
当然,性能提升的同时,计算开销也是我们需要关注的。DINO-YOLO 的推理时间相比基线模型有 2-4 倍的增加,但依然能保持在 30-47 FPS 的实时水平,这对于大多数现场部署应用来说是完全可以接受的。下图展示了 DINO-YOLO 在 COCO 数据集上与其他 YOLO 变体的效率对比,可以看到它在性能和模型复杂度之间取得了非常好的平衡,位于“帕累托前沿”附近。
此外,作者还进行了详尽的消融实验,探讨了不同的 YOLO 尺寸、DINOv3 变体以及特征注入策略的组合效果。
实验发现,并非所有组合都是最优的。例如,中等规模的 YOLO 模型从“双点注入(DualP0P3)”中获益最大,而小尺寸模型则需要“三点注入”才能达到最佳性能。这说明特征融合策略需要根据模型自身的能力进行适配,而不是简单地堆砌。CV君认为,这种细致的分析对于后续研究和实际应用具有很强的指导意义。
04 总结
总而言之,DINO-YOLO 为数据稀缺领域的物体检测提供了一个非常实用且高效的解决方案。它不仅在土木工程这类专业领域表现出色,其核心思想也为其他小样本检测任务带来了新的启发。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

