大数跨境
0
0

中山大学提出AD-DINOv3,通过异常感知校准,首次将DINOv3成功用于零样本异常检测

中山大学提出AD-DINOv3,通过异常感知校准,首次将DINOv3成功用于零样本异常检测 极市平台
2025-09-19
2
导读:↑ 点击蓝字 关注极市平台作者丨来源丨编辑丨极市平台极市导读 导读 >>加入极市CV技术交流群,走在计算机视觉
↑ 点击蓝字 关注极市平台
作者丨我爱计算机视觉
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

中山大学AD-DINOv3首次把纯视觉大模型DINOv3引入零样本异常检测:用轻量适配器消除领域偏差,配合异常感知校准模块让CLS token专注细微缺陷,在8个工业/医疗数据集上刷新像素级AUROC与F1新纪录。>>加入极市CV技术交流群,走在计算机视觉的最前沿

在工业质检和医疗诊断等领域,异常检测是保障质量与安全的关键环节。然而,传统的监督方法需要为每一类异常提供大量标注样本,成本高昂。因此,能够识别任意新类别异常的“零样本异常检测”(Zero-Shot Anomaly Detection, ZSAD)技术,因其高可扩展性和低标注需求而备受关注。

目前,大多数ZSAD方法依赖于CLIP这样的视觉-语言模型。而最近,像DINOv3这样的纯视觉基础模型,因其强大的可迁移表示能力,展现出巨大潜力。来自中山大学的研究团队在一篇名为 《AD-DINOv3: Enhancing DINOv3 for Zero-Shot Anomaly Detection with Anomaly-Aware Calibration》 的论文中,首次 尝试将DINOv3应用于ZSAD任务,并提出了一个名为 AD-DINOv3 的新框架,成功解决了这一适配过程中的关键挑战。

  • 论文标题:AD-DINOv3: Enhancing DINOv3 for Zero-Shot Anomaly Detection with Anomaly-Aware Calibration
  • 作者团队:Jingyi Yuan, Jianxiong Ye, Wenkang Chen, Chenqiang Gao
  • 机构:中山大学 (Sun Yat-Sen University)
  • 论文地址https://arxiv.org/abs/2509.14084

01 研究背景与挑战

ZSAD的核心思想是利用大规模预训练模型的泛化能力。现有方法通常使用CLIP,通过计算图像特征与“正常”、“异常”等文本提示(prompt)的相似度来定位异常。然而,CLIP的视觉表示能力仍有提升空间。

相比之下,DINOv3作为自监督学习的杰出代表,学习到了更强大、更具泛化性的视觉特征。但将其直接用于ZSAD,会面临两大挑战:

  1. 领域偏差与特征错位:DINOv3在海量通用数据上预训练,而异常检测任务的数据分布与之存在显著差异(Domain Bias),导致模型提取的特征与任务需求错位。
  2. 全局语义偏好:预训练模型倾向于关注图像的整体、显著的前景物体(全局语义),这常常导致模型忽略或误解那些细微的、局部的异常点,将其视为正常物体的一部分。

如下图所示,原始DINOv3在关注正常区域(上排)时,其注意力会错误地发散到异常区域;而在关注异常点(下排红点)时,其响应又不集中,无法有效将其与正常背景区分开。

02 AD-DINOv3:为异常检测“校准”DINOv3

为了解决上述挑战,研究者们提出了 AD-DINOv3 框架。该框架将异常检测构建为一个多模态对比学习问题,并设计了两个核心模块来“校准”DINOv3,使其更专注于异常检测任务。

2.1 轻量级适配器:弥合领域鸿沟

为了解决领域偏差问题,AD-DINOv3 没有选择成本高昂的完全微调,而是在DINOv3视觉骨干和CLIP文本编码器中都引入了轻量级的适配器(Adapter)。这些适配器是一些小型的、可训练的神经网络模块,它们可以在保持强大预训练模型参数不变的情况下,对模型的表示能力进行微调,使其更好地对齐到异常检测这一特定任务上,从而有效弥合领域鸿沟。

2. 2 异常感知校准模块 (AACM):聚焦细微异常

这是该框架最核心的创新。为了解决DINOv3的全局语义偏好问题,研究者设计了 异常感知校准模块 (Anomaly-Aware Calibration Module, AACM) 。

  • 问题根源:在Vision Transformer架构中,CLS token负责聚合整个图像的全局信息。由于预训练任务的性质,它天然地更关注图像中的主要物体,因此容易忽略局部、细微的异常。
  • 解决方案:AACM模块在训练过程中,利用真实的异常掩码(mask)作为监督信号,明确地引导CLS token去关注(attend to)那些代表异常区域的图像块(patch tokens)。通过这种方式,AACM“校准”了CLS token的行为,使其从一个“通用前景语义的聚合器”转变为一个“异常区域的探测器”。经过校准后,整个模型的特征空间被重塑,使得异常特征更具辨别性。

03 实验结果:全面超越SOTA

研究团队在MVTec AD、VisA等8个工业和医疗领域的公开基准数据集上进行了大量实验,以验证 AD-DINOv3 的性能。

3.1 定量分析

如下表所示,无论是在工业数据集还是医疗数据集上,AD-DINOv3 在像素级异常定位的AUROC和F1-score指标上,都 持续达到或超越了 目前最先进的(SOTA)方法。例如,在MVTec AD上,其AUROC和F1分数分别达到了 91.6% 和 50.1% ,创造了新的纪录。在所有工业数据集上的平均性能也全面领先。

3.2 定性分析

从可视化的热力图结果来看,AD-DINOv3 的优势更加明显。如下图所示,相比于WinCLIP、APRIL-GAN等方法,AD-DINOv3 生成的异常区域热力图更清晰、更精准,能够准确地勾勒出金属划痕、电路板缺陷、皮肤病变等各种异常的轮廓,同时有效抑制了背景噪声。

3.3 消融实验

消融研究证实了框架中每个组件的有效性。例如,在MVTec AD数据集上,仅引入跨模态对比学习(CMCL)就能带来14.78%的AUROC提升;在CMCL的基础上再加入AACM模块,性能被进一步提升。这证明了适配器和异常感知校准模块对于实现卓越性能缺一不可。

04 总结与贡献

这项工作成功地将强大的视觉基础模型DINOv3引入到零样本异常检测领域,并取得了突破性的成果。其主要贡献在于:

  1. 首次将DINOv3用于ZSAD:提出了第一个成功适配DINOv3用于零样本异常检测的框架 AD-DINOv3
  2. 提出异常感知校准模块 (AACM) :设计了一个新颖的校准模块,有效解决了DINOv3在异常检测任务中对全局语义的过度偏好问题,显著提升了对细微异常的辨别能力。
  3. 树立了新的SOTA:在8个工业和医疗基准测试中取得了全面领先的性能,证明了其作为通用ZSAD框架的有效性和优越性。

总而言之,AD-DINOv3 的提出,不仅为零样本异常检测提供了一个更强大、更通用的解决方案,也为如何将大型自监督视觉模型适配到下游特定任务提供了宝贵的思路。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k