极市导读
Dinomaly2 用“极简统一”终结 UAD 碎片化:一个 ViT-编码器+Dropout 噪声瓶颈+线性注意力+上下文重定心,无需任何模态专用模块,就在 MVTec/VisA/MVTec3D 等 9 类任务全部刷到SOTA,8 张样本即可 98.7%,4090 上跑 253 FPS,首次验证异常检测正 Scaling Law。>>加入极市CV技术交流群,走在计算机视觉的最前沿
重磅更新
还记得在CVPR2025上首次让多类别异常检测(MUAD)达到单类UAD模型水平的Dinomaly吗?现在,Dinomaly进一步进化为了Dinomaly2———一个真正实现"大一统"的异常检测框架!
论文标题:One Dinomaly2 Detect Them All: A Unified Framework for Full-Spectrum Unsupervised Anomaly Detection 论文链接:https://arxiv.org/abs/2510.17611v2 代码仓库:https://github.com/guojiajeremy/Dinomaly
从工业质检到无人机影像,从单模态到多模态,从充足数据到小样本场景,Dinomaly2用一个统一框架首次实现了跨数据模态、跨任务设置、跨应用领域的全面统一。 在MVTec-AD和VisA上达到99.9%和99.3%的I-AUROC,终结了多类别与单类别方法之间的性能鸿沟。多视角MUAD:在Real-IAD上达到94.9%的物体级AUROC。RGB-3D MUAD:在MVTec3D上达到97.4% I-AUROC,大幅超越专门的多模态方法。少样本MUAD:8个样本即可达到98.7%(MVTec-AD)和97.4%(VisA),甚至超越使用全部训练数据的SOTA。
01 从碎片化到大一统
1.1 研究动机:从碎片化到大一统
当前无监督异常检测(UAD)领域面临两个核心挑战:
-
性能鸿沟:虽然领域正从"单类专用模型"向"多类统一模型"演进,但多类别模型的性能显著低于one-for-one训练的模型,限制了多类别方法的实用性。
-
方法碎片化:不同的UAD场景需要完全不同的方法架构——2D检测、多类别建模,多视角检测、RGB-3D融合、少样本检测等,都需要专门设计的框架,给实际部署带来巨大负担。
Dinomaly2提出了一个反直觉的主张:通用异常检测需要简化,而非专门化。通过"Less is More"的极简主义哲学,用几个简单却精心设计的组件,实现了跨模态、跨场景的统一检测。
02 Dinomaly2
2.1 通用视觉表征(Foundation Models)
Dinomaly2是一个基于重构误差的异常检测框架。整体框架采用编码器-瓶颈-解码器架构,其中编码器使用预训练的Vision Transformer(ViT)基础模型提取多层特征,瓶颈层对特征进行聚合和处理,解码器则负责重构编码器的中间特征。 训练时仅使用正常样本,推理时通过重构误差检测异常。
我们发现强大的自监督ViT基础模型能够提供跨越不同UAD模态和领域的通用特征表示。 我们系统研究了模型规模、输入分辨率和预训练策略的影响,发现异常检测性能与基础模型的ImageNet线性探测精度高度相关(R²=0.91)。
2.2 噪声瓶颈(Noisy Bottleneck)
"Dropout is all you need!"
泛化性是个好东西。然而,多类别UAD面临的核心挑战是"过度泛化"——当训练数据包含多样化的正常模式时,解码器可能学会重构从未见过的异常模式。现有方法通过引入复杂的合成异常或特征扰动来解决这个问题,但这些方法依赖启发式设计,难以泛化到不同领域。
不同于复杂的合成异常生成策略,Dinomaly2巧妙地利用简单的Dropout作为特征扰动机制,在encoder与decoder之前插入一个简单的MLP作为噪声瓶颈:
其中m是随机二值掩码。这种方法的优雅之处在于,Dropout并不是均匀地降低瓶颈层的信息容量,而是强制执行一种针对训练样本统计结构的冗余编码方案。从信息瓶颈理论的角度看,这限制了模型对未见模式的编码能力,同时保持对正常模式的良好重构。实验表明,这种简单的Dropout策略不仅超越了复杂的合成异常方法,还具有更好的超参数鲁棒性。
2.3 非聚焦线性注意力(Unfocused Linear Attention)
"One man’s poison is another man’s meat." 彼之砒霜,吾之蜜糖
Softmax Attention是Transformer的核心机制,它能够动态地聚焦于输入的相关部分。然而在无监督异常检测中,这种聚焦能力反而成为了问题——它使得网络能够通过简单地复制每个query对应位置的key来形成恒等映射,从而削弱了其通过重建误差进行异常检测的能力。
Dinomaly2采用了一个反直觉的设计:将Linear Attention的"缺陷"转化为特性。Linear Attention原本是为了降低计算复杂度而提出的,它通过替换softmax操作实现了从O(N²d)到O(Nd²)的复杂度降低,但代价是失去了聚焦特定位置的能力。在异常检测中,这种"无法聚焦"恰好是我们需要的——它强制网络基于全局模式进行重构,而不是简单地复制局部细节。从频域角度看,Linear Attention就像一个低通滤波器,无法选择性地放大局部高频细节,迫使网络依赖学习到的全局正常模式进行重建。
2.4 上下文感知重定心(Context-Aware Recentering)
"Beauty is in the eye of the beholder." 情人眼里出西施
多类别UAD面临的一个根本挑战是异常定义依赖于上下文:相同的视觉特征在不同上下文中可能是正常或异常的。例如,车辆在高速公路上是正常的,但在人行道上就是异常的;反之,行人在人行道上是正常的,但在高速公路上就成了异常。这种上下文歧义在统一的多类别模型中尤其棘手,因为解码器可能学会在任何上下文中重构车辆和行人。
Dinomaly2通过一个极其简单的机制解决了这个问题:ViT的 [CLS] token自然地编码了每个场景的全局上下文,可以作为patch的上下文锚点。具体来说,我们不是直接重构patch特征,而是重构"重定位"后的特征:
这个简单的减法操作有效地将每张图像的特征空间的原点移动到不同类别的 [CLS] token的位置,使得来自不同类别的patch特征被映射到不同的参考坐标系。 上下文感知重定心不需要任何额外的参数或架构修改,仅通过一个简单的减法就实现了隐式的类别条件化,让相同的局部模式在不同场景中获得了不同的含义。
2.5 松散重建(Loose Reconstruction)
"The tighter you squeeze, the less you have." 执者失之
基于特征重构的UAD方法通常遵循知识蒸馏范式:训练解码器精确地模仿编码器的对应层。这种严格的层对层监督虽然提供了强学习信号,但在多类别设置下可能导致解码器学的太好,甚至能够恢复训练中从未见过的异常模式。 Dinomaly2提出了"松散重构"策略,从两个方面放松约束。
首先是松散约束(Loose Constraint):我们不强制层对层的严格对应,而是将多个编码器层分组为语义簇。默认配置将8个中间层分为浅层组(第3-6层)和深层组(第7-10层),解码器重构这些组的聚合表示而非单个层。这种语义分组保留了必要的层次信息,同时给解码器更多自由度,使其行为与编码器有所不同。
其次是松散损失(Loose Loss):我们采用选择性优化策略,对重构良好的区域动态减少梯度。具体而言,对于重构误差低于批次内第90百分位的区域,我们将梯度降低到原来的10%。这种hard-mining策略确保模型主要关注难以重构的区域,防止在简单模式上过拟合。这种故意不完美的重构目标使得模型能够捕获正常模式,同时在异常区域保持足够的重构误差。
2.6 无缝扩展:Beyond Plain 2D
"Entia non sunt multiplicanda praeter necessitatem." 如非必要,勿增实体
Dinomaly2的极简设计使其能够自然扩展到各种场景,无需复杂的架构修改或专门设计。
多视角检测: 对于Real-IAD和MANTA等多视角数据集,每个对象从5个不同角度拍摄。Dinomaly2保持训练范式不变,简单地包含所有视角的所有类别进行联合训练。推理时,我们将所有视角的异常图concatenate,然后计算top n个最异常像素的平均值作为物体级异常分数。
RGB-3D融合: 对于MVTec3D等结合RGB图像和3D点云的数据集,我们采用最简单的的融合策略。3D点云首先通过投影渲染为深度图,然后RGB图像和深度图独立地通过相同的预训练ViT编码器处理,得到各自的特征表示。多模态编码器表示通过简单的逐元素平均获得: 。后续的瓶颈、解码器和重构过程与标准框架完全相同。
少样本UAD: 在实际应用中,常常面临正常样本稀缺的挑战。Dinomaly2的极简设计使其自然适应少样本场景,无需任何架构修改。我们的适应策略极其简单:在训练时应用标准的数据增强技术,包括随机翻转、旋转和平移。这些基础增强扩展了有限的正常样本空间,无需引入领域特定的假设(如文本提示)或复杂的元学习策略。
03 全方位性能突破
3.1 Plain 2D MUAD
Dinomaly2在各个基准上都取得了前所未有的成绩:
-
MVTec-AD: 99.9% I-AUROC,接近完美检测 -
VisA: 99.3% I-AUROC,超越前SOTA 3.8%,进入99+时代 -
MPDD: 99.0% I-AUROC,提升6.4%,进入99+时代 -
BTAD: 97.5% I-AUROC,训练集含有异常图片的带噪学习
3.2 Multi-Modal/Multi-View MUAD
最令人惊喜的是,Dinomaly2通过最简单的适配就能扩展到各种模态:
-
多视角检测:Real-IAD上达到94.9%,MANTA-Tiny上达到94.6%的物体级AUROC, -
RGB+3D:MVTec3D上达到97.4%,超越专门的多模态方法 -
RGB+红外:MulSen-AD上达到97.6%,大幅领先专用方法
3.3 Few-Shot MUAD
仅用每类4/8个样本,Dinomaly2就能达到:
-
MVTec-AD: 98.1%/98.7% I-AUROC -
VisA: 96.7%/97.4& I-AUROC -
MVTec3D: 90.3%/93.4% I-AUROC
甚至超越了许多使用完整训练集的Full-shot方法。由于Dinomaly2的极简性,可以无缝衔接Few-shot和RGB-3D。
3.4 Inference-Unified MUAD
文章首次提出"推理统一"的多类别UAD设置,要求模型使用单一阈值检测混合类别的异常(既测试时把数据集的所有类别混在一起当作1个类别)。在这个极具挑战性的设置下,Dinomaly2仍然达到98.9%(MVTec-AD)和97.8%(VisA)的I-AUROC,显著优于其他方法。
3.5 UAD on Various Domains
除了工业检测,文章进一步在医学图像,生物学,户外检修,无人机监控领域验证了Dinomaly2的普适性。
3.6 与Dinomaly衍生方法的对比
得益于极简的设计,Dinomaly框架具有极强的可扩展性。自Dinomaly代码开源以来,研究社区基于该框架,试图通过各种技术进一步提升性能,并发表于顶级会议(CVPR2025,ICML2025等)。 这些方法的涌现一方面验证了Dinomaly框架的可扩展性,另一方面也为我们提供了一个有趣的对比实验:复杂的技术改进是否真的优于精心设计的简单组件?
结果表明,尽管这些扩展方法都在原始Dinomaly基础上取得了一定改进,但Dinomaly2通过更简单的设计实现了更大的性能提升:
04 规模化定律首次在异常检测中验证
Dinomaly2首次系统地研究了异常检测中的Scaling Behavior。与之前报告负面或边际收益的方法不同,Dinomaly2展现出清晰的正向扩展行为:
-
模型越大,性能越好(从ViT-S到ViT-L持续提升) -
分辨率越高,定位越准(从280²到448²稳定增长) -
更好的预训练带来更好的检测(DINOv3 > DINOv2 > iBOT > DINO...)
05 总结
为什么Dinomaly2如此强大?
-
部署简化:一套代码搞定所有场景,大幅降低维护成本 -
性能保证:不仅统一,而且每个子任务都达到SOTA -
扩展定律:根据性能要求,灵活选择模型大小、分辨率大小 -
计算高效:ViT-S版本在RTX4090上可达253 FPS
Dinomaly2的成功证明了一个重要观点:在深度学习时代,架构的简洁性往往是通用性的基础。通过回归基本原理,用最简单的组件解决最复杂的问题,Dinomaly2也许能为异常检测领域树立新的范式。
作者团队来自清华、北理、上交、新南威尔士、复旦、香港城市、等多所知名院校。
如果您对这项工作感兴趣,欢迎引用、star和交流讨论!
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

