极市导读
DiffPathV2 利用预训练扩散模型的“去噪轨迹误差”+SSIM 结构加权,六维分数零样本判异常,CIFAR-10/100 等 5 数据集平均 AUROC 达 94.9,代码已开源。>>加入极市CV技术交流群,走在计算机视觉的最前沿
你有没有想过,当AI看到一张从未见过的图片时,它是如何判断这张图"不对劲"的?最近ICCV 2025的一篇新论文给出了令人惊艳的答案——来自生成式基础模型的"火眼金睛",不仅能精准识别异常,还不用需要针对特定任务重新训练!
今天就带大家拆解这篇题为《Zero-Shot Image Anomaly Detection Using Generative Foundation Models》的论文,看看DiffPathV2是如何在多个基准测试中刷新纪录,把异常检测的AUROC分数干到94.9的!
论文信息
-
题目:Zero-Shot Image Anomaly Detection Using Generative Foundation Models基于生成式基础模型的零样本图像异常检测
-
作者:Lemar Abdi, Amaan Valiuddin, Francisco Caetano, Christiaan Viviers, Fons van der Sommen
01 为什么我们需要"零样本"异常检测?
想象一下这样的场景:训练AI识别工厂流水线上的合格零件,结果来了一批形状完全不同的新零件,AI却傻傻分不清楚;或者用CIFAR-10训练的模型,遇到CIFAR-100的图片就彻底懵圈...
这就是传统异常检测的痛点:必须针对特定数据集训练,遇到没见过的"分布外数据(OOD)"就歇菜。而现实世界中,我们需要AI具备"举一反三"的能力——只在一个数据集上训练,就能识别各种未知的异常样本。
论文作者指出:生成式基础模型(GFM)就是解决这个问题的金钥匙。特别是去噪扩散模型(DDMs),它们在生成图像时留下的"去噪轨迹",藏着区分正常与异常的关键密码!
02 DiffPathV2:站在DiffPath肩膀上的升级者
这篇论文的核心贡献是提出了DiffPathV2方法,它是对之前DiffPath方法的全面升级。我们先通过一张图看懂它的整体框架:
简单来说,DiffPathV2的工作流程分为三步:
-
用预训练的扩散模型预测图像在每个时间步的噪声(斯坦分数) -
计算预测噪声与真实噪声的误差,并分析这些误差随时间的变化 -
用SSIM(结构相似性指数)给误差"加权",让重要区域的异常更突出
关键创新点1:从"分数"到"分数误差"的飞跃
DiffPath原来直接用模型预测的斯坦分数来判断异常,而DiffPathV2则更聪明——它计算预测噪声和真实噪声之间的均方误差(MSE)。作者发现,这个误差信号比原始分数包含更丰富的信息!
就像老师批改作业,不仅看学生答案(分数),更要看答案与标准答案的差距(误差)。异常样本的误差会明显大于正常样本,尤其是在复杂的语义场景中。
关键创新点2:六维分数捕捉轨迹动态
为了全面描述误差的变化,DiffPathV2构建了一个"六维分数":
-
前三维:不同时间步误差的1阶、2阶、3阶范数总和(反映误差大小) -
后三维:误差随时间变化率的1阶、2阶、3阶范数总和(反映误差变化趋势)
这就像不仅记录每次考试的错题数,还分析错题数是在增加还是减少,从动态角度更精准地捕捉异常特征。
关键创新点3:SSIM让重要区域"说话"
图像中不同区域的重要性天差地别——比如人脸的眼睛区域和背景的天空区域,异常的意义完全不同。DiffPathV2用SSIM来解决这个问题:
-
计算原始图像与模型预测噪声总和的SSIM图 -
用"1-SSIM"作为权重,给那些结构差异大的区域(可能是异常区)更高权重 -
用这个权重调制六维分数,让重要异常更突出
效果就像给AI装了"放大镜",自动聚焦到最可能出现异常的区域!
03 实验结果:刷新多项SOTA,近OOD检测提升显著
作者在5个主流数据集(CIFAR-10、CIFAR-100、SVHN、CelebA、Textures)上做了全面测试,用AUROC(曲线下面积)作为评估指标,分数越高说明检测能力越强。
关键结果1:平均AUROC达94.9,全面领先
从表1的结果能清晰看到,DiffPathV2在几乎所有数据集组合中都拿到了最高分(粗体所示)。特别是在CIFAR-10与CIFAR-100这种"近OOD"场景(语义非常接近),表现尤为突出:
为什么这个结果厉害?因为CIFAR-10和CIFAR-100都是自然图像,很多类别非常相似(比如都有"鸟"、"狗"),人类都容易混淆,而DiffPathV2却能精准区分!
关键结果2:消融实验证明创新有效
作者通过消融实验(控制变量法)验证了每个创新点的作用:
从图2的异常分数直方图能更直观看到效果:
-
左图:原始方法的正常样本(蓝色)和异常样本(橙色)分数重叠严重 -
右图:DiffPathV2的异常样本分数明显右移,与正常样本界限清晰
这说明:斯坦分数误差+SSIM加权的组合,能有效拉开正常与异常样本的差距!
04 颠覆认知:CelebA比ImageNet更适合做基础模型?
论文最出人意料的发现是:预训练数据集的选择对性能影响巨大,而且并非数据集越多样越好!作者对比了在ImageNet(1400万张图,1000类)和CelebA(20万张人脸图)上预训练的模型表现:
结果显示:DiffPathV2在CelebA上预训练时,平均性能反而超过ImageNet!作者分析,这是因为CelebA虽然语义范围窄(主要是人脸),但结构一致性更强,能让模型更敏感地捕捉到扩散轨迹中的细微扰动。
这个发现给我们的启示是:选择基础模型时,要根据任务特性来选,而不是盲目追求"大而全"。对于异常检测这种需要捕捉细微差异的任务,结构一致的数据集可能是更好的选择。
05 为什么说这篇论文值得关注?
-
真正的零样本能力:只在一个数据集上训练,就能检测多个未知数据集的异常,大大降低了应用门槛 -
理论与实践结合:深入分析斯坦分数的特性,提出的误差建模方法有坚实理论支撑 -
性能全面领先:在近OOD和远OOD场景都表现出色,尤其解决了语义接近的异常检测难题 -
工程落地友好:不需要重新训练或微调,直接用预训练模型就能跑,部署成本低
当然,作者也坦言,在某些数据集上(比如Textures)性能还有提升空间,未来可以尝试更大的生成式基础模型,进一步挖掘去噪轨迹中的信息。
06 总结
这篇论文用扎实的理论和惊艳的实验证明:生成式基础模型不仅能画画,还能成为异常检测的"利器"。DiffPathV2通过聚焦"斯坦分数误差"和"结构加权",让零样本异常检测的性能迈上新台阶。
更重要的是,它打破了我们对"好的基础数据集"的固有认知——有时候,专注比全面更重要。这为后续研究提供了全新的思路:如何根据具体任务特性,选择和设计更合适的基础模型?
如果你正在做异常检测、OOD检测相关研究,或者对生成式模型的下游应用感兴趣,这篇论文绝对值得细读!
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

