ICCV 2025 | 告别数据集重训！DiffPathV2：生成基础模型驱动，零样本图像异常检测性能飙升



ICCV 2025 | 告别数据集重训！DiffPathV2：生成基础模型驱动，零样本图像异常检测性能飙升

极市平台

2025-11-03

↑ 点击蓝字关注极市平台

作者丨小白

来源丨小白学视觉

编辑丨极市平台

极市导读

DiffPathV2 利用预训练扩散模型的“去噪轨迹误差”+SSIM 结构加权，六维分数零样本判异常，CIFAR-10/100 等 5 数据集平均 AUROC 达 94.9，代码已开源。>>加入极市CV技术交流群，走在计算机视觉的最前沿

你有没有想过，当AI看到一张从未见过的图片时，它是如何判断这张图"不对劲"的？最近ICCV 2025的一篇新论文给出了令人惊艳的答案——来自生成式基础模型的"火眼金睛"，不仅能精准识别异常，还不用需要针对特定任务重新训练！

今天就带大家拆解这篇题为《Zero-Shot Image Anomaly Detection Using Generative Foundation Models》的论文，看看DiffPathV2是如何在多个基准测试中刷新纪录，把异常检测的AUROC分数干到94.9的！

论文信息

题目：Zero-Shot Image Anomaly Detection Using Generative Foundation Models基于生成式基础模型的零样本图像异常检测
作者：Lemar Abdi, Amaan Valiuddin, Francisco Caetano, Christiaan Viviers, Fons van der Sommen

01 为什么我们需要"零样本"异常检测？

想象一下这样的场景：训练AI识别工厂流水线上的合格零件，结果来了一批形状完全不同的新零件，AI却傻傻分不清楚；或者用CIFAR-10训练的模型，遇到CIFAR-100的图片就彻底懵圈...

这就是传统异常检测的痛点：必须针对特定数据集训练，遇到没见过的"分布外数据（OOD）"就歇菜。而现实世界中，我们需要AI具备"举一反三"的能力——只在一个数据集上训练，就能识别各种未知的异常样本。

论文作者指出：生成式基础模型（GFM）就是解决这个问题的金钥匙。特别是去噪扩散模型（DDMs），它们在生成图像时留下的"去噪轨迹"，藏着区分正常与异常的关键密码！

02 DiffPathV2：站在DiffPath肩膀上的升级者

这篇论文的核心贡献是提出了DiffPathV2方法，它是对之前DiffPath方法的全面升级。我们先通过一张图看懂它的整体框架：

简单来说，DiffPathV2的工作流程分为三步：

用预训练的扩散模型预测图像在每个时间步的噪声（斯坦分数）
计算预测噪声与真实噪声的误差，并分析这些误差随时间的变化
用SSIM（结构相似性指数）给误差"加权"，让重要区域的异常更突出

关键创新点1：从"分数"到"分数误差"的飞跃

DiffPath原来直接用模型预测的斯坦分数来判断异常，而DiffPathV2则更聪明——它计算预测噪声和真实噪声之间的均方误差（MSE）。作者发现，这个误差信号比原始分数包含更丰富的信息！

就像老师批改作业，不仅看学生答案（分数），更要看答案与标准答案的差距（误差）。异常样本的误差会明显大于正常样本，尤其是在复杂的语义场景中。

关键创新点2：六维分数捕捉轨迹动态

为了全面描述误差的变化，DiffPathV2构建了一个"六维分数"：

前三维：不同时间步误差的1阶、2阶、3阶范数总和（反映误差大小）
后三维：误差随时间变化率的1阶、2阶、3阶范数总和（反映误差变化趋势）

这就像不仅记录每次考试的错题数，还分析错题数是在增加还是减少，从动态角度更精准地捕捉异常特征。

关键创新点3：SSIM让重要区域"说话"

图像中不同区域的重要性天差地别——比如人脸的眼睛区域和背景的天空区域，异常的意义完全不同。DiffPathV2用SSIM来解决这个问题：

计算原始图像与模型预测噪声总和的SSIM图
用"1-SSIM"作为权重，给那些结构差异大的区域（可能是异常区）更高权重
用这个权重调制六维分数，让重要异常更突出

效果就像给AI装了"放大镜"，自动聚焦到最可能出现异常的区域！

03 实验结果：刷新多项SOTA，近OOD检测提升显著

作者在5个主流数据集（CIFAR-10、CIFAR-100、SVHN、CelebA、Textures）上做了全面测试，用AUROC（曲线下面积）作为评估指标，分数越高说明检测能力越强。

关键结果1：平均AUROC达94.9，全面领先

从表1的结果能清晰看到，DiffPathV2在几乎所有数据集组合中都拿到了最高分（粗体所示）。特别是在CIFAR-10与CIFAR-100这种"近OOD"场景（语义非常接近），表现尤为突出：

为什么这个结果厉害？因为CIFAR-10和CIFAR-100都是自然图像，很多类别非常相似（比如都有"鸟"、"狗"），人类都容易混淆，而DiffPathV2却能精准区分！

关键结果2：消融实验证明创新有效

作者通过消融实验（控制变量法）验证了每个创新点的作用：

从图2的异常分数直方图能更直观看到效果：

左图：原始方法的正常样本（蓝色）和异常样本（橙色）分数重叠严重
右图：DiffPathV2的异常样本分数明显右移，与正常样本界限清晰

这说明：斯坦分数误差+SSIM加权的组合，能有效拉开正常与异常样本的差距！

04 颠覆认知：CelebA比ImageNet更适合做基础模型？

论文最出人意料的发现是：预训练数据集的选择对性能影响巨大，而且并非数据集越多样越好！作者对比了在ImageNet（1400万张图，1000类）和CelebA（20万张人脸图）上预训练的模型表现：

结果显示：DiffPathV2在CelebA上预训练时，平均性能反而超过ImageNet！作者分析，这是因为CelebA虽然语义范围窄（主要是人脸），但结构一致性更强，能让模型更敏感地捕捉到扩散轨迹中的细微扰动。

这个发现给我们的启示是：选择基础模型时，要根据任务特性来选，而不是盲目追求"大而全"。对于异常检测这种需要捕捉细微差异的任务，结构一致的数据集可能是更好的选择。

05 为什么说这篇论文值得关注？

真正的零样本能力：只在一个数据集上训练，就能检测多个未知数据集的异常，大大降低了应用门槛
理论与实践结合：深入分析斯坦分数的特性，提出的误差建模方法有坚实理论支撑
性能全面领先：在近OOD和远OOD场景都表现出色，尤其解决了语义接近的异常检测难题
工程落地友好：不需要重新训练或微调，直接用预训练模型就能跑，部署成本低

当然，作者也坦言，在某些数据集上（比如Textures）性能还有提升空间，未来可以尝试更大的生成式基础模型，进一步挖掘去噪轨迹中的信息。

06 总结

这篇论文用扎实的理论和惊艳的实验证明：生成式基础模型不仅能画画，还能成为异常检测的"利器"。DiffPathV2通过聚焦"斯坦分数误差"和"结构加权"，让零样本异常检测的性能迈上新台阶。

更重要的是，它打破了我们对"好的基础数据集"的固有认知——有时候，专注比全面更重要。这为后续研究提供了全新的思路：如何根据具体任务特性，选择和设计更合适的基础模型？

如果你正在做异常检测、OOD检测相关研究，或者对生成式模型的下游应用感兴趣，这篇论文绝对值得细读！

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

内容 8155

粉丝 0

极市平台为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

总阅读919

粉丝0

内容8.2k