大数跨境
0
0

ICCV 2025 | 告别数据集重训!DiffPathV2:生成基础模型驱动,零样本图像异常检测性能飙升

ICCV 2025 | 告别数据集重训!DiffPathV2:生成基础模型驱动,零样本图像异常检测性能飙升 极市平台
2025-11-03
2
↑ 点击蓝字 关注极市平台
作者丨小白
来源丨小白学视觉
编辑丨极市平台

极市导读

 

DiffPathV2 利用预训练扩散模型的“去噪轨迹误差”+SSIM 结构加权,六维分数零样本判异常,CIFAR-10/100 等 5 数据集平均 AUROC 达 94.9,代码已开源。>>加入极市CV技术交流群,走在计算机视觉的最前沿

你有没有想过,当AI看到一张从未见过的图片时,它是如何判断这张图"不对劲"的?最近ICCV 2025的一篇新论文给出了令人惊艳的答案——来自生成式基础模型的"火眼金睛",不仅能精准识别异常,还不用需要针对特定任务重新训练!

今天就带大家拆解这篇题为《Zero-Shot Image Anomaly Detection Using Generative Foundation Models》的论文,看看DiffPathV2是如何在多个基准测试中刷新纪录,把异常检测的AUROC分数干到94.9的!

论文信息

  • 题目:Zero-Shot Image Anomaly Detection Using Generative Foundation Models基于生成式基础模型的零样本图像异常检测

  • 作者:Lemar Abdi, Amaan Valiuddin, Francisco Caetano, Christiaan Viviers, Fons van der Sommen

01 为什么我们需要"零样本"异常检测?

想象一下这样的场景:训练AI识别工厂流水线上的合格零件,结果来了一批形状完全不同的新零件,AI却傻傻分不清楚;或者用CIFAR-10训练的模型,遇到CIFAR-100的图片就彻底懵圈...

这就是传统异常检测的痛点:必须针对特定数据集训练,遇到没见过的"分布外数据(OOD)"就歇菜。而现实世界中,我们需要AI具备"举一反三"的能力——只在一个数据集上训练,就能识别各种未知的异常样本。

论文作者指出:生成式基础模型(GFM)就是解决这个问题的金钥匙。特别是去噪扩散模型(DDMs),它们在生成图像时留下的"去噪轨迹",藏着区分正常与异常的关键密码!

02 DiffPathV2:站在DiffPath肩膀上的升级者

这篇论文的核心贡献是提出了DiffPathV2方法,它是对之前DiffPath方法的全面升级。我们先通过一张图看懂它的整体框架:

DiffPathV2方法框架图

简单来说,DiffPathV2的工作流程分为三步:

  1. 用预训练的扩散模型预测图像在每个时间步的噪声(斯坦分数)
  2. 计算预测噪声与真实噪声的误差,并分析这些误差随时间的变化
  3. 用SSIM(结构相似性指数)给误差"加权",让重要区域的异常更突出

关键创新点1:从"分数"到"分数误差"的飞跃

DiffPath原来直接用模型预测的斯坦分数来判断异常,而DiffPathV2则更聪明——它计算预测噪声和真实噪声之间的均方误差(MSE)。作者发现,这个误差信号比原始分数包含更丰富的信息!

就像老师批改作业,不仅看学生答案(分数),更要看答案与标准答案的差距(误差)。异常样本的误差会明显大于正常样本,尤其是在复杂的语义场景中。

关键创新点2:六维分数捕捉轨迹动态

为了全面描述误差的变化,DiffPathV2构建了一个"六维分数":

  • 前三维:不同时间步误差的1阶、2阶、3阶范数总和(反映误差大小)
  • 后三维:误差随时间变化率的1阶、2阶、3阶范数总和(反映误差变化趋势)

这就像不仅记录每次考试的错题数,还分析错题数是在增加还是减少,从动态角度更精准地捕捉异常特征。

关键创新点3:SSIM让重要区域"说话"

图像中不同区域的重要性天差地别——比如人脸的眼睛区域和背景的天空区域,异常的意义完全不同。DiffPathV2用SSIM来解决这个问题:

  1. 计算原始图像与模型预测噪声总和的SSIM图
  2. 用"1-SSIM"作为权重,给那些结构差异大的区域(可能是异常区)更高权重
  3. 用这个权重调制六维分数,让重要异常更突出

效果就像给AI装了"放大镜",自动聚焦到最可能出现异常的区域!

03 实验结果:刷新多项SOTA,近OOD检测提升显著

作者在5个主流数据集(CIFAR-10、CIFAR-100、SVHN、CelebA、Textures)上做了全面测试,用AUROC(曲线下面积)作为评估指标,分数越高说明检测能力越强。

关键结果1:平均AUROC达94.9,全面领先

从表1的结果能清晰看到,DiffPathV2在几乎所有数据集组合中都拿到了最高分(粗体所示)。特别是在CIFAR-10与CIFAR-100这种"近OOD"场景(语义非常接近),表现尤为突出:

主要实验结果表

为什么这个结果厉害?因为CIFAR-10和CIFAR-100都是自然图像,很多类别非常相似(比如都有"鸟"、"狗"),人类都容易混淆,而DiffPathV2却能精准区分!

关键结果2:消融实验证明创新有效

作者通过消融实验(控制变量法)验证了每个创新点的作用:

消融实验结果表

从图2的异常分数直方图能更直观看到效果:

异常分数直方图
  • 左图:原始方法的正常样本(蓝色)和异常样本(橙色)分数重叠严重
  • 右图:DiffPathV2的异常样本分数明显右移,与正常样本界限清晰

这说明:斯坦分数误差+SSIM加权的组合,能有效拉开正常与异常样本的差距!

04 颠覆认知:CelebA比ImageNet更适合做基础模型?

论文最出人意料的发现是:预训练数据集的选择对性能影响巨大,而且并非数据集越多样越好!作者对比了在ImageNet(1400万张图,1000类)和CelebA(20万张人脸图)上预训练的模型表现:

基础数据集对比表

结果显示:DiffPathV2在CelebA上预训练时,平均性能反而超过ImageNet!作者分析,这是因为CelebA虽然语义范围窄(主要是人脸),但结构一致性更强,能让模型更敏感地捕捉到扩散轨迹中的细微扰动。

这个发现给我们的启示是:选择基础模型时,要根据任务特性来选,而不是盲目追求"大而全"。对于异常检测这种需要捕捉细微差异的任务,结构一致的数据集可能是更好的选择。

05 为什么说这篇论文值得关注?

  1. 真正的零样本能力:只在一个数据集上训练,就能检测多个未知数据集的异常,大大降低了应用门槛
  2. 理论与实践结合:深入分析斯坦分数的特性,提出的误差建模方法有坚实理论支撑
  3. 性能全面领先:在近OOD和远OOD场景都表现出色,尤其解决了语义接近的异常检测难题
  4. 工程落地友好:不需要重新训练或微调,直接用预训练模型就能跑,部署成本低

当然,作者也坦言,在某些数据集上(比如Textures)性能还有提升空间,未来可以尝试更大的生成式基础模型,进一步挖掘去噪轨迹中的信息。

06 总结

这篇论文用扎实的理论和惊艳的实验证明:生成式基础模型不仅能画画,还能成为异常检测的"利器"。DiffPathV2通过聚焦"斯坦分数误差"和"结构加权",让零样本异常检测的性能迈上新台阶。

更重要的是,它打破了我们对"好的基础数据集"的固有认知——有时候,专注比全面更重要。这为后续研究提供了全新的思路:如何根据具体任务特性,选择和设计更合适的基础模型?

如果你正在做异常检测、OOD检测相关研究,或者对生成式模型的下游应用感兴趣,这篇论文绝对值得细读!


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k