大数跨境
0
0

ICCV 2025 | 哈工大牵头!ReMP-AD 统一记忆库优化与视觉语言引导,少样本工业检测大升级

ICCV 2025 | 哈工大牵头!ReMP-AD 统一记忆库优化与视觉语言引导,少样本工业检测大升级 极市平台
2025-12-03
0
↑ 点击蓝字 关注极市平台
作者丨小白
来源丨小白学视觉
编辑丨极市平台

极市导读

 

ReMP-AD 用「类内令牌检索」先筛出高相似正常原型,再用「视觉-语言先验融合」把显著差异和语义异常对齐,1-shot 即在 VisA 取得 97.8% 分割 AUC,4-shot 达 94.1% 分类准确率,刷新少样本工业异常检测纪录。>>加入极市CV技术交流群,走在计算机视觉的最前沿

在现代制造业中,工业视觉异常检测如同产品质量的"守护神",但传统检测方法要么依赖大量标注数据,要么难以识别细微缺陷。近日,Hongchi Ma等人提出的ReMP-AD框架为解决这一难题带来了新突破,在VisA数据集上实现了97.8%的异常分割准确率和94.1%的分类准确率。本文将深入解析这一创新方法的核心机制与显著优势。

论文信息

题目:ReMP-AD: Retrieval-enhanced Multi-modal Prompt Fusion for Few-Shot Industrial Visual Anomaly Detection

ReMP-AD:用于少样本工业视觉异常检测的检索增强多模态提示融合方法

作者:Hongchi Ma、Guanglei Yang、Debin Zhao、Yanli Ji、Wangmeng Zuo

源码:https://github.com/cshcma/ReMP-AD.git

01 工业检测的痛点与挑战

工业视觉异常检测(IVAD)面临着三大核心挑战:

  • 数据稀缺性:优质标注样本少,尤其是异常样本难以获取
  • 类内差异性:相同类别的正常样本存在光照、背景等干扰因素
  • 特征难捕捉:细微缺陷的特征不明显,传统模型易漏检

现有方法中,零样本方法受限于文本描述的模糊性,重建方法难以捕捉细粒度细节,而少样本方法虽具潜力,却未能有效处理参考样本的变异性。如图1所示,选择不相似的参考样本会导致模糊的检测结果,而匹配度高的参考样本则能精准定位异常区域。

图1:参考样本相似度对异常检测热图的影响对比

02 ReMP-AD框架:双引擎驱动的检测方案

ReMP-AD框架创新性地融合了类内令牌检索与多模态提示融合技术,构建了高效的少样本异常检测流水线。其整体架构如图2所示,主要包含两个核心组件:类内令牌检索(ICTR)和视觉-语言先验融合(VLPF)。

图2:ReMP-AD框架的整体流程示意图

创新点一:类内令牌检索(ICTR)机制

ICTR机制通过两层处理有效过滤记忆库噪声,提升原型检索质量:

  1. 全局原型检索(GPR):计算查询图像块与参考样本的相似度,生成权重矩阵,通过阈值过滤保留高相关特征,构建可靠的正常原型特征。
  2. 类别标记平衡(CTB):基于查询与参考样本的类别标记相似度,动态调整各参考样本的置信度权重,解决类内变化导致的干扰问题。

这种层次化检索策略确保了记忆库中只保留最相关的正常模式,为异常检测提供了高质量的参考基准。

创新点二:视觉-语言先验融合(VLPF)方法

VLPF创新性地整合视觉显著性与语言语义信息:

  • 视觉先验掩码:通过计算图像块间的相似度差异,识别潜在异常区域,生成注意力掩码引导模型聚焦关键区域。
  • 语言先验对齐:利用CLIP模型的文本特征,将"正常"和"异常"的语义信息融入视觉特征分析。
  • 区域级扩展:通过连通区域分析,将图像块级特征扩展到区域级特征,提升检测的完整性。

这种多模态融合策略让模型既能捕捉细微的视觉异常,又能利用语言知识增强语义理解,实现了从像素到区域的全方位分析。

03 实验验证:性能与泛化能力的双重突破

在三大数据集上的实验结果充分证明了ReMP-AD的优越性:

3.1 基准数据集表现

如表1所示,在MVTec-AD和VisA数据集的1-shot、2-shot、4-shot设置下,ReMP-AD均显著优于现有方法。特别是在VisA数据集的4-shot场景中,其分割性能达到97.8%的AUC分数,远超对比方法。

表1:ReMP-AD与现有方法在图像级异常检测的性能对比
表1:ReMP-AD与现有方法在图像级异常检测的性能对比

3.2 真实场景应用

在PCB-Bank印刷电路板数据集中,ReMP-AD同样表现出色(表2),展现了其在实际工业场景中的应用价值。这意味着该方法能有效检测电子元件中的细微缺陷,为精密制造提供可靠保障。

表2:ReMP-AD在PCB-Bank数据集上的性能表现
表2:ReMP-AD在PCB-Bank数据集上的性能表现

3.3 可视化效果

从图3的定性结果可以直观看到,ReMP-AD能更精准地定位异常区域,减少误报。例如在瓷砖缺陷检测中,能完整识别粘贴的"胶带";在蜡烛检测中,对灯芯异常的判断更准确。

图3:不同方法的异常定位结果可视化对比
图3:不同方法的异常定位结果可视化对比

3.4 消融实验:核心组件的贡献分析

为验证各组件的有效性,研究团队进行了系统的消融实验:

  • 加入GPR使像素级AUC提升0.7%,图像级F1提升5.7%
  • 叠加CTB后,P-AUC进一步提高0.5%,P-F1提升1.5%
  • VLPF模块显著增强了定位能力,使整体性能再上新台阶
表4:各组件对模型性能的贡献分析
表4:各组件对模型性能的贡献分析

实验还表明,CTB在多样本场景中优势明显(表5),随着参考样本数量增加,性能提升更加显著,证明了其处理类内变化的有效性。

04 总结与展望

ReMP-AD通过创新的ICTR和VLPF组件,成功解决了少样本工业异常检测中的两大核心难题:类内变化干扰和特征表达不足。其在多个数据集上的卓越表现,特别是在真实PCB检测中的成功应用,验证了方法的实用性和泛化能力。

未来,该方法有望扩展到3D工业场景,为更复杂的制造环境提供质量检测解决方案。对于工业界而言,ReMP-AD以少量样本即可实现高精度检测的特性,将大幅降低标注成本,加速智能质检的落地应用。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k