极市导读
Anomagic用跨模态提示编码+对比掩码细化,把文本/图像提示直接变成逼真实异常与像素级掩码,无需微调即可在工业、医疗、消费等场景零样本生成缺陷,显著拉升下游检测上限。>>加入极市CV技术交流群,走在计算机视觉的最前沿
Anomagic:跨模态提示驱动的零样本异常生成,为多领域缺陷检测注入新动能
论文名称: Anomagic: Crossmodal Prompt-driven Zero-shot Anomaly Generation
作者: Yuxin Jiang、Wei Luo、Hui Zhang、Qiyu Chen、Haiming Yao、Weiming Shen、Yunkang Cao
机构: 华中科技大学、湖南大学、清华大学、中国科学院自动化研究所
论文地址:https://arxiv.org/abs/2511.10020v1
代码仓库:https://github.com/yuxin-jiang/Anomagic
数据集仓库:
https://huggingface.co/datasets/yuxinjiang11/AnomVerse
HuggingFace 在线演示:
https://huggingface.co/spaces/yuxinjiang11/Anomagic
试想一下,在工业质检、医疗影像诊断、日常物品瑕疵识别等场景中,无需任何示例缺陷样本,也无需针对特定领域微调模型,就能根据文字或图像提示,自动生成真实且符合语义的异常,还能精准输出缺陷掩码,大幅提升下游异常检测模型的性能。这曾经是多领域异常生成的难题,而华中科技大学等机构联合提出的Anomagic技术,让这一设想成为了现实。
在工业制造、医疗影像、消费品检测等领域,异常检测是保障产品质量和诊断准确性的关键,但稀缺的异常样本一直是制约相关技术发展的核心瓶颈。此前的异常生成方法,要么依赖少量标注缺陷样本,只能生成已知类型的异常,无法适配新的缺陷类别;要么生成的异常真实性不足、掩码精度低,且难以跨领域复用。Anomagic的出现,构建了“跨模态提示编码-掩码精准细化-大规模数据集支撑”的完整技术框架,实现了零样本、多领域的高质量异常生成,为通用异常生成基础模型的发展奠定了基础。
01 整体技术框架
Anomagic的核心目标是实现零样本跨领域异常生成,其整体技术框架可分为三大核心模块,形成“数据支撑-模型生成-效果优化”的闭环,具体如下:
-
基础数据层:构建大规模、多领域的“异常-掩码-描述”三元组数据集AnomVerse,为模型训练提供充足且规范的语义与视觉数据; -
核心生成层:基于潜扩散模型(LDM),结合LoRA轻量化微调,通过跨模态提示编码(CPE)融合文本与视觉语义,引导模型在指定区域生成符合提示的异常; -
效果优化层:引入对比异常掩码细化策略,实现生成异常与掩码的像素级对齐,提升生成数据对下游检测任务的实用性。
整个框架在训练阶段完成跨模态语义理解与生成能力的学习,在推理阶段可直接接收用户自定义的文本/视觉提示,无需领域微调即可在不同场景下完成零样本异常生成。
02 核心创新技术点
为攻克零样本异常生成的模态局限与数据瓶颈,Anomagic在三大核心模块上实现了关键技术突破:
2.1 跨模态提示编码(CPE):解锁多模态精准语义控制
Anomagic创新性地融合视觉和文本双重语义,解决了单一模态提示语义可控性不足的问题,实现对异常生成的精细化引导。
-
区域聚焦的视觉引导:预训练CLIP提取异常特征,结合区域聚焦注意力机制(通过掩码弱化正常区域权重),精确捕捉裂纹、污渍或肿瘤等形态细节。 -
细粒度文本语义编码:针对长描述,采用分层编码策略,突破CLIP 77-token限制,经均值池化保留完整语义。 -
跨模态特征融合:通过模态专属交叉注意力模块,实现视觉缺陷特征与文本语义特征的双向交互,生成统一的跨模态语义特征,作为扩散模型的生成条件,确保生成的异常既匹配视觉形态,又符合文本描述。
2.2 对比异常掩码细化:实现缺陷与掩码精准对齐
此前的异常生成方法常存在“异常与掩码不匹配”的问题(如缺陷超出掩码范围或未填满掩码),严重影响下游检测模型的训练效果。Anomagic引入对比掩码细化策略,通过计算输入正常图像与生成异常图像的像素级差异,结合预训练的MetaUAS模型,自动生成高精度缺陷掩码,实现异常区域与掩码的像素级对齐,大幅提升生成数据的实用性。
2.3 AnomVerse数据集:填补多领域大规模异常数据空白
为解决高质量异常数据匮乏的问题,研究团队构建了AnomVerse数据集,这是目前规模最大的多领域“异常-掩码-描述”三元组数据集。
其数据构建管线如下:先收集13个公开数据集的异常图像和掩码,再利用多模态大语言模型,结合缺陷区域最小边界框和结构化模板(“图像展示了[物体描述],在[位置]存在[缺陷类型],该缺陷具有[细节特征]”),自动生成精准的缺陷描述,确保数据的语义一致性。
AnomVerse包含12,987个三元组样本,覆盖工业、纺织、消费品、医疗、电子五大领域的131种缺陷类型,远超此前的MMAD数据集(仅8,366个样本),为零样本、跨领域异常生成模型的训练提供了充足且多样的数据支撑。
03 技术流程:提示引导的修复式生成
Anomagic基于潜扩散模型(LDM)实现异常生成,整体流程分为训练和推理两个阶段:
3.1 训练阶段
从AnomVerse中采样“异常-掩码-描述”三元组,通过跨模态提示编码生成统一语义特征;将异常掩码膨胀得到修复掩码,对参考异常图像进行掩码处理后输入模型;利用修复式扩散损失,仅微调模型的交叉注意力层,让模型学会在掩码区域生成符合跨模态提示的异常。
3.2 推理阶段
用户输入自定义文本/视觉提示后,模型先通过多模态大语言模型从AnomVerse中检索匹配提示,生成跨模态语义特征;随机采样粗糙掩码后,在目标正常图像的掩码区域生成异常,最后通过对比掩码细化模块得到高精度缺陷掩码,完成零样本异常生成。
04 实验效果:多领域零样本生成能力的双重突破
大量实验证明,Anomagic在异常生成质量、下游检测性能上均远超现有方法,且可在工业、医疗、日常生活等多领域实现零样本异常生成,展现出卓越的泛化能力。
4.1 异常生成质量领先
在VisA工业数据集测试中,Anomagic的Inception Score(IS,衡量生成真实性)均值达2.16,Intra-cluster LPIPS距离(IL,衡量生成多样性)均值为0.39,全面超越DRAEM、RealNet等零样本方法,甚至优于依赖真实缺陷样本的少样本方法AnoGen。
从定性效果看,Anomagic生成的异常视觉逼真,且能实现缺陷与掩码的精准对齐,而传统方法要么异常失真,要么掩码粗糙。
4.2 下游检测性能显著提升
将Anomagic生成的异常样本用于增强INP-Former++检测模型后,模型在VisA数据集上的图像级F1分数达96.77%、像素级PRO指标达95.92%、像素级F1分数达54.00%,均超过AnoGen等方法增强后的模型,证明了生成数据的高实用性。
4.3 多领域零样本生成能力突出
Anomagic无需针对特定领域微调,即可根据用户提示在工业、医疗、日常生活等场景生成高保真异常:
-
工业领域:可生成PCB板短路、药片破损、金属零件裂纹等缺陷,且缺陷与掩码精准匹配;
-
医疗领域:可生成脑部MRI肿瘤、视网膜OCT病灶等异常,且保留医学影像的解剖学保真度;
-
日常生活场景:可生成水果磕碰、手机屏幕划痕等日常瑕疵,满足消费品检测需求。
05 结论
Anomagic构建了跨模态提示驱动的零样本异常生成基础框架,通过跨模态提示编码、对比掩码细化和AnomVerse数据集三大核心创新,打破了传统异常生成的模态局限与领域壁垒。该模型无需针对特定领域微调训练,即可根据用户自定义的文本或视觉提示,在工业、医疗、日常生活等多领域实现高质量、高精准度的异常生成,是一个可适配多样化用户提示的通用异常生成基础框架。想要快速搭建多领域缺陷生成系统,不妨试试Anomagic的开源代码,或许能为你的检测方案带来颠覆性提升!
最后,感谢阅读以及欢迎使用我们的代码
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

