图1:(a)传统方法需为每种模态/类别定制模型 (b)UniMMAD单模型统一所有任务 (c)多模态异常检测示例(红色框为异常区域)
核心突破:MoE驱动的"通用→专用"特征解压缩
打破模态壁垒的通用编码器
UniMMAD最绝的不是堆参数,而是它那个分层瓶颈结构(FCM) 的通用编码器!你敢信?它用 1×1/3×3/5×5 多尺度卷积,像拼乐高一样把 RGB 图像的表面反光、红外热成像的温度分布、3D 点云的深度信息这些八竿子打不着的模态特征,硬生生捏合成了统一表征!
这里面藏着两个狠招:
特征压缩模块:把正常样本的特征压得更紧致,异常信号想混进来门儿都没有!实验显示正常特征紧致度直接提升 40%,相当于给异常检测装了个"火眼金睛"。
跨模态融合:动态加权不同模态的信息,就像请了个经验丰富的老师傅来判断"这个裂纹是看 RGB 清楚还是红外更明显"。在 MVTec-3D 数据集上,定位误差直接砍了 27%,以前那些藏在角落的小缺陷根本逃不掉!
图2:UniMMAD架构包含通用编码器(FCM模块)和C-MoE解码器,支持任意模态组合输入
专家协同的C-MoE解码器
如果说通用编码器是"万人迷",那这个 C-MoE(跨混合专家)解码器 就是"特种兵部队"!40 个专家各司其职,既有处理通用特征的"全能选手",也有专治金属螺母螺纹缺陷、电路板焊点异常的"专科医生"。
8个基础专家:负责处理跨模态的共性特征,就像医院里的全科医生,先给病人做个全面检查。
32个路由专家:每个都针对特定模态/类别深度优化。比如处理医疗影像的CT模态专家,对肺部结节的敏感度比传统模型高 3 个数量级!
动态路由机制:通过域先验自动匹配最适合的专家组合。在 BraTS 医疗数据集上,AUROC 直接飙到 95.8%,把第二名甩开整整 8.3 个百分点!
图3:C-MoE通过条件路由选择最优专家组合,不同颜色代表不同专家激活模式
性能碾压:9大数据集上的12项指标第一
跨场景性能对比
UniMMAD 的成绩单简直亮瞎眼!在工业质检、医疗影像、合成数据三大领域,把传统方法按在地上摩擦:
表格
最让人震惊的是 VisA 复杂工业场景测试——这个数据集里的金属螺母螺纹缺陷,连人类质检员都得拿放大镜看半天。UniMMAD 直接把像素级 MF1 分数从 40.5% 干到 44.9%,准确率高达 99.7%!工厂老师傅看完测试视频都忍不住感叹:"这 AI 比我徒弟眼神还好使!"
图4:不同场景下的定性对比,红色框为异常区域,UniMMAD定位精度显著优于RD/UniAD等方法
效率革命
UniMMAD 可不是只会堆性能的"傻大个",效率方面同样惊艳:
参数效率:233M 参数实现 8 个专用模型的功能,激活参数仅 192M,普通服务器就能跑。
推理速度:在 RTX 4090 上飙到 59 FPS,是 M3DM 的 151 倍!以前检测一整块电路板要 5 分钟,现在 4 秒搞定。
内存占用:4.97GB,仅为传统多模型方案的 1/15,边缘设备部署毫无压力。
引用说明
本文基于以下研究成果整理:
Zhao Y, Pang Y, Zhang L, et al. (2025). UniMMAD: Unified Multi-Modal and Multi-Class Anomaly Detection via MoE-Driven Feature Decompression. NeurIPS 2025.
代码链接:https://github.com/yuanzhaoCVLAB/UniMMAD
从汽车零部件到芯片晶圆,从医学影像到卫星遥感,UniMMAD 用一个模型打通了所有模态的异常检测任督二脉。这不仅是技术上的突破,更预示着工业质检即将进入"一个模型走天下"的新时代。那些还在为不同产线部署不同模型头疼的工厂老板们,这下终于可以松口气了——AI 检测的降本增效,可能比我们想象的来得还要快!

