极市导读
多模态语义分割新作 StitchFusion——一个像“织布”一样把 RGB、深度、热成像、偏振等任意视觉模态高效“缝合”在一起的轻量级框架。它无需重新训练骨干网络,却能显著提升多模态分割表现,在复杂场景和多种数据集上全面刷新 SOTA。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
StitchFusion:打破模态壁垒,像织布一样“缝合”万物视觉
录用会议: ACM Multimedia 2025 (ACM MM '25 Oral)
关键词: 多模态语义分割、模态融合、参数高效微调 (PEFT)、即插即用
论文标题:StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation
arXiv链接:https://arxiv.org/abs/2408.01343
代码开源:https://github.com/LiBingyu01/StitchFusion
在自动驾驶、复杂场景理解和全天候监控中,单一的 RGB 图像往往显得力不从心。为了让 AI 看得更清、更准,我们引入了深度 (Depth)、热成像 (Thermal)、偏振 (Polarization) 甚至事件相机 (Event) 等多种“感官”。
然而,现有的多模态语义分割方法往往面临两大痛点:
架构臃肿:为了融合不同模态,往往需要引入复杂的特征融合模块(FFMs),导致参数量激增。
模态偏科:针对特定模态(如 RGB-D)设计的网络难以直接迁移到其他模态组合(如 RGB-T 或 RGB-P)3。
今天为大家介绍的这项工作 StitchFusion,提出了一种返璞归真的“缝合(Stitch)”理念:不重新训练庞大的骨干网络,而是通过轻量级的“模态适配器”,在编码阶段就将不同模态的信息紧密编织在一起。
核心理念:从“后期拼接”到“早期编织”
传统的融合方法通常像是在两条平行线(双流网络)的末端打个结,或者在中间架几座沉重的桥。而 StitchFusion 的灵感来源于纺织——将不同的模态视为不同的线,通过精巧的针法将其编织成一块完整的布。
1. 冻结骨干,轻量缝合
StitchFusion 直接利用大规模预训练模型(如 ViT, Swin Transformer, ConvNeXt)作为编码器,并将其冻结 (Frozen) 。这意味着我们不需要从头训练庞大的骨干网络,极大地节省了训练成本。
2. Modality Adapter (MoA):神奇的“缝合针”
为了让冻结的编码器能够处理和交互多模态信息,作者设计了一个极其精简的模块——多向模态适配器 (Modality Adapter, MoA) 。
工作机制:MoA 类似于即插即用的 Adapter,它被嵌入在编码器的每一层(Block)之间。它不仅负责模态内的特征提炼,更重要的是实现了跨模态的信息传递(Information Transfer)。
低秩适应:MoA 采用了类似 LoRA 的低秩设计(Down-Process-Up),包含降维、非线性处理和升维三个步骤 8。
参数极低:实验表明,引入 MoA 仅增加了约 0.47% ~ 0.89% 的额外参数,却能带来显著的性能提升 9。
灵活多变的架构设计
StitchFusion 的强大之处在于其不挑食。无论是 RGB-D(深度)、RGB-T(热红外),还是复杂的 RGB-A-D-N(包含偏振角、深度、近红外等),它都能轻松应对。
作者探讨了三种不同密度的连接策略:
Shared MoA (sMoA) :所有模态对共享同一个适配器,参数最少。
Independent MoA (obMoA) :每一对模态拥有独立的适配器,精度更高(默认设置)。
Parallel MoA (tuMoA) :支持非对称的信息交互。
这种设计使得 StitchFusion 能够像乐高积木一样,适应任意数量和类型的视觉模态输入。
实验结果:全面屠榜 SOTA
StitchFusion 在 7 个主流数据集 以及作者自制的 1 个水下多模态数据集 (MMUS) 上进行了广泛测试,均取得了令人印象深刻的成绩。
1. 性能霸榜
DeLiVER 数据集 (复杂环境) :在使用 Swin-Tiny-1k 骨干网时,StitchFusion 达到了 70.3% mIoU,超越了所有对比方法 13。
FMB & PST900 (RGB-热成像) :在 FMB 数据集上达到 68.7% mIoU,在 PST900 上达到 89.4% mIoU,树立了新标杆 14。
MCubeS (多模态材质) :在使用 Swin-Large 骨干时,达到了 55.9% mIoU 的最佳性能。
2. 参数效率 (Parameter Efficiency)
与当前主流的 CMNeXt 和 MMSFormer 相比,StitchFusion 在保持更高精度的同时,参数量显著更低。
例如在 DeLiVER 数据集上,StitchFusion (MiT-B2) 仅用 26.5M 参数就击败了拥有 58.7M 参数的 CMNeXt。
3. 兼容性 (Complementary Nature)
更有趣的是,StitchFusion 并不是要“干掉”现有的特征融合模块 (FFM)。实验证明,StitchFusion + FFM 可以强强联手,进一步提升性能 17。这意味着它不仅是一个模型,更是一种通用的增强框架。
特别彩蛋:MMUS 水下多模态数据集
为了验证模型在特殊极端环境下的能力,作者还制作并发布了一个水下多模态语义分割数据集 (MMUS) 。
利用 Depth Anything v2 生成了高质量的 RGB-Depth 数据对。
实验显示,引入深度信息后,StitchFusion 在水下场景(如识别鱼类、潜水员、礁石)的 mIoU 提升了 2% ~ 6% 。
总结
StitchFusion 重新思考了多模态融合的设计需求:
✅ 高效:基于预训练冻结骨干,参数增加极少。
✅ 无偏:没有引入特定的模态偏置。
✅ 通用:能够“编织”任意视觉模态的组合。
它就像一位高超的裁缝,用最少的针脚,将不同材质的面料(模态)缝合成一件天衣无缝的华服。对于资源受限或需要快速适配新模态的实际应用场景,StitchFusion 提供了一个极具价值的解决方案。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

