大数跨境
0
0

RGB+热成像+深度+偏振?StitchFusion:我全都要!一种即插即用的多模态“缝合”框架

RGB+热成像+深度+偏振?StitchFusion:我全都要!一种即插即用的多模态“缝合”框架 极市平台
2025-12-08
2
↑ 点击蓝字 关注极市平台
作者丨粉丝投稿
编辑丨极市平台

极市导读

 

多模态语义分割新作 StitchFusion——一个像“织布”一样把 RGB、深度、热成像、偏振等任意视觉模态高效“缝合”在一起的轻量级框架。它无需重新训练骨干网络,却能显著提升多模态分割表现,在复杂场景和多种数据集上全面刷新 SOTA。 >>加入极市CV技术交流群,走在计算机视觉的最前沿


StitchFusion:打破模态壁垒,像织布一样“缝合”万物视觉

录用会议: ACM Multimedia 2025 (ACM MM '25 Oral)

关键词: 多模态语义分割、模态融合、参数高效微调 (PEFT)、即插即用

论文标题:StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation

arXiv链接https://arxiv.org/abs/2408.01343

代码开源https://github.com/LiBingyu01/StitchFusion

在自动驾驶、复杂场景理解和全天候监控中,单一的 RGB 图像往往显得力不从心。为了让 AI 看得更清、更准,我们引入了深度 (Depth)、热成像 (Thermal)、偏振 (Polarization) 甚至事件相机 (Event) 等多种“感官”。

然而,现有的多模态语义分割方法往往面临两大痛点

架构臃肿:为了融合不同模态,往往需要引入复杂的特征融合模块(FFMs),导致参数量激增。

模态偏科:针对特定模态(如 RGB-D)设计的网络难以直接迁移到其他模态组合(如 RGB-T 或 RGB-P)3。

今天为大家介绍的这项工作 StitchFusion,提出了一种返璞归真的“缝合(Stitch)”理念:不重新训练庞大的骨干网络,而是通过轻量级的“模态适配器”,在编码阶段就将不同模态的信息紧密编织在一起。

核心理念:从“后期拼接”到“早期编织”

传统的融合方法通常像是在两条平行线(双流网络)的末端打个结,或者在中间架几座沉重的桥。而 StitchFusion 的灵感来源于纺织——将不同的模态视为不同的线,通过精巧的针法将其编织成一块完整的布。

1. 冻结骨干,轻量缝合

StitchFusion 直接利用大规模预训练模型(如 ViT, Swin Transformer, ConvNeXt)作为编码器,并将其冻结 (Frozen) 。这意味着我们不需要从头训练庞大的骨干网络,极大地节省了训练成本。

2. Modality Adapter (MoA):神奇的“缝合针”

为了让冻结的编码器能够处理和交互多模态信息,作者设计了一个极其精简的模块——多向模态适配器 (Modality Adapter, MoA) 。

工作机制:MoA 类似于即插即用的 Adapter,它被嵌入在编码器的每一层(Block)之间。它不仅负责模态内的特征提炼,更重要的是实现了跨模态的信息传递(Information Transfer)

低秩适应:MoA 采用了类似 LoRA 的低秩设计(Down-Process-Up),包含降维、非线性处理和升维三个步骤 8。

参数极低:实验表明,引入 MoA 仅增加了约 0.47% ~ 0.89% 的额外参数,却能带来显著的性能提升 9。

灵活多变的架构设计

StitchFusion 的强大之处在于其不挑食。无论是 RGB-D(深度)、RGB-T(热红外),还是复杂的 RGB-A-D-N(包含偏振角、深度、近红外等),它都能轻松应对。

作者探讨了三种不同密度的连接策略:

Shared MoA (sMoA) :所有模态对共享同一个适配器,参数最少。

Independent MoA (obMoA) :每一对模态拥有独立的适配器,精度更高(默认设置)。

Parallel MoA (tuMoA) :支持非对称的信息交互。

这种设计使得 StitchFusion 能够像乐高积木一样,适应任意数量和类型的视觉模态输入。

实验结果:全面屠榜 SOTA

StitchFusion 在 7 个主流数据集 以及作者自制的 1 个水下多模态数据集 (MMUS) 上进行了广泛测试,均取得了令人印象深刻的成绩。

1. 性能霸榜

DeLiVER 数据集 (复杂环境) :在使用 Swin-Tiny-1k 骨干网时,StitchFusion 达到了 70.3% mIoU,超越了所有对比方法 13。

FMB & PST900 (RGB-热成像) :在 FMB 数据集上达到 68.7% mIoU,在 PST900 上达到 89.4% mIoU,树立了新标杆 14。

MCubeS (多模态材质) :在使用 Swin-Large 骨干时,达到了 55.9% mIoU 的最佳性能。

2. 参数效率 (Parameter Efficiency)

与当前主流的 CMNeXt 和 MMSFormer 相比,StitchFusion 在保持更高精度的同时,参数量显著更低。

例如在 DeLiVER 数据集上,StitchFusion (MiT-B2) 仅用 26.5M 参数就击败了拥有 58.7M 参数的 CMNeXt。

3. 兼容性 (Complementary Nature)

更有趣的是,StitchFusion 并不是要“干掉”现有的特征融合模块 (FFM)。实验证明,StitchFusion + FFM 可以强强联手,进一步提升性能 17。这意味着它不仅是一个模型,更是一种通用的增强框架。

特别彩蛋:MMUS 水下多模态数据集

为了验证模型在特殊极端环境下的能力,作者还制作并发布了一个水下多模态语义分割数据集 (MMUS) 。

利用 Depth Anything v2 生成了高质量的 RGB-Depth 数据对。

实验显示,引入深度信息后,StitchFusion 在水下场景(如识别鱼类、潜水员、礁石)的 mIoU 提升了 2% ~ 6% 。

总结

StitchFusion 重新思考了多模态融合的设计需求:

✅ 高效:基于预训练冻结骨干,参数增加极少。

✅ 无偏:没有引入特定的模态偏置。

✅ 通用:能够“编织”任意视觉模态的组合。

它就像一位高超的裁缝,用最少的针脚,将不同材质的面料(模态)缝合成一件天衣无缝的华服。对于资源受限或需要快速适配新模态的实际应用场景,StitchFusion 提供了一个极具价值的解决方案。



公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k