RGB+热成像+深度+偏振？StitchFusion：我全都要！一种即插即用的多模态“缝合”框架



RGB+热成像+深度+偏振？StitchFusion：我全都要！一种即插即用的多模态“缝合”框架

极市平台

2025-12-08

↑ 点击蓝字关注极市平台

作者丨粉丝投稿

编辑丨极市平台

极市导读

多模态语义分割新作 StitchFusion——一个像“织布”一样把 RGB、深度、热成像、偏振等任意视觉模态高效“缝合”在一起的轻量级框架。它无需重新训练骨干网络，却能显著提升多模态分割表现，在复杂场景和多种数据集上全面刷新 SOTA。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

StitchFusion：打破模态壁垒，像织布一样“缝合”万物视觉

录用会议： ACM Multimedia 2025 (ACM MM '25 Oral)

关键词： 多模态语义分割、模态融合、参数高效微调 (PEFT)、即插即用

论文标题：StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation

arXiv链接：https://arxiv.org/abs/2408.01343

代码开源：https://github.com/LiBingyu01/StitchFusion

在自动驾驶、复杂场景理解和全天候监控中，单一的 RGB 图像往往显得力不从心。为了让 AI 看得更清、更准，我们引入了深度 (Depth)、热成像 (Thermal)、偏振 (Polarization) 甚至事件相机 (Event) 等多种“感官”。

然而，现有的多模态语义分割方法往往面临两大痛点：

架构臃肿：为了融合不同模态，往往需要引入复杂的特征融合模块（FFMs），导致参数量激增。

模态偏科：针对特定模态（如 RGB-D）设计的网络难以直接迁移到其他模态组合（如 RGB-T 或 RGB-P）3。

今天为大家介绍的这项工作 StitchFusion，提出了一种返璞归真的“缝合（Stitch）”理念：不重新训练庞大的骨干网络，而是通过轻量级的“模态适配器”，在编码阶段就将不同模态的信息紧密编织在一起。

核心理念：从“后期拼接”到“早期编织”

传统的融合方法通常像是在两条平行线（双流网络）的末端打个结，或者在中间架几座沉重的桥。而 StitchFusion 的灵感来源于纺织——将不同的模态视为不同的线，通过精巧的针法将其编织成一块完整的布。

1. 冻结骨干，轻量缝合

StitchFusion 直接利用大规模预训练模型（如 ViT, Swin Transformer, ConvNeXt）作为编码器，并将其冻结 (Frozen) 。这意味着我们不需要从头训练庞大的骨干网络，极大地节省了训练成本。

2. Modality Adapter (MoA)：神奇的“缝合针”

为了让冻结的编码器能够处理和交互多模态信息，作者设计了一个极其精简的模块——多向模态适配器 (Modality Adapter, MoA) 。

工作机制：MoA 类似于即插即用的 Adapter，它被嵌入在编码器的每一层（Block）之间。它不仅负责模态内的特征提炼，更重要的是实现了跨模态的信息传递（Information Transfer）。

低秩适应：MoA 采用了类似 LoRA 的低秩设计（Down-Process-Up），包含降维、非线性处理和升维三个步骤 8。

参数极低：实验表明，引入 MoA 仅增加了约 0.47% ~ 0.89% 的额外参数，却能带来显著的性能提升 9。

灵活多变的架构设计

StitchFusion 的强大之处在于其不挑食。无论是 RGB-D（深度）、RGB-T（热红外），还是复杂的 RGB-A-D-N（包含偏振角、深度、近红外等），它都能轻松应对。

作者探讨了三种不同密度的连接策略：

Shared MoA (sMoA) ：所有模态对共享同一个适配器，参数最少。

Independent MoA (obMoA) ：每一对模态拥有独立的适配器，精度更高（默认设置）。

Parallel MoA (tuMoA) ：支持非对称的信息交互。

这种设计使得 StitchFusion 能够像乐高积木一样，适应任意数量和类型的视觉模态输入。

实验结果：全面屠榜 SOTA

StitchFusion 在 7 个主流数据集 以及作者自制的 1 个水下多模态数据集 (MMUS) 上进行了广泛测试，均取得了令人印象深刻的成绩。

1. 性能霸榜

DeLiVER 数据集 (复杂环境) ：在使用 Swin-Tiny-1k 骨干网时，StitchFusion 达到了 70.3% mIoU，超越了所有对比方法 13。

FMB & PST900 (RGB-热成像) ：在 FMB 数据集上达到 68.7% mIoU，在 PST900 上达到 89.4% mIoU，树立了新标杆 14。

MCubeS (多模态材质) ：在使用 Swin-Large 骨干时，达到了 55.9% mIoU 的最佳性能。

2. 参数效率 (Parameter Efficiency)

与当前主流的 CMNeXt 和 MMSFormer 相比，StitchFusion 在保持更高精度的同时，参数量显著更低。

例如在 DeLiVER 数据集上，StitchFusion (MiT-B2) 仅用 26.5M 参数就击败了拥有 58.7M 参数的 CMNeXt。

3. 兼容性 (Complementary Nature)

更有趣的是，StitchFusion 并不是要“干掉”现有的特征融合模块 (FFM)。实验证明，StitchFusion + FFM 可以强强联手，进一步提升性能 17。这意味着它不仅是一个模型，更是一种通用的增强框架。

特别彩蛋：MMUS 水下多模态数据集

为了验证模型在特殊极端环境下的能力，作者还制作并发布了一个水下多模态语义分割数据集 (MMUS) 。

利用 Depth Anything v2 生成了高质量的 RGB-Depth 数据对。

实验显示，引入深度信息后，StitchFusion 在水下场景（如识别鱼类、潜水员、礁石）的 mIoU 提升了 2% ~ 6% 。

总结

StitchFusion 重新思考了多模态融合的设计需求：

✅ 高效：基于预训练冻结骨干，参数增加极少。

✅ 无偏：没有引入特定的模态偏置。

✅ 通用：能够“编织”任意视觉模态的组合。

它就像一位高超的裁缝，用最少的针脚，将不同材质的面料（模态）缝合成一件天衣无缝的华服。对于资源受限或需要快速适配新模态的实际应用场景，StitchFusion 提供了一个极具价值的解决方案。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

内容 8155

粉丝 0

极市平台为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

总阅读919

粉丝0

内容8.2k