极市导读
FUSE框架首创自监督跨模态迁移,把海量图像知识“搬”给事件相机,再借频率解耦融合让动静态信息各安其位,一举解决数据稀缺与频率冲突两大痛点。实验显示,无论极暗还是高速场景,深度估计误差大幅降低,实现全天候鲁棒感知。>>加入极市CV技术交流群,走在计算机视觉的最前沿
论文网址:https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2503.19739
代码仓库:https://github.com/sunpihai-up/FUSE
01 概要
单目深度估计(MDE)是场景理解的关键技术。传统相机(Image)能很好地捕捉静态场景的结构信息,但在剧烈运动或光照不佳时,其性能会严重下降 。事件相机(Event Camera)则相反,它能以微秒级的分辨率捕捉像素亮度变化,对高速动态信息极为敏感,却无法感知静态场景 。因此,融合这两种互补的模态是实现全天候、全场景鲁棒深度感知的理想途径 。
然而,现有的融合方法普遍面临两大瓶颈:
-
数据稀缺:同时包含图像、事件和深度真值标注的数据集非常有限,导致模型泛化能力不足 。 -
频率冲突:图像的低频结构信息与事件的高频动态信息在特征融合时,若处理不当会产生“破坏性干扰”,即高频事件特征破坏图像的结构连续性,或低频图像特征抑制关键的运动线索。
为了应对这些挑战,我们提出了 FUSE (Frequency-decoupled Unified Self-supervised Encoder) 框架。其核心思想是:
-
解决数据稀缺:我们不再依赖稀有的三模态标注数据,而是巧妙地从在海量的图像数据上训练的深度估计基础模型(如 Depth Anything V2 )中进行“知识迁移”。通过一种新颖的参数高效自监督迁移(Parameter-efficient Self-supervised Transfer, PST)策略,我们将预训练好的知识高效地迁移到事件编码器中,从而打通了图像与事件的表征隔阂。 -
解决频率冲突:我们设计了频率解耦融合模块(Frequency-Decoupled Fusion Module, FreDFuse)。该模块先将图像和事件特征分解为各自的高频和低频部分,然后进行引导式融合。具体来说,在处理高频信息时由事件特征主导,处理低频信息时由图像特征主导,从而实现真正的优势互补 。
本工作的贡献总结如下:
-
我们提出了FUSE,首个通过自监督方式从图像于域深度估计基础模型迁移知识,实现泛化的图像-事件联合深度估计框架。 -
我们设计了参数高效的自监督迁移策略(PST),通过两阶段训练,用极少的训练参数高效地完成了跨模态知识迁移。 -
我们提出了频率解耦融合模块(FreDFuse),通过分离并引导式融合高、低频特征,有效解决了多模态间的频率冲突问题,显著提升了融合效果 。
02 方法介绍
FUSE框架主要由图像编码器、事件编码器、频率解耦融合模块(FreDFuse)和深度解码器四个部分组成 。其创新的训练范式分为两个核心部分:
2.1 参数高效的自监督迁移 (PST)
PST通过一个两阶段的级联过程,将知识从预训练的图像域深度估计基础模型迁移至图像-事件联合模型。在整个PST过程,我们使用不带深度标签的图像-事件对,图像域深度估计基础模型接受干净图像,输出估计结果作为伪标签提供监督信号。
阶段一:参数高效的特征对齐:此阶段的目标是让事件编码器“学会”图像编码器的几何知识。我们使用图像编码器的权重初始化事件编码器,并采用 LoRA(Low-Rank Adaptation)技术,仅微调极少数参数(LoRA矩阵和嵌入层)。通过在干净的事件数据上进行训练,使其输出的特征与图像特征在潜在空间中对齐。
阶段二:鲁棒的特征融合训练:此阶段我们冻结编码器和解码器,专门训练FreDFuse模块。为了提升模型的鲁棒性,我们故意使用经过随机退化(如过曝、遮挡、高斯模糊等 )的图像-事件对进行训练,迫使融合模块学会在某种模态受损失,自适应地整合两种模态特征实现互补。
2.2 频率解耦融合模块 (FreDFuse)
FreDFuse是实现高效融合的关键。它首先利用高斯-拉普拉斯金字塔,将输入的图像特征和事件特征分别解耦为低频分量(包含场景的宏观结构)和高频分量(包含边缘、动态细节)。随后,融合过程在两个独立的分支中进行 :
低频融合:以图像的低频特征为查询(Query),事件的低频特征为键(Key)和值(Value),进行交叉注意力计算。这使得融合结果以图像提供的稳定结构信息为主导 。
高频融合:以事件的高频特征为查询,图像的高频特征为键和值。这使得融合结果以事件提供的高频动态细节为主导 。
通过这种方式,FreDFuse确保了两种模态在各自擅长的频率域发挥主导作用,最终将融合后的高低频特征相加,得到既包含稳定结构又富含动态细节的强大表征 。
03 实验
3.1 实验设置
我们在合成数据集 EventScape 上执行PST训练 ,并在两个广泛使用的公开基准数据集 MVSEC(真实数据集)和 DENSE(合成数据集)上进行评估 。
3.2 定性与定量实验
实验结果表明,FUSE在各项指标上均达到了SOTA水平。在真实的 MVSEC 数据集上,相比之前的最佳方法,FUSE在白天的Abs.Rel指标上提升了14% ,在夜晚场景也同样表现出色。
在合成的DENSE数据集上,FUSE的Abs.Rel和RMSELog指标分别提升了24.9% 和 33.4% 。
定性结果进一步展示了FUSE的优势。无论是在白天还是夜晚,FUSE生成的深度图都比其他方法更精细、更稳定,能够更好地保留结构细节。特别是在输入图像因光照或遮挡而严重退化时,FUSE依然能借助事件信息,恢复出可靠的深度
3.3 消融实验
我们使用Vit-Small编码器对FUSE的两个核心组件(PST和FreDFuse)进行了消融研究,以验证它们的有效性。
-
FreDFuse的有效性:与使用标准交叉注意力融合的Baseline-1相比,采用FreDFuse的Baseline-2性能有显著提升。例如,在MVSEC的白天场景中,Abs.Rel指标提升了8% 。这证明了频率解耦对于缓解模态冲突至关重要。 -
PST的有效性:与从零开始的训练测策略Baseline-2相比,采用PST的FUSE在训练参数减少了82.2%的同时,平均性能提升了19.7% 。这充分说明了通过知识迁移来解决数据稀缺问题的巨大潜力 。与采用一阶段训练策略的Baseline-3,FUSE在大多数指标上也表现出了性能提升。这凸显了使用退化图像-事件对进行两阶段训练对于提升模型泛化能力和鲁棒性的重要性。
04 总结
本文介绍了FUSE,一个创新的图像-事件联合深度估计框架。它通过参数高效的自监督知识迁移(PST)和频率解耦融合(FreDFuse)策略,成功地解决了跨模态研究中长期存在的数据稀缺和频率冲突两大难题。在多个基准数据集上的实验证明,FUSE不仅取得了当前最优的性能,而且在极端恶劣条件下展现出强大的鲁棒性和泛化能力。

公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

