大数跨境
0
0

ICCV 2025 | 多模态图融合新框架:GIGA-ToF让ToF深度去噪兼具清晰度与稳定性

ICCV 2025 | 多模态图融合新框架:GIGA-ToF让ToF深度去噪兼具清晰度与稳定性 极市平台
2025-12-10
2
↑ 点击蓝字 关注极市平台
作者丨小白
来源丨小白学视觉
编辑丨极市平台

极市导读

 

GIGA-ToF用“运动不变图结构”把跨帧相关性固定下来,配合图诱导几何注意力与展开图拉普拉斯正则化,一举解决ToF深度去噪的时间抖动与空间模糊,在合成DVToF和真实Kinect v2上都取得最低MAE且细节最锐利。>>加入极市CV技术交流群,走在计算机视觉的最前沿

飞行时间(ToF)传感器凭借实时响应快、功耗低的优势,在机器人、3D重建、增强现实等众多领域广泛应用。然而,其捕获的深度图像易受噪声干扰,尤其在远距离、低反射率、光滑区域,严重影响下游应用。以往单帧处理方法忽略跨帧相关性,导致时间不一致;多帧处理方法未考虑帧间像素深度变化,造成空间模糊。为此,《Consistent Time-of-Flight Depth Denoising via Graph-Informed Geometric Attention》提出GIGA-ToF网络,以创新图融合与几何注意力机制,实现更优去噪效果。

论文信息

题目:Consistent Time-of-Flight Depth Denoising via Graph-Informed Geometric Attention 通过图信息几何注意力实现一致的飞行时间深度去噪

作者:Weida Wang、Changyong He、Jin Zeng、Di Qiu

源码:https://github.com/davidweidawang/GIGA-ToF

01 现有方法的瓶颈

早期基于统计模型的滤波技术,如双线性滤波、非局部均值滤波,去噪效果有限。随着深度学习发展,深度神经网络(DNN)方法虽表现出色,但单帧处理的DNN方案因信息有限,结果噪声明显,时间抖动问题突出,如GLRUN。

多帧处理方法利用时间相关性,却因深度值随相机运动变化,直接融合深度特征易致空间模糊,细节丢失,如MTDNet。

02 创新突破:运动不变图结构融合

2.1 图结构的时间自相似性

不同帧深度值虽有偏移,但反映相邻像素相关性的图结构具有时间自相似性。例如茶壶,其在不同帧的深度值可能变化,但代表茶壶形状的像素间相关性图结构相似。这一特性为跨帧信息融合提供新思路。

2.2 跨帧图融合策略

  1. 帧内图建模:为每一帧的ToF原始数据构建8连接无向图,用邻接矩阵表示像素间成对相关性。
帧内图与跨帧图融合示意
  1. 帧间图与映射图构建:构建帧间图连接当前帧与前一帧邻域像素,再将其与前一帧帧内图组合得到映射图,实现前一帧图结构向当前帧的映射。
  2. 跨帧融合图生成:融合映射图与当前帧帧内图,得到融合图,既利用前一帧信息,又保留当前帧特征。

03 GIGA-ToF网络架构解析

GIGA-ToF网络由特征提取网络、图诱导几何注意力(GIGA)模块和展开的图拉普拉斯正则化(Unrolled GLR)模块构成,总体结构如下:

GIGA-ToF网络架构

3.1 特征提取网络

采用带跳跃连接的编码器-解码器结构,提取多尺度特征,为后续模块提供基础特征支持,尺度包括1/8、1/4、1/2等。

3.2 GIGA模块

基于多尺度特征计算帧内图、帧间图,进而得到映射图和融合图。通过注意力机制计算帧间图权重,确保图映射准确性,有效融合跨帧图结构信息。

3.3 展开的GLR模块

将基于图的优化问题解展开为迭代卷积滤波,从图信息几何注意力中学习滤波器权重,实现去噪,兼顾时间一致性与空间清晰度。

04 实验结果:性能卓越且泛化性强

4.1 合成数据集上的表现

在合成的DVToF数据集上,GIGA-ToF表现优异。与多种竞争方案相比,正常噪声设置下,MAE(每帧平均绝对误差)至少降低37.9%,TEPE(时间端点误差)至少降低13.2%,在准确性和时间一致性上均领先。

不同方法在DVToF数据集上的定量比较
不同方法在DVToF数据集上的定量比较

视觉效果上,GIGA-ToF去噪后的结果平滑且保留精细细节。

多帧方法定性比较
多帧方法定性比较

时间一致性方面,GIGA-ToF的x-t切片更清晰,抖动少。

多帧方法x-t切片对比
多帧方法x-t切片对比

4.2 真实数据上的泛化能力

在真实的Kinect v2数据集上,GIGA-ToF泛化能力强。相比MTDNet在真实数据上的不佳表现和WMF的模糊结果,以及GLRUN,GIGA-ToF在保留细节的同时,去噪效果更优。

真实Kinect v2数据定性比较
真实Kinect v2数据定性比较

4.3 消融实验验证各组件有效性

通过消融实验发现,展开的GLR模块有助于保留细节,基于图的融合优于深度特征融合,帧间注意力能减少噪声,各组件对网络性能提升均有重要作用。

消融实验定量结果
消融实验定量结果

05 总结与展望

GIGA-ToF网络通过融合运动不变图结构,构建基于图融合的MAP问题,结合算法展开设计网络,有效提升ToF深度去噪的时间一致性和空间清晰度,在合成与真实数据集上均表现出色。未来可探索扩展到更多帧的处理,通过循环网络设计适应不同输入序列长度,进一步提升性能。该研究为ToF深度去噪领域提供新方向,推动相关应用发展。


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k