极市导读
GIGA-ToF用“运动不变图结构”把跨帧相关性固定下来,配合图诱导几何注意力与展开图拉普拉斯正则化,一举解决ToF深度去噪的时间抖动与空间模糊,在合成DVToF和真实Kinect v2上都取得最低MAE且细节最锐利。>>加入极市CV技术交流群,走在计算机视觉的最前沿
飞行时间(ToF)传感器凭借实时响应快、功耗低的优势,在机器人、3D重建、增强现实等众多领域广泛应用。然而,其捕获的深度图像易受噪声干扰,尤其在远距离、低反射率、光滑区域,严重影响下游应用。以往单帧处理方法忽略跨帧相关性,导致时间不一致;多帧处理方法未考虑帧间像素深度变化,造成空间模糊。为此,《Consistent Time-of-Flight Depth Denoising via Graph-Informed Geometric Attention》提出GIGA-ToF网络,以创新图融合与几何注意力机制,实现更优去噪效果。
论文信息
题目:Consistent Time-of-Flight Depth Denoising via Graph-Informed Geometric Attention 通过图信息几何注意力实现一致的飞行时间深度去噪
作者:Weida Wang、Changyong He、Jin Zeng、Di Qiu
源码:https://github.com/davidweidawang/GIGA-ToF
01 现有方法的瓶颈
早期基于统计模型的滤波技术,如双线性滤波、非局部均值滤波,去噪效果有限。随着深度学习发展,深度神经网络(DNN)方法虽表现出色,但单帧处理的DNN方案因信息有限,结果噪声明显,时间抖动问题突出,如GLRUN。
多帧处理方法利用时间相关性,却因深度值随相机运动变化,直接融合深度特征易致空间模糊,细节丢失,如MTDNet。
02 创新突破:运动不变图结构融合
2.1 图结构的时间自相似性
不同帧深度值虽有偏移,但反映相邻像素相关性的图结构具有时间自相似性。例如茶壶,其在不同帧的深度值可能变化,但代表茶壶形状的像素间相关性图结构相似。这一特性为跨帧信息融合提供新思路。
2.2 跨帧图融合策略
-
帧内图建模:为每一帧的ToF原始数据构建8连接无向图,用邻接矩阵表示像素间成对相关性。
-
帧间图与映射图构建:构建帧间图连接当前帧与前一帧邻域像素,再将其与前一帧帧内图组合得到映射图,实现前一帧图结构向当前帧的映射。 -
跨帧融合图生成:融合映射图与当前帧帧内图,得到融合图,既利用前一帧信息,又保留当前帧特征。
03 GIGA-ToF网络架构解析
GIGA-ToF网络由特征提取网络、图诱导几何注意力(GIGA)模块和展开的图拉普拉斯正则化(Unrolled GLR)模块构成,总体结构如下:
3.1 特征提取网络
采用带跳跃连接的编码器-解码器结构,提取多尺度特征,为后续模块提供基础特征支持,尺度包括1/8、1/4、1/2等。
3.2 GIGA模块
基于多尺度特征计算帧内图、帧间图,进而得到映射图和融合图。通过注意力机制计算帧间图权重,确保图映射准确性,有效融合跨帧图结构信息。
3.3 展开的GLR模块
将基于图的优化问题解展开为迭代卷积滤波,从图信息几何注意力中学习滤波器权重,实现去噪,兼顾时间一致性与空间清晰度。
04 实验结果:性能卓越且泛化性强
4.1 合成数据集上的表现
在合成的DVToF数据集上,GIGA-ToF表现优异。与多种竞争方案相比,正常噪声设置下,MAE(每帧平均绝对误差)至少降低37.9%,TEPE(时间端点误差)至少降低13.2%,在准确性和时间一致性上均领先。
视觉效果上,GIGA-ToF去噪后的结果平滑且保留精细细节。
时间一致性方面,GIGA-ToF的x-t切片更清晰,抖动少。
4.2 真实数据上的泛化能力
在真实的Kinect v2数据集上,GIGA-ToF泛化能力强。相比MTDNet在真实数据上的不佳表现和WMF的模糊结果,以及GLRUN,GIGA-ToF在保留细节的同时,去噪效果更优。
4.3 消融实验验证各组件有效性
通过消融实验发现,展开的GLR模块有助于保留细节,基于图的融合优于深度特征融合,帧间注意力能减少噪声,各组件对网络性能提升均有重要作用。
05 总结与展望
GIGA-ToF网络通过融合运动不变图结构,构建基于图融合的MAP问题,结合算法展开设计网络,有效提升ToF深度去噪的时间一致性和空间清晰度,在合成与真实数据集上均表现出色。未来可探索扩展到更多帧的处理,通过循环网络设计适应不同输入序列长度,进一步提升性能。该研究为ToF深度去噪领域提供新方向,推动相关应用发展。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

