大数跨境
0
0

港科&地平线开源VGGT4D:利用VGGT中的运动线索进行4D场景重建

港科&地平线开源VGGT4D:利用VGGT中的运动线索进行4D场景重建 极市平台
2025-11-28
0
↑ 点击蓝字 关注极市平台
作者丨3DCV
来源丨3DCV
编辑丨极市平台

极市导读

 

港科广&地平线提出无需训练的 VGGT4D:挖掘 VGGT 全局注意力 Gram 相似度生成动态掩码,再用投影梯度精修,即可在线完成 500 帧 4D 重建,相机位姿与点云误差均优于 MonST3R、DAS3R 等专用方法。>>加入极市CV技术交流群,走在计算机视觉的最前沿

论文信息

标题:VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction

作者:Yu Hu, Chong Cheng, Sicheng Yu, Xiaoyang Guo, Hao Wang

机构:The Hong Kong University of Science and Technology (Guangzhou)、Horizon Robotics

原文链接:https://arxiv.org/abs/2511.19971

代码链接:https://3dagentworld.github.io/vggt4d/

01 导读

重建动态的4D场景是一项具有挑战性的任务,因为这需要将动态物体与静态背景有效分离。虽然像VGGT这样的3D基础模型能够生成精确的3D几何结构,但当场景中动态物体占据主导地位时,这些模型的性能会显著下降。现有的4D重建方法通常依赖于外部先验知识、复杂的后期优化过程,或者需要对4D数据集进行微调。

在本文中,我们提出了VGGT4D这一无需训练的框架,它基于3D基础模型VGGT进行扩展,旨在实现稳健的4D场景重建。我们的研究思路源于这样一个关键发现:VGGT中的全局注意力层已经隐含地编码了丰富的、与层次结构相关的动态信息。为了获得能够区分静态与动态元素的分割掩码,我们利用gram相似性算法挖掘并强化这些全局动态特征,并将这些特征在时间窗口内进行整合。为进一步清晰地划分掩码边界,我们引入了一种基于投影梯度的优化机制。

最后,我们将这些精确的分割掩码融入VGGT的早期推理阶段,有效减轻了运动对姿态估计与几何重建的影响。在六个不同的数据集上,我们的方法在动态物体分割、相机姿态估计以及密集场景重建方面均展现了优异的性能,并且支持对长度超过500帧的序列进行一次性推理。

02 效果展示

基于DUSt3R构建的Easi3R仅适用于双视图输入,并通过识别视差不一致的像素来推导动态区域掩码。相比之下,我们提出的VGGT4D通过从VGGT的注意力图中提取全局运动线索,从多视图输入中重构动态场景。

03 引言

从视觉输入中重建包含动态物体的四维(4D)场景一直是一项具有挑战性的任务。这是因为移动的物体不仅会降低位姿估计的精度,还会干扰背景几何建模,并且它们的运动往往与相机运动相互交织,这会导致三维(3D)场景表示中出现严重的伪影。因此,如何对动态特性进行建模对于实现鲁棒的4D重建至关重要。

传统的运动恢复结构(Structure from Motion,SfM)和多视图立体视觉(Multi-View Stereo,MVS)方法依赖于多视图刚性和光度恒定性假设。动态区域违反了这些假设,会降低对应关系的准确性和光束法平差(Bundle Adjustment)的效果,并且常常导致重建失败。像VGGT这样的3D基础模型能够快速、准确地估计3D几何形状和相机位姿,然而它们主要是在静态场景假设下进行训练和推理的,并且缺乏显式分离移动物体的机制。当动态特性占主导地位时,这种动态与静态的耦合会导致重建结果脆弱且位姿漂移。

尽管现有方法在4D重建方面已经取得了一定的进展,但它们存在两个局限性:(1)需要进行大量的迭代优化,这会带来显著的运行时间和内存开销;(2)依赖于外部模块(光流、深度、语义分割),这增加了集成的复杂性,并且使性能对模块质量和领域偏移敏感。

近期的研究探索了高效的前馈架构,但大多数仍然需要在高质量的动态数据集上进行大规模训练或微调,而这些数据集的整理成本高昂且规模有限。

为了缓解上述问题,本文旨在探究:能否在不进行额外训练的情况下,为3D基础模型赋予4D重建能力?

朝着这一目标迈出的初步尝试是Easi3R,它是DUSt3R 的一种无需训练的扩展,通过分析解码器注意力的时空统计信息来分割动态掩码。然而,Easi3R是基于成对的交叉注意力架构构建的,该架构仅能捕捉局部特征交互。这种设计限制了时间视野范围,并且生成的掩码在各帧之间不一致,在动态-静态界面处存在边界误差,这会导致重建点云中出现深度漂移和漂浮伪影。此外,其核心假设,即违反对极几何的标记(token)会受到较低的注意力关注,这一假设并不适用于VGGT,因为VGGT的全局注意力会聚合来自多个视图的信号。

在本文中,我们提出了VGGT4D,它无需进一步重新训练,即可将预训练的VGGT模型扩展到4D场景重建。我们的设计灵感来自于原始VGGT中一致存在的逐层趋势的实证证据:浅层Transformer层捕捉显著的运动信息,而这些信息在深层逐渐减弱。

与Easi3R的成对注意力统计信息不同,我们的多帧、逐层注意力挖掘方法适用于VGGT,并且能够生成全局一致、鲁棒的动态掩码。

具体而言,我们首先通过聚合所选浅层、中层和深层以及一个时间窗口内的格拉姆相似度(Gram Similarity)统计信息,来推导每帧的动态掩码,从而形成一个动态显著性信号。然后,该信号通过一种投影梯度感知策略进行细化,生成清晰且鲁棒的掩码,这些掩码能够显式地分离动态和静态区域。最后,在推理过程中,我们仅在浅层抑制动态图像标记,这减轻了运动干扰,并实现了无干扰的位姿估计和4D重建。

在六个动态数据集上的实验表明,本文方法在动态物体分割、相机位姿估计和密集点云重建方面表现出卓越的性能,并且能够一次性处理超过500帧的序列。

04 主要贡献

无需训练的VGGT 4D感知。我们从VGGT的全局注意力中挖掘潜在的运动线索,无需额外训练即可为3D基础模型赋予4D感知能力。

一致的动态-静态分离流程。我们提出了一种新方法,该方法聚合VGGT注意力中的格拉姆相似度统计信息,并通过梯度感知细化使生成的显著性信号更加清晰,从而生成能够稳定4D重建的掩码。

卓越的性能和泛化能力。本文方法在六个动态数据集上的动态分割、位姿估计和4D重建方面均优于现有模型。它还能够一次性成功处理长序列(500帧以上)。

05 方法

将输入图像序列输入到VGGT中。我们计算并聚合其在所选层和时间窗口上的全局注意力,以挖掘动态线索。随后,通过梯度感知掩码细化,我们得到准确的动态掩码。

在推理过程中,我们将掩码应用于早期层,并丢弃未使用的层标记,生成分离的动态/静态点云和相机位姿估计。

06 实验结果

我们首先评估本文方法的核心组件:动态物体分割。结果见表1,定性结果见图5。

如表1所示,本文完整方法显著优于其他所有变体,在DAVIS-2016和DAVIS-2017数据集上达到了最优性能。图5中的定性结果清晰地展示了:Easi3R的掩码较为粗糙,会遗漏细节。DAS3R倾向于过度分割,会渗入静态背景,而MonST3R则常常分割不足,无法捕捉完整的移动部分。相比之下,本文方法生成的掩码更加准确,且边界更加清晰。

这些结果表明,我们的动态挖掘方法是有效的。出色的性能验证了我们的假设:即使没有经过任何4D特定训练,VGGT的格拉姆相似度统计信息中也嵌入了丰富的、可提取的运动线索。

虽然Easi3Rmonst3r在DAVISall数据集上表现出具有竞争力的召回率,但这得益于MonST3R在光流上的后训练。本文方法无需训练,仅基于预训练的VGGT模型即可取得上述结果。

我们在几个标准且具有挑战性的动态数据集上评估相机位姿估计。结果见表2至表4。

从表中可以观察到的一个关键点是,原始VGGT已经是一个非常强大的基线,其自身就优于许多专门的4D重建方法(例如,MonST3R、DAS3R、CUT3R)。这表明其在多样化数据上的预训练隐式地使其对动态物体具有一定的鲁棒性。

然而,这种鲁棒性并不完美。本文方法VGGT4D在所有数据集上均持续改进了这一强大的VGGT基线。在长序列Point Odyssey基准测试(表3)中,我们在所有指标上均取得了最佳结果,同时保持了高度效率。许多其他4D方法由于内存不足(Out Of Memory,OOM)错误甚至无法在该500帧序列上运行。

这表明VGGT的隐式补偿是不完整的。我们显式、无需训练的动态-静态分离方法成功地识别并消除了由运动引起的残余位姿不一致性,从而实现了更稳定、更准确的相机轨迹,尤其是在长且复杂的序列上。

我们在DyCheck数据集(表4)上评估最终的4D点云重建质量,并在图6中展示定性结果。

从定量角度来看,本文方法在所有重建指标(准确度、完整度和距离)上均取得了最佳性能。与强大的VGGT基线相比,改进显著,例如,将中位准确度误差从0.009降低到0.004,将平均距离从0.150降低到0.123。

07  总结 & 未来工作

我们提出了一种无需训练的框架,将VGGT扩展到4D场景重建。我们研究了VGGT感知动态物体的内在能力。通过利用从VGGT注意力中提取的格拉姆相似度信号,我们挖掘并放大了动态线索,无需依赖任何外部分割模块即可实现显式的动态分离。为了细化动态掩码,我们应用了一种基于投影梯度的细化策略。我们将细化后的动态掩码集成到VGGT的早期推理中,有效地抑制了动态干扰,并同时改进了位姿估计和几何重建。

本文方法实现了卓越的定量性能和更高质量的视觉结果。我们希望我们的发现能为未来关于4D基础模型的研究提供见解。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k