

RobustVGGT来了！不惧噪声，显著提升3D重建鲁棒性

我爱计算机视觉

2025-12-04

导读：它本来就很强，"VGGT"本身就知道哪些视图是噪声

论文标题: Emergent Outlier View Rejection in Visual Geometry Grounded Transformers
论文作者: Jisang Han, Sunghwan Hong, Jaewoo Jung, Wooseok Jang, Honggyu An, Qianqian Wang, Seungryong Kim, Chen Feng
作者机构: 韩国科学技术院；纽约大学；苏黎世联邦理工学院；加州大学伯克利分校
论文地址: https://arxiv.org/abs/2512.04012
项目主页: https://cvlab-kaist.github.io/RobustVGGT/
代码仓库: https://github.com/cvlab-kaist/robustvggt

研究背景与挑战

在复杂的现实世界中，从海量图像中重建三维场景一直是个挑战，特别是当这些图像质量参差不齐，混杂着无关的“噪声”视图时。今天我们要聊的这篇论文——Emergent Outlier View Rejection in Visual Geometry Grounded Transformers，就为这个问题提供了一个优雅而高效的解决方案。它揭示了现有模型中一个惊人的“天赋”，让我们无需额外训练，就能大幅提升三维重建的鲁棒性。

我们知道，从多张照片重建三维物体或场景（Multi-view 3D reconstruction），是计算机视觉领域一个非常核心的问题。从自动驾驶到增强现实（AR/VR），都离不开它。传统的SfM（Structure-from-Motion）管线，比如大名鼎鼎的COLMAP，在处理那些“脏乱差”的野外图像集时，表现得相当老练。它们有一套成熟的“排雷”机制：几何验证、RANSAC算法剔除离群点等等，能有效过滤掉那些不一致的视图。

然而，近年来兴起的前向3D重建模型，比如VGGT（Visual Geometry Grounded Transformer），虽然在速度和性能上取得了显著进步，却普遍缺少这种显式的离群视图剔除机制。这就导致了一个问题：当输入图像中混入了无关的背景、模糊的照片或完全不搭边的“捣乱分子”时（就像我们从网上随手一搜图片，总会遇到不相关的结果一样），这些模型就容易“翻车”，重建出的三维结构会变得很糟糕，出现很多噪声和伪影。

如上图所示，当输入图像集中包含分散图像时，如果不进行过滤，VGGT管线会产生噪声几何和最终重建中的可见伪影（a）。

一些人可能会想到，是不是可以用预测的每像素置信度图来过滤掉不可靠的深度点呢？可惜，论文指出，这些置信度是“事后诸葛亮”，只作用于点级别，并不能从根本上过滤掉整个离群视图。结果就是，模型依然会尝试重建所有图像，导致错误的视图扭曲了姿态估计，破坏了恢复的三维几何结构。

上图展示了VGGT重建的结果。尽管VGGT预测了每像素置信度图来降低不可靠深度的权重，但这种信号只在点级别上起作用，并不能过滤视图。因此，分散图像仍然会被重建，导致虚假内容破坏恢复的几何形状。

核心发现与方法：VGGT的“涌现式”智慧

这篇论文最引人入胜的地方在于，它发现了一个惊人的“涌现式”属性：VGGT模型，即便在没有任何显式离群剔除机制或噪声感知训练的情况下，竟然能够内在地区分出那些“捣乱”的离群图像！

通过对VGGT内部机制的深入分析，研究人员发现，在模型的特定层（特别是最后的几层），其内部的注意力（attention）和特征表示（feature representations）会自然而然地表现出对离群视图的抑制行为。也就是说，模型在处理过程中，会默默地“重视”那些几何一致的视图，同时“忽略”那些不一致的干扰项。

上图显示了层级分析的结果。研究人员衡量了VGGT所有层中干净视图和分散视图在注意力及特征相似性方面的差距。结果表明，这种分离随着深度的增加而增大，并在最后一层达到峰值，这表明模型具有涌现的噪声抑制能力。

上图是特征/注意力可视化。我们看到，VGGT最后一层的跨视图注意力图和中间特征相似性图，对于混合了干净和分散图像的集合，都能清晰地抑制分散视图（红色框标记），揭示了模型涌现的视图选择性。

基于这一发现，作者提出了一种简单、免训练（training-free）的视图过滤机制——RobustVGGT。它不需要对VGGT模型进行任何架构修改或重新训练。具体来说，RobustVGGT利用两种内部表示来衡量视图之间的相关性：

注意力分数（Attention score）: 通过计算查询图像（query image）与上下文图像（context image）之间在模型最终注意力层上的平均注意力权重来判断。
特征相似度分数（Feature similarity score）: 通过计算最终层输出的中间密集特征图之间的余弦相似度（cosine similarity）来衡量。

其中，。

上图展示了RobustVGGT的框架概览。它通过两种探针（跨视图注意力和中间密集特征的余弦相似度）从VGGT的内部表示中计算每视图的相关性。然后，使用一个单一的全局阈值来过滤分散图像，并将过滤后的图像集重新送入VGGT进行重建，整个过程无需重新训练或修改架构。

当这些分数低于一个预设的单一全局阈值时，对应的视图就会被认为是离群点并被剔除。过滤后的图像集再重新送回VGGT进行三维重建，从而得到更干净、更稳定的结果。论文提出了两个变体：RobustVGGT- （基于注意力分数）和RobustVGGT- （基于特征相似度分数）。

实验验证与效果

为了全面验证RobustVGGT的效果，研究人员在多个数据集上进行了广泛的实验，包括：

Phototourism: 包含互联网收集的、具有复杂外观变化和瞬态物体的图像。
On-the-Go: 随意拍摄的室内/室外序列，包含运动模糊、遮挡和不均匀的视角覆盖。
RobustNeRF: 专门用于测试离群剔除能力的、带有干扰图像的增强场景。
ETH3D: 高质量的多视图基准，用于评估几何精度。

实验结果令人印象深刻：

姿态估计与深度估计显著提升: 在相机姿态估计（Camera Pose Estimation）和多视图深度估计（Multi-view Depth Estimation）这两个核心任务上，RobustVGGT在不同噪声水平下都显著优于原始VGGT和各种预过滤基线。例如，在Phototourism数据集上，RobustVGGT- 的平均ATE（Absolute Trajectory Error）从VGGT的0.3504降低到0.2650，RPE 也从0.5172降低到0.3953。在ETH3D数据集上，RobustVGGT- 的平均AbsRel从0.0419降低到0.0301，从0.9730提升到0.9829。