
-
论文标题: Emergent Outlier View Rejection in Visual Geometry Grounded Transformers -
论文作者: Jisang Han, Sunghwan Hong, Jaewoo Jung, Wooseok Jang, Honggyu An, Qianqian Wang, Seungryong Kim, Chen Feng -
作者机构: 韩国科学技术院;纽约大学;苏黎世联邦理工学院;加州大学伯克利分校 -
论文地址: https://arxiv.org/abs/2512.04012 -
项目主页: https://cvlab-kaist.github.io/RobustVGGT/ -
代码仓库: https://github.com/cvlab-kaist/robustvggt
研究背景与挑战
在复杂的现实世界中,从海量图像中重建三维场景一直是个挑战,特别是当这些图像质量参差不齐,混杂着无关的“噪声”视图时。今天我们要聊的这篇论文——Emergent Outlier View Rejection in Visual Geometry Grounded Transformers,就为这个问题提供了一个优雅而高效的解决方案。它揭示了现有模型中一个惊人的“天赋”,让我们无需额外训练,就能大幅提升三维重建的鲁棒性。
我们知道,从多张照片重建三维物体或场景(Multi-view 3D reconstruction),是计算机视觉领域一个非常核心的问题。从自动驾驶到增强现实(AR/VR),都离不开它。传统的SfM(Structure-from-Motion)管线,比如大名鼎鼎的COLMAP,在处理那些“脏乱差”的野外图像集时,表现得相当老练。它们有一套成熟的“排雷”机制:几何验证、RANSAC算法剔除离群点等等,能有效过滤掉那些不一致的视图。
然而,近年来兴起的前向3D重建模型,比如VGGT(Visual Geometry Grounded Transformer),虽然在速度和性能上取得了显著进步,却普遍缺少这种显式的离群视图剔除机制。这就导致了一个问题:当输入图像中混入了无关的背景、模糊的照片或完全不搭边的“捣乱分子”时(就像我们从网上随手一搜图片,总会遇到不相关的结果一样),这些模型就容易“翻车”,重建出的三维结构会变得很糟糕,出现很多噪声和伪影。
一些人可能会想到,是不是可以用预测的每像素置信度图来过滤掉不可靠的深度点呢?可惜,论文指出,这些置信度是“事后诸葛亮”,只作用于点级别,并不能从根本上过滤掉整个离群视图。结果就是,模型依然会尝试重建所有图像,导致错误的视图扭曲了姿态估计,破坏了恢复的三维几何结构。
核心发现与方法:VGGT的“涌现式”智慧
这篇论文最引人入胜的地方在于,它发现了一个惊人的“涌现式”属性:VGGT模型,即便在没有任何显式离群剔除机制或噪声感知训练的情况下,竟然能够内在地区分出那些“捣乱”的离群图像!
通过对VGGT内部机制的深入分析,研究人员发现,在模型的特定层(特别是最后的几层),其内部的注意力(attention)和特征表示(feature representations)会自然而然地表现出对离群视图的抑制行为。也就是说,模型在处理过程中,会默默地“重视”那些几何一致的视图,同时“忽略”那些不一致的干扰项。
基于这一发现,作者提出了一种简单、免训练(training-free)的视图过滤机制——RobustVGGT。它不需要对VGGT模型进行任何架构修改或重新训练。具体来说,RobustVGGT利用两种内部表示来衡量视图之间的相关性:
-
注意力分数(Attention score): 通过计算查询图像(query image)与上下文图像(context image)之间在模型最终注意力层上的平均注意力权重来判断。 -
特征相似度分数(Feature similarity score): 通过计算最终层输出的中间密集特征图之间的余弦相似度(cosine similarity)来衡量。 其中, 。
当这些分数低于一个预设的单一全局阈值 时,对应的视图就会被认为是离群点并被剔除。过滤后的图像集再重新送回VGGT进行三维重建,从而得到更干净、更稳定的结果。论文提出了两个变体:RobustVGGT- (基于注意力分数)和RobustVGGT- (基于特征相似度分数)。
实验验证与效果
为了全面验证RobustVGGT的效果,研究人员在多个数据集上进行了广泛的实验,包括:
-
Phototourism: 包含互联网收集的、具有复杂外观变化和瞬态物体的图像。 -
On-the-Go: 随意拍摄的室内/室外序列,包含运动模糊、遮挡和不均匀的视角覆盖。 -
RobustNeRF: 专门用于测试离群剔除能力的、带有干扰图像的增强场景。 -
ETH3D: 高质量的多视图基准,用于评估几何精度。
实验结果令人印象深刻:
-
姿态估计与深度估计显著提升: 在相机姿态估计(Camera Pose Estimation)和多视图深度估计(Multi-view Depth Estimation)这两个核心任务上,RobustVGGT在不同噪声水平下都显著优于原始VGGT和各种预过滤基线。例如,在Phototourism数据集上,RobustVGGT- 的平均ATE(Absolute Trajectory Error)从VGGT的0.3504降低到0.2650,RPE 也从0.5172降低到0.3953。在ETH3D数据集上,RobustVGGT- 的平均AbsRel从0.0419降低到0.0301, 从0.9730提升到0.9829。
-
对噪声的鲁棒性: 随着噪声视图比例的增加,原始VGGT的性能会明显下降,而RobustVGGT则能保持稳定的高性能。
-
高质量的点云重建: 从可视化结果来看,原始VGGT在存在干扰视图时会产生严重退化的点云,而RobustVGGT则能生成更清晰、更可靠的三维结构。
写在最后
这篇论文告诉我们,像VGGT这样的前向3D重建模型,并非对噪声束手无策,其内部机制在无形中就已经具备了识别并抑制离群视图的能力。通过简单地利用这些“涌现式”的内部信号,我们就能在不增加训练成本、不修改模型架构的前提下,显著提升模型在复杂野外场景下的三维重建鲁棒性和实用性。
“它本来就很强”,VGGT自己就知道谁是噪声!

