大数跨境
0
0

比FastVGGT更快更强!博世新作HTTM:7倍加速VGGT,三维重建精度无损,无需训练!

比FastVGGT更快更强!博世新作HTTM:7倍加速VGGT,三维重建精度无损,无需训练! 极市平台
2025-12-01
1
↑ 点击蓝字 关注极市平台
作者丨3D视觉工坊
来源丨3D视觉工坊
编辑丨极市平台

极市导读

 

HTTM 针对 VGGT 全局注意力冗余,提出「头级时空块合并 + 自适应离群值过滤」免训练策略,把 Q/K/V 序列长度压到 1/7,A100 上实测 7× 加速且重建精度不降,可一次完成 500+ 帧 4D 重建。>>加入极市CV技术交流群,走在计算机视觉的最前沿

论文信息

标题:HTTM: Head-wise Temporal Token Merging for Faster VGGT

作者:Weitian Wang, Lukas Meiner, Rai Shubham, Cecilia De La Parra, Akash Kumar

机构:Robert Bosch GmbH , Ruhr University Bochum

原文链接:https://arxiv.org/abs/2511.21317

导读

基于视觉几何的Transformer模型(VGGT)在3D场景重建领域取得了重大突破,它是首个能够一次性直接推断出所有关键3D参数的模型——包括相机姿态、物体深度以及密集的几何结构。然而,这种联合推理机制需要使用全局注意力层,这些层会对来自所有视角的数据元素进行全连接式的注意力计算。对于那些需要处理长序列数据的大型场景而言,这种机制会带来显著的延迟瓶颈。

在本文中,我们提出了一种无需额外训练的3D数据元素合并方法——头部级时间合并技术(HTTM),旨在加速VGGT的运行速度。现有的数据合并方法会均匀地将数据元素分配到各个注意力头中,导致各层输出中的数据元素完全相同,从而削弱了模型的表征能力。HTTM通过以多头为单位进行数据合并,有效保持了特征数据的唯一性;同时,该方法还能利用头部层面所体现的空间关联性与时间对应关系,从而在保持较高合并效率的同时降低计算成本。实验结果表明,在基于GPU的推理环境中,HTTM的运行速度可提升至原来的7倍,且性能损失几乎可以忽略不计。

01 效果展示

HTTM 形成时空融合块,能够同时考虑连续帧中相邻词项。这一设计通过利用时间连贯性和空间冗余性来实现高效词项融合。在保持相同融合比例的情况下,HTTM 将融合成本降低了 4.58倍。

不同时间帧数下 FastVGGT、VGGT、未使用首帧锚定的 HTTM 以及使用首帧锚定的 HTTM*(标记为 HTTM*) 在相机姿态估计性能方面的对比。颜色表示与真实相机轨迹的偏差情况。

02 引言

视觉几何基础变换器(Visual Geometry Grounded Transformer,VGGT)是最近提出的一种前馈变换器模型,该模型可直接从可变数量的视图推断场景的所有关键3D属性。通过这种直接推断方式,VGGT能够超越当前最先进的方法,同时避免了成本高昂的视觉几何后处理方法,这标志着3D计算机视觉领域的一项重要突破。

VGGT的关键设计之一是其交替的帧级注意力与全局注意力机制。在全局注意力层中,来自不同视图的所有标记(token)都参与多头注意力计算。实际上,即使对于小场景,这种方法也会导致标记序列极长(超过20k个标记)。因此,全局注意力层成为VGGT的主要延迟瓶颈,限制了其在中大型场景重建中的效率。

受长上下文大语言模型(Large Language Models,LLMs)和视觉语言模型(Vision Language Models,VLMs)发展的启发,许多方法被提出,以降低长序列注意力层的计算成本。这些方法主要是基于稀疏性的方法,旨在利用LLMs和VLMs中注意力分数往往集中在少量标记上的特点。

然而,如图2所示,与LLM中的注意力层相比,VGGT的全局注意力层的稀疏度较低,这限制了这些方法应用于VGGT时在延迟改善方面的效果。

另一方面,VGGT中出现的窄注意力分布模式有利于基于相似度的方法,因为注意力权重分布在不同标记间变化不大。ToMe提出了一系列基于特征相似度合并冗余标记以加速变换器的方法。在此基础上,许多扩展方法被提出,证明了基于相似度的标记缩减方法无需重新训练即可有效提高效率。

尽管有几种方法是为VGGT设计的,或者可以适配VGGT,但它们未能识别VGGT特有的头部级相似度模式,并且在长输入序列上表现出较高的合并开销。

为此,我们提出了HTTM(Head-wise Temporal Token Merging,头部级时间标记合并),这是一种专为VGGT全局注意力层设计的无需训练的标记合并方法。HTTM通过以下三项关键创新解决了现有方法的局限性:

  • 头部级合并,允许每个注意力头独立合并标记,保留头部特定信息,避免拼接后特征坍缩;
  • 块级标记合并,与全局匹配策略相比,降低了标记匹配成本;
  • 时间重排序,将标记重新组织为时空块,以利用空间冗余和时间一致性,在固定合并块大小下提高合并质量;
  • 头部级自适应异常值过滤,在全球预算下跨所有头部过滤异常值。这些设计使HTTM在保持高重建质量的同时实现了显著的加速。

03  主要贡献

我们的主要贡献总结如下:

  • 我们对VGGT中的标记合并进行了系统探索,揭示了其在空间和时间维度上独特的相似度模式。通过广泛分析,我们发现时间相关性表现出更高的冗余度,这激发了对时间感知合并策略的需求。
  • 针对现有标记合并方法的主要计算开销,我们分析了合并成本与合并质量之间的权衡,并提出了一种结合时间重排序的块级合并策略,该策略通过对齐空间和时间相关标记,在保持合并质量的同时大幅降低了合并成本。
  • 我们引入了一种自适应异常值过滤机制,该机制在全球预算下跨所有注意力头过滤异常值,为异常值密度较高的头部分配更多预算,以最小开销提高整体质量。

04 方法

空间与时间标记相似度 图3展示了来自NRGBD数据集的一个场景中前4帧所有查询标记之间的余弦相似度模式。可以观察到,高相似度分数集中在主对角线和副对角线附近。主对角线附近的高相似度分数表明,每个标记主要关注其局部邻域内的相似标记。另一方面,副对角线附近的高相似度分数具有帧长的偏移量,这意味着不同帧的相同区域也表现出高相似度。我们将在接下来的段落中探讨这些模式背后的原因。

旋转位置嵌入(Rotary Position Embedding,RoPE)效应 图3中明显的周期性模式源于VGGT的每个注意力层应用旋转位置嵌入(RoPE)的方式。与BERT或Stable Diffusion等模型不同,这些模型仅在输入时添加一次固定的位置嵌入,而VGGT在每一层都重新应用RoPE,这增强了整个网络中的位置编码效果。在全局注意力层中,来自所有视图的标记相互交互,RoPE能够区分单个帧,增强空间独特性并减少远处位置之间的相似度。

在帧注意力层中,RoPE对每一帧的应用方式相同,因此跨帧的对应区域共享相似的位置编码,这诱导了相邻帧相同空间区域之间的时间一致性。更多相关讨论见附录。

输入相似度效应 尽管RoPE诱导了周期性相似度模式,但帧内和帧间相似度也对此现象有所贡献。如图4所示,我们对两张具有不同像素块视觉冗余度的图像进行单帧重建。在深层全局注意力层(第14层)中,来自高冗余输入帧(一面墙)的查询标记比来自具有杂乱物体的低冗余输入帧的查询标记表现出更强的空间相似度。

在图5中,我们可视化了来自三个30帧重建的8个连续帧的深层(第14层)查询标记的相似度,这些重建具有不同程度的视觉连续性。当输入帧在时间上连续且高度相似时,会出现强烈的副对角线响应,这表明相邻帧中对应于相同空间区域的标记表现出高相似度。随着重叠度降低,这些副对角线结构变得更弱且更分散,反映了标记之间时间对应关系的减弱。

这些发现表明,观察到的相似度模式源于两个相互交织的因素:RoPE的架构效应,它在全局注意力层中强制空间独特性,在帧注意力层中强制时间对应性;以及输入级相似度,它在网络中传播并增强了空间对应区域之间的相关性。它们共同塑造了VGGT中标记独特的时空相似度结构。因此,我们设计了一种合并策略,能够同时考虑空间局部性和时间对应性。

05 实验结果

本报告的重建结果使用了VGGT的深度和相机头,因为正如原始VGGT论文所述,它们能产生更好的结果。对于基线方法,我们使用了在FastVGGT中实现的显存高效的VGGT,记为VGGT*,该方法在推理过程中丢弃未使用的中间输出,且不影响重建质量。所有推理均在配备FlashAttention的Nvidia A100上使用Bfloat16进行。

如表1所示,我们在7Scenes和NRGBD数据集上对每10帧采样关键帧的3D重建性能进行了评估。与基线VGGT相比,HTTM在保持相当性能的同时,Q/K/V序列长度大幅缩短。与FastVGGT相比,HTTM在NRGBD上超越了FastVGGT,并在7Scenes上使用更短的序列长度(更高的合并比例)取得了相当的结果。如图9所示,HTTM保留了原始VGGT重建结果的更多高保真细节。

06 总结 & 未来工作

在本研究中,我们提出了HTTM,这是一种无需训练的标记合并方法,可加速VGGT的推理。我们对VGGT中的相似度模式进行了系统探索,并分析了现有方法在合并效率和表示能力方面的主要局限性。为了利用VGGT在头部嵌入层面的标记的空间局部性和时间对应性,我们引入了一种时间重排序和头部级自适应异常值过滤技术,该技术帮助HTTM高效合并标记,同时保留其独特性,从而在长输入序列上实现高达7倍的显著加速,且性能无下降。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读5.7k
粉丝0
内容8.2k