大数跨境
0
0

NeurlPS'25开源 | 港科大新作TrackingWorld:跟踪所有3D像素,精准估计相机轨迹!

NeurlPS'25开源 | 港科大新作TrackingWorld:跟踪所有3D像素,精准估计相机轨迹! 极市平台
2025-12-12
4
↑ 点击蓝字 关注极市平台
作者丨3DCV
来源丨3DCV
编辑丨极市平台

极市导读

 

TrackingWorld把单目视频重新当成“世界坐标系”下的密集跟踪任务:先用帧级上采样把稀疏2D轨迹扩到全像素,再联合优化相机位姿与动态背景,最终输出几乎逐像素的3D世界轨迹,在三大数据集上相机位姿与深度精度均领先。>>加入极市CV技术交流群,走在计算机视觉的最前沿

太长不看版

TrackingWorld是一种针对单目视频,实现密集式、以世界为中心的3D跟踪的新方法。我们的算法能够准确估计相机的位置与姿态,并区分静态物体与动态物体的3D运动轨迹——这种技术并不局限于对单个前景物体的跟踪。该方法能够实现对几乎所有像素的密集跟踪,从而使得仅利用单目视频输入也能获得可靠的3D场景理解结果。

论文信息

标题:TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

作者:Jiahao Lu, Weitao Xiong, Jiacheng Deng, Peng Li, Tianyu Huang, Zhiyang Dou, Cheng Lin, Sai-Kit Yeung, Yuan Liu

机构:The Hong Kong University of Science and Technology、University of Science and Technology of China、The Chinese University of Hong Kong、The University of Hong Kong、Xiamen University、Macau University of Science and Technology

原文链接:https://arxiv.org/abs/2512.08358

代码链接:https://igl-hkust.github.io/TrackingWorld.github.io/

01 导读

单目3D跟踪技术旨在通过单一的单目视频来捕捉3D空间中像素的长期运动轨迹,近年来这一技术取得了快速进展。然而我们认为,现有的单目3D跟踪方法在区分相机自身的运动与前景中物体的动态运动方面仍存在不足,也无法有效追踪视频中新出现的动态物体。

为了解决这些问题,我们提出了TrackingWorld这一新型技术框架——该框架能够在以世界为中心的3D坐标系统中实现对几乎所有像素的密集3D跟踪。首先,我们设计了一种跟踪上采样算法,能够高效地将那些分布稀疏的2D跟踪轨迹转换为密集的2D跟踪数据;其次,为了使现有的跟踪方法能够适用于新出现的物体,我们将这种上采样算法应用于所有视频帧中,并通过剔除重叠区域中的重复跟踪数据来减少2D跟踪数据的冗余性;最后,我们构建了一个基于优化算法的框架,通过估算相机的姿态以及这些2D跟踪数据在3D空间中的位置,将这些2D跟踪轨迹反投影到以世界为中心的3D空间中。在大量合成数据集和真实世界数据集上的测试结果表明,我们的系统能够在以世界为中心的坐标框架中实现精确且密集的3D跟踪。

02 效果展示

DAVIS 数据集上的定性结果。我们的方法既能输出可靠的相机轨迹,又能实现以世界为中心的密集跟踪。第二行展示了针对时间间隔内的关键帧的 3D 跟踪结果,而第三行则展示了连续帧间的完整跟踪轨迹。

03 引言

在计算机视觉领域,对动态视频中的长期运动进行估计仍然是一个长期存在的挑战。细粒度运动跟踪对于理解物体动态、建模相机运动以及促进生成时间与几何上一致的视频至关重要。

近年来,密集二维像素跟踪已成为一个活跃的研究课题,并取得了显著进展,例如CoTrackers,该方法采用变换器(transformers)来迭代更新二维轨迹,推动了二维运动分析的发展。这一进展也激发了许多针对三维跟踪的近期研究。早期的三维跟踪工作,如OmniMotion,采用基于优化的方法来估计三维运动,而后续的前馈方法,如SpatialTracker和DELTA,则利用提取的特征以前馈的方式直接估计三维跟踪,而无需针对每个序列进行优化。这些三维跟踪方法在下游应用中展现出巨大潜力,包括详细的三维运动分析和高保真新视角合成,凸显了单目三维跟踪作为关键研究前沿的日益重要性。

在分析了所有现有的三维跟踪方法后,我们发现这些现有方法仍存在两个显著缺陷。首先,这些方法无法区分相机运动和动态物体运动。所有这些方法都假设相机静止,仅对相机坐标系内的三维流进行建模。然而,许多下游任务,如运动分析或新视角合成,都需要区分相机运动和动态物体运动。此外,一些近期研究也表明,在运动估计中显式考虑相机位姿可提高三维跟踪质量。只有一些非常近期的研究尝试在世界中心坐标系中估计三维轨迹,从而能够区分相机运动和动态物体运动。对于包含动态物体的单目视频,估计相机运动仍然具有挑战性,因为只有静态场景才能为相机位姿估计提供线索。

第二个缺陷是,现有方法大多局限于跟踪视频第一帧中的稀疏像素,无法跟踪所有帧中的所有像素(例如,中间帧中出现的新物体)。对所有像素进行跟踪会给所有跟踪方法带来巨大的计算复杂度。近期研究如DELTA提出利用神经网络对稀疏跟踪点进行上采样,以生成密集三维轨迹。然而,DELTA仍局限于跟踪视频的第一帧,如何估计所有帧所有像素的密集三维轨迹仍是一个尚未探索的问题。

04 主要贡献

在本文中,我们提出了TrackingWorld,这是一种三维跟踪方法,能够在世界中心坐标系内对单目视频中几乎所有帧的所有像素进行密集三维跟踪。“几乎所有”意味着我们会过滤掉一些噪声和离群轨迹,以确保鲁棒性和准确性。具体而言,TrackingWorld以单目视频和基础模型的单目估计结果作为输入,包括稀疏轨迹、深度图和粗前景动态掩码。然后,TrackingWorld为单目视频的几乎所有像素生成高质量的密集三维轨迹,并为每一帧生成相机位姿。TrackingWorld采用以下策略解决上述缺陷。

首先,为了实现对几乎所有像素的密集跟踪,我们利用DELTA的轨迹上采样器,并逐帧进行迭代跟踪。我们发现,DELTA的轨迹上采样模块适用于任意二维轨迹,TrackingWorld利用该模块将输入的稀疏二维轨迹上采样为密集二维轨迹。然后,我们不仅跟踪第一帧的像素,还在所有后续帧上重复这一过程。为了降低计算复杂度,我们观察到后续帧的许多区域已经在第一帧或之前的帧中出现过。因此,我们删除与这些重叠区域对应的冗余轨迹。

其次,为了准确分离相机运动和动态物体运动,我们从上采样后的密集二维轨迹和输入的估计深度图中估计三维轨迹和相机位姿。一个关键挑战在于估计的动态掩码不准确,这些掩码往往无法捕捉动态背景物体。这一局限性导致由动态背景物体干扰的次优光束平差(bundle adjustment),最终影响相机位姿估计和物体运动跟踪的准确性。因此,我们将初始静态区域中的所有点视为潜在动态点,但对相机位姿估计施加尽可能静态的约束,这有效地帮助我们排除动态背景点,以实现准确的相机位姿估计。最后,我们利用估计的相机位姿和深度图将所有二维轨迹转换为世界坐标系中的三维轨迹。

05 方法

TrackingWorld首先会提取出那些能够追踪静态背景结构以及新出现的动态物体的密集二维点轨迹。这些二维轨迹通过一个统一的优化框架被转换成以世界为中心的三维空间中的轨迹,该优化框架包括以下组成部分:

  1. 初始相机姿态估计

我们在视频片段层面估计出粗略的相机姿态,这一初步结果为后续的精细处理以及3D轨迹的重建提供了必要的基础。

  1. 动态背景优化

系统会识别出那些可能具有动态变化的区域,并将这些区域过滤掉,从而确保能够利用稳定的背景对应关系来准确地进行姿态优化。

  1. 以世界为中心的3D轨迹重建

通过精确的姿态数据与密集的对应关系,我们能够重建出详尽的3D轨迹,从而准确捕捉静态场景元素以及动态物体的运动轨迹。

06 实验结果

为了全面评估我们提出的方法是否能够在世界中心坐标系内有效实现对所有帧几乎所有像素的密集三维跟踪,我们从多个角度进行了评估:

  1. 相机位姿估计准确性;
  2. 密集三维轨迹的深度准确性;
  3. 稀疏三维跟踪性能;
  4. 密集二维跟踪结果的准确性。我们的实证分析表明,该方法在所有指标上均表现出优越性能,证实了其在随时间建立准确且一致的三维轨迹方面的有效性。

表1展示了我们的方法与现有方法的定量比较。为了恢复相机位姿,我们首先获得密集跟踪结果,然后通过优化过程细化相机位姿和世界中心密集跟踪。如表所示,无论密集跟踪是源自DELTA还是CoTrackerV3,我们的方法在所有三个数据集上均始终比先前方法实现更准确的位姿估计。

07 总结 & 未来工作

在本文中,我们提出了TrackingWorld,这是一种新颖的方法,能够在世界中心坐标系内对单目视频中所有帧的几乎所有像素进行密集三维跟踪。TrackingWorld的关键思想是显式分离相机运动和前景动态运动,同时密集跟踪新出现的物体。我们首先引入轨迹上采样器来密集化稀疏二维轨迹,并将其应用于捕捉新出现的物体。最后,我们设计了一个高效的基于优化的框架,将密集二维轨迹提升为一致的三维世界中心轨迹。跨多个维度的广泛评估证明了我们系统的有效性。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k