大数跨境
0
0

CVPR 2023|全新基于消费者移动设备采集的多样性RGB-D目标跟踪数据集

CVPR 2023|全新基于消费者移动设备采集的多样性RGB-D目标跟踪数据集 极市平台
2023-04-04
0
↑ 点击蓝字 关注极市平台
作者丨大连理工大学卢湖川团队、鹏城实验室
编辑丨极市平台

极市导读

 

工作开放了一个场景更加丰富、标注更加全面、信息更加丰富的RGBD-VOTS数据集并提出了一种基于BEV融合的端到端VOT/VOS框架——ARKitTrack。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

这是一篇来自大连理工大学卢湖川团队与鹏程实验室合作的论文,该工作开发并开源了适用于由Apple iPhone和iPad上的消费级LiDAR扫描仪捕获的静态和动态场景,包含300个RGB-D序列,455个目标和229.7K个视频帧。除了边界框标注和帧级属性之外,我们还使用123.9K个像素级目标掩码对数据集进行标注。是首个包含逐帧图像、密集深度、掩码真值、相机内参、相机实时外参的用于视频目标跟踪(VOT)和视频目标分割(VOS)的数据集。

文中提出的ARKitTrack框架是首个将深度信息和相机内参等用于目标在3D空间内投影的方法,并达到了当时最好的效果。本工作已入选CVPR 2023,项目代码和数据集以及更多可视化可以在https://arkittrack.github.io/中获取。

引言

基于RGB-D图像进行目标跟踪任务(RGBD-VOT)在社区内的获得了越来越多的关注,它旨在利用RGB和对应深度信息,给定视频第一帧中需要跟踪的特定目标,从后续帧中以方框或掩码的方式描述所指述的对象。与基于RGB的跟踪任务相比,深度通道提供了更加充分的目标3D世界位置信息,帮助跟踪算法取得更加健壮、更加鲁棒的表现,因此受到了广泛的关注。

该研究主要为了解决现有RGBD-VOTS任务中的以下三大挑战:

  1. 现有RGBD-VOT数据集使用Realsense或者Kinect这些是需要实时电脑计算和后处理且不方便携带的终端深度相机。这些劣势会导致目标场景多样性受限、静态场景较多等与实际应用场景不符的问题。
  2. 现有RGBD-Tracking数据集仅包含框级别的标注,往往缺失像素级别的掩码标注,因此无法应用于像素级别的视频目标分割(VOS)任务。
  3. 现有RGBD-VOT方法将深度通道转换为颜色信息用于区分和提取不同的深度特征。但基于颜色的深度信息会受图谱的限制,导致深度不一致的目标颜色相近等误差。

因此,该研究开放一个场景更加丰富、标注更加全面、信息更加丰富的RGBD-VOTS数据集并提出了一种基于BEV融合的端到端VOT/VOS框架——ARKitTrack,其主要贡献和创新点为:

  1. 一个全新的目标跟踪数据集ARKitTrack,包含丰富的静态动态场景,同时支持框和像素的精细标注。
  2. 一种用于RBGD VOT和VOS的统一基线方法,结合RGB和3D几何信息,以实现有效的目标跟踪。
  3. 对新数据集和基线方法进行深入评估和分析,为促进未来的RGB-D跟踪研究提供新的知识。

数据集介绍

为了构建一个更实用的数据集,我们使用一部移动设备,即 iPhone 13 Pro,收集RGB-D视频,它具有一个1200万像素的广角彩色相机和一个激光雷达扫描仪。我们还开发了一个iOS应用程序来处理和导出以30 FPS拍摄的RGB-D视频。每个视频序列都包含同步和对齐的RGB帧、深度图和置信度图。RGB帧以JPEG格式以低压缩率使用1920×1440分辨率存储。深度图和置信度图使用ARKit进行处理,并分别使用256×192分辨率以32位TIFF和PNG格式存储。为了促进动态场景中的3D和AR应用,我们还提供了每个帧的相机内部参数和6自由度相机姿态。

数据集采集: 我们精心捕捉静态和动态场景。丰富的相机运动可以导致复杂的外观和深度变化,为 RGB-D 跟踪带来额外的挑战,这模仿了真实世界的应用场景。为了丰富视频内容多样性,我们在大量不同的场景中捕捉了室内视频和室外视频,并在不同的照明条件下拍摄,包括动物园、市场、办公室、街道、广场、走廊等。为了进一步提高跟踪难度,大部分序列都包含有外观类似于目标的干扰物体。

数据集统计: 最终的ARKitTrack数据集包含300个序列,共455个目标,包括144个物体类别和287个动态场景,超过了DepthTrack(90/44)和CDTB(21/0)。表1展示了ARKitTrack和现有的RGB-D VOT和VOS数据集的综合对比。其中,我们选择了50个VOT测试序列,这些序列具有丰富的场景和运动模式,并且对于视觉跟踪来说具有足够的挑战。VOT测试集的平均长度为1,286帧,因此可以用于长期跟踪评估。对于VOS,我们选择了55个不同的测试序列,平均长度为328帧。这些序列具有更加复杂的场景和目标,比许多先前的VOS序列更长,对分割算法提出了更大的挑战。剩余的视频序列被用作训练数据(分别为250个VOT和245个VOS训练视频)。

框架介绍

我们介绍了一种新的RGB-D跟踪基线,将框和像素级目标跟踪统一起来。与现有的主要探索深度图像外观线索的RGB-D跟踪方法不同,我们从BEV视角建模三维场景几何形态,并进行跨视角融合,以整合外观和几何表示,实现强大的RGB-D跟踪。如图3所示,整套算法流程包括图像编码器、BEV转换器、跨视角融合模块和任务特定的推理头。

图像编码器&BEV转换器:

图像编码:我们首先使用ViT模型提取图像特征图I,它以模板-搜索图像对作为输入联合提取图像特征。通过编码模板和搜索区域之间的相关性来增强搜索区域图像特征,并将增强的搜索区域tokens作为输出重塑成2D特征图I。

图像到BEV转换:2D深度图存在几何缺失问题,即3D空间中的远处点可能被投影到2D图像平面中的相邻像素中。因此,在2D形式下编码深度图是利用几何信息的一种次优方式。相反,我们利用深度图投影到BEV空间,并进一步处理BEV特征以更好地编码深度图。具体而言,我们将编码的RGB特征图I作为输入,并遵循LSS将RGB和深度信息嵌入到具有柱状格式的BEV特征图B∈R CB×HB×WB中,使用加速的BEV池化和卷积层。然而,不同于LSS预测离散深度分布,我们使用以输入深度值为中心的高斯分布对每个像素建模深度。BEV空间可以更好地捕捉三维几何形状,邻近点在三维空间中非常接近,深度相似。因此,我们直接使用卷积网络进一步调节BEV特征,这可以有效地聚合3D局部上下文中的信息,同时也弥补了由于深度不准确而导致的BEV变换不完善的缺陷。

图像-BEV 交叉视图融合: 为了进行交叉视图融合, 需要首先空间对齐 图像 和BEV 视图下的对应特征。由于目标定位是在图像平面上进行的,因此我们将 特征投射回 2D 图像空间, 产生如图 3 所示的 。对于图像平面上的像素 ,我们首先将其投影到 3D 空间,并根据其深度 和相机内参计算其 BEV 空间坐标 。然后,我们使用最近邻揷值方法对 BEV 视图中的柱特征 进行采样。上述过程针对每个像素进行,采样的 BEV 特征可以组合成对齐良好的图像视图特征映射

最后, 通过串联和卷积层将图像特征 特征 融合, 产生最终的特征映射 , 用于下游跟踪任务。

训练和测试: 对VOT任务,我们加权FocalLoss、L1Loss和gIoULoss三种训练Loss,训练集为DepthTrack和ARKitTrack-VOT;对VOS任务,我们加权DiceLoss、BCELoss和L2Loss三种训练Loss,训练集是用ARKiTrack-VOS。训练好的模型在单个 NVIDIA 3090 GPU 上以 的输入分辨率为基础,在 VOT 和 VOS 任务中分别以 50FPS 和 10FPS 的速度运行。

实验结果

文中在两个流行的RGBD-VOT数据集(DepthTrack和CDTB)上均取得了优异的效果,另外在ARKitTrack数据集上的表现更为突出。量化指标以及一些可视化效果图如下:

文中在ARKitTrack-VOS测试集合上进行了测试,由于目前并没有RBGD-VOS的相关算法,因此我们将现有的部分SOTA算法在ARKitTrack上进行了训练和测试。

文中还进行了一系列消融实验说明交叉视图融合模块的作用以及不同的VOS Memory的效果。

文中还在不同的属性下进行不同方法的测试。

公众号后台回复“CVPR2023”获取最新论文分类整理资源

极市干货

极视角动态「无人机+AI」光伏智能巡检,硬核实力遇见智慧大脑!「AI 警卫员」上线,极视角守护龙大食品厂区安全!点亮海运指明灯,极视角为海上运输船员安全管理保驾护航!

CVPR2023CVPR'23 最新 125 篇论文分方向整理|检测、分割、人脸、视频处理、医学影像、神经网络结构、小样本学习等方向

数据集:自动驾驶方向开源数据集资源汇总医学影像方向开源数据集资源汇总卫星图像公开数据集资源汇总

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k