极市导读
论文提出了VoxFromer,一个基于Transformer的语义场景补全(SSC,Semantic Scene Completion)框架,可以仅从二维图像中预测空间中的体素占据和类别信息。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
Paper: https://arxiv.org/pdf/2302.12251.pdf
Code: https://github.com/nvlabs/voxformer
导读
从视觉图像估计场景中完整的几何结构和语义信息对于认知和理解至关重要。为了在人工智能系统中实现这种能力,论文提出了VoxFromer,一个基于Transformer的语义场景补全(SSC,Semantic Scene Completion)框架,可以仅从二维图像中预测空间中的体素占据和类别信息。VoxFromer的框架采用两阶段设计,首先从深度估计得到一组稀疏的可见和占据的体素查询,然后进从稀疏体素生成密集的三维体素。
这种设计的一个关键思想是,二维图像上的视觉特征仅对应于可见的场景结构而不是被遮挡或空的空间,因此,从可见结构的特征化和预测开始更加可靠。一旦获得稀疏查询集,VoxFromer采用一个带掩膜的自编码器设计,通过自注意力将信息传播到所有的体素中。在SemanticKITTI数据集上的实验结果表明,VoxFormer在几何和语义方面的相对改进分别达到20.0%和18.1%,并且在训练期间将GPU内存减少了约45%,降至不到16GB。
研究背景
仅从视觉图像进行完整的3D场景理解是自动驾驶汽车感知中的一个重要问题,它直接影响规划和地图构建等下游任务。然而受限于传感器有限的视野和场景物体的遮挡,获得真实世界的准确和完整的3D信息是⼀项具有挑战性的任务。
为了应对这些挑战,语义场景补全(Semantic Scene Completion, SSC)被提出来,其从有限的观察中联合推断完整的场景几何和语义。SSC解决方案必须同时解决两个子任务:可见区域的场景重建和遮挡区域的场景推断。
现有的基于视觉方案的SSC,如MonoScence,使用密集特征投影将2D图像输入提升为3D。然而,这样的投影不可避免地会将可见区域的2D特征分配给空的或被遮挡的体素。例如,被汽车遮挡的空体素仍将获得汽车的视觉特征。结果,生成的3D特征包含许多歧义,无法用于后续的几何补全和语义分割,导致性能不尽如人意。
贡献
与MonoScene不同,VoxFormer考虑3D到2D交叉注意力来表示稀疏查询。所提出的设计受到两个见解的启发:
-
遮挡区域场景推断: 以重建的可见区域作为起点,可以更好地完成不可见区域的三维信息 -
稀疏三维空间表示: 由于三维空间大量的体素通常是不被占用的,使用稀疏表示而不是密集表示肯定更有效和可伸缩
VoxFormer的主要贡献如下:
-
一种新颖的两阶段框架,将图像提升到一个完整的3D体素化语义场景 -
一种基于2D卷积的新型查询提议(query proposal)网络,可以从图像深度生成可靠的查询 -
一种新的Transformer类似于掩蔽自编码器(MAE),产生完整的3D场景表示 -
VoxFormer在SemanticKITTI 的SCC任务上取得SOTA
方法
VoxFormer框架分为两阶段,第一阶段为类不可知(class-agnostic)的查询提议,第二阶段为类特定(class-specific)的语义分割。具体来说:
-
阶段一包含一个轻量级的基于2D CNN的查询提议网络,使用图像深度来重建场景的几何形状,从可学习体素查询中得到一个稀疏的体素。 -
阶段二是一个新的稀疏到密集的类似于MAE的架构,如上图所示,它首先通过与图像的Cross-Attention增强体素的特征,然后将未提出的体素与一个可学习的掩码标记相关联,并将整个体素集进行自注意处理,以完成逐体素语义分割的场景表示。
Stage-1: Class-Agnostic Query Proposal
Depth estimation
论文利用现有的单目深度估计网络得到每个像素点 的深度 , 然后将预测的深度图 反向投影到点云中:
Depth correction
上述的深度估计质量较差, 论文使用一个lightweight的UNet风格网络 来预测较低空间分辨率下的体素占用图, 以帮助矫正图像深度。首先将点云转换为一个体素网格图 , 输入 得到低分辨率的 。因为较低的分辨率对深度错误更鲁棒。
Query proposal
经过深度校正后, 得到基于深度图转点云输出的二进制 的query proposals :
Stage-2: Class-Specific Segmentation
Deformable attention
在阶段1之后, 可以通过query proposals 来关注图像特征, 以学习3D场景中丰富的视觉特征。为了提高效率, 论文提出deformable attention:参考点与局部感兴趣区域相互作用, 即只在参考点的邻域采样点 来计算注意力结果。 每个3D的query q将由以下一般方程进行更新:
其中 表示query点投影到2D图像上对应的2D参考点, 表示2D图像输入特征, 为 点索引。 表示值生成的可学习的权重, 的注意力权重。 是邻域采样点相对于参考点在2D 图像上的预测偏移量, 而 是通过双线性插值提取的特征。
Deformable cross-attention
对于3D空间中每个proposed query,通过投影矩阵得到在的输入的连续帧 中的位置,对连续帧这些位置的特征进行加权和,作为可变形交叉注意力的输出:
Deformable self-attention
在经过几层可变形的交叉注意之后, proposed query将被更新为 。结合更新后的propose d query和mask tokens得到初始体素 , 然后使用可变形自注意力得到精细 :
Output Stage
在获得细化的体素特征 后, 将其上采样并投影到输出空间, 得到最终的输出 表示 个语义类和一个空类
实验
在大型自动驾驶场景中,VoxFormer可以更好地捕捉场景的布局。同时,在树干、杆等小物体方面表现出满意的性能。
Comparison against camera-based methods
如上表所示:
-
VoxFormer-S在几何补全方面大大优于MonoScene(36.80->44.02,19.62%)。如此大的改进源于阶段1,它具有明确的深度估计和校正,减少了查询过程中的大量空白。 -
具有时域信息VoxFrorer-T进一步提高了的VoxFrorer-S的SSC性能 -
VoxFormer在自动驾驶安全关键的短程领域比其他基于相机的方法有了显著的改进 -
VoxFormer在小物体上的更具优势 -
VoxFormer在模型大小和GPU显存上都优于MonoScene
Comparison against LiDAR-based methods
如上表所示,目标距离越近,VoxFrorer-T和最先进的基于激光雷达的方法之间的性能差距越来越小。
Ablation studies
上表可以看出,基于双目的方法效果由于单目方法,因为前者利用了外极性几何结构,但后者依赖于模式识别。
上表可以看出:
-
密集查询(在第二阶段中使用所有体素查询)消耗了大量内存且比占用查询效果更差 -
随机查询效果不稳定,与占用查询有较大差距
上表可以看出,时序连续帧输入可以提高性能
上表可以看出,对于阶段1,深度估计和校正都很重要,因为一组合理的体素查询可以为完整的场景表示学习奠定良好的基础。对于第二阶段,自注意和交叉注意可以通过启用voxel-to-voxel和voxel-to-image的交互来帮助提高性能。
总结
在本文中,作者提出了VoxFormer,一个强大的单目三维语义场景补全(SSC)框架,由一个基于深度估计的类不可知查询提议和一个类特定的稀疏到密集的MAE风格的语义分割组成。VoxFormer优于最先进的基于相机的方法,甚至与基于激光雷达的方法相当。作者希望VoxFormer能激发基于摄像机的SSC及其在自动驾驶感知中的应用。
公众号后台回复“极市直播”获取100+期极市技术直播回放+PPT
极市干货
极视角动态:「无人机+AI」光伏智能巡检,硬核实力遇见智慧大脑!|「AI 警卫员」上线,极视角守护龙大食品厂区安全!|点亮海运指明灯,极视角为海上运输船员安全管理保驾护航!
CVPR2023:浙大提出全归一化流模型PyramidFlow:高分辨率缺陷异常定位新范式|大模型流行之下,SN-Net给出一份独特的答卷|大脑视觉信号被Stable Diffusion复现图像!“人类的谋略和谎言不存在了”
数据集:自动驾驶方向开源数据集资源汇总|医学影像方向开源数据集资源汇总|卫星图像公开数据集资源汇总

点击阅读原文进入CV社区
收获更多技术干货

