
以周视视频流作为输入,BEVerse首先利用图像编码器和视角变换模型分别处理每个时刻下的多视角图像、得到多帧的鸟瞰图特征;基于帧间自运动实现鸟瞰图坐标系对齐后,BEVerse利用三维卷积进一步提取时空特征,获得4D鸟瞰图特征;基于该特征,BEVerse建立了针对三维目标检测、实时局部地图、物体运动预测等三个关键任务的解码器,实现多任务的联合预测。为了适应不同任务对于视野范围、特征细粒度的需求,BEVerse通过局部网格采样的方式生成任务特定的鸟瞰图特征;此外,BEVerse提出了基于迭代光流的高效未来预测方法,能够降低运动预测的显存需求、更好地赋能多任务学习。
在nuScenes数据集上,得益于时空信息的充分提取和多任务学习的帮助,BEVerse能够以单个模型取得三维目标检测、实时局部地图和物体运动预测等三个任务上的先进性能,相对于传统的线性结构具有明显的速度优势。
论文链接:https://arxiv.org/abs/2205.09743
感知与预测多任务框架 BEVerse
01. 背景介绍
在现代自动驾驶系统中,决策规划模块依赖于多个感知、预测任务模块以提供充足的环境信息,其中感知任务不仅需要检测场景中的动态物体,还需要识别道路边界、车道线、人行横道等静态元素,而预测任务则旨在推理其它动态物体的运动趋势,使得决策系统能够避免潜在的路径碰撞。
目前业界基于纯视觉的感知、预测算法研究通常仅针对上述流程中的单个子问题,如三维目标检测、语义地图识别或物体运动预测;这导致了在搭建整体系统时只能以线性结构堆叠多个子模块。尽管上述方式能够实现问题分解、便于独立的学术研究,但这种串行架构具有两个重要的缺陷:(1)上游模块的模型误差会不断向下游传递,然而在子问题的独立研究中通常以真值作为输入,这使得累积误差会显著影响下游任务的性能表现。(2)尽管不同子模块中存在重复的特征提取、维度转换等运算过程,串行架构却无法实现这些冗余计算的共享,不利于提升系统的整体效率。
02. 方法
在多任务的共享计算部分,BEVerse希望以多视角的相机视频流作为输入,建立起综合的4D鸟瞰图特征表示,从而为多任务预测提供信息输入。在这一过程中,BEVerse首先利用图像特征编码器并行地处理多帧多视角的图像、得到多尺度的图像特征,接下来利用视角转换模型将多视角的图像特征转换为鸟瞰图特征表示、得到初步的4D鸟瞰图特征。为了在鸟瞰图空间实现进一步的时空特征提取,BEVerse利用车辆自运动实现特征坐标系对齐、并利用基于三维卷积的特征编码器同时作用于时域和空域,最终输出综合的4D鸟瞰图特征表示。
03. 实验结果
在自动驾驶权威数据集nuScenes上的实验结果充分证明了BEVerse算法框架的有效性。BEVerse能够以多任务并行推理的范式,同时在三维动态物体检测、局部语义地图构建和物体运动预测等三个任务上超越已有的单任务算法。在推理速度方面,与线性堆叠多个子任务的框架对比,BEVerse并行计算框架具有显著的速度优势,结果如下图所示:
即使是与自身的单任务推理相比,BEVerse仍然表现优异,特别是三维物体检测和局部语义地图的联合学习可以明显地改善运动预测的效果:

在与更多已有的单任务算法进行对比时,BEVerse在nuScenes各项任务上都能取得领先的结果:


04. 结论








