大数跨境
0
0

PhiGent Achievement | 重磅:鉴智机器人推出面向下一代视觉中心化自动驾驶的感知和预测多任务框架BEVerse

PhiGent Achievement | 重磅:鉴智机器人推出面向下一代视觉中心化自动驾驶的感知和预测多任务框架BEVerse 鉴智机器人 PhiGent Robotics
2022-05-20
0
导读:鉴智机器人提出了感知和预测多任务框架BEVerse,这是首个面向视觉中心化自动驾驶的大感知统一框架,对于自动驾驶的规模化应用具有十分重要的推动作用。


PhiGent Achievement
目前,基于视觉中心化和BEV感知的自动驾驶方案成为了技术热点和行业趋势。近日,鉴智机器人和清华大学团队合作提出了感知和预测多任务框架BEVerse,这是首个面向视觉中心化自动驾驶的大感知统一框架,可以通过一个模型高效的实现4D感知、实时局部地图、运动预测等自动驾驶关键模块,同时每个模块都能达到SOTA的效果,特别是在实时局部地图和运动预测任务上,相比目前公开性能最好的方案都有显著的提升。BEVerse对于自动驾驶的规模化应用具有十分重要的推动作用。

以周视视频流作为输入,BEVerse首先利用图像编码器和视角变换模型分别处理每个时刻下的多视角图像、得到多帧的鸟瞰图特征;基于帧间自运动实现鸟瞰图坐标系对齐后,BEVerse利用三维卷积进一步提取时空特征,获得4D鸟瞰图特征;基于该特征,BEVerse建立了针对三维目标检测、实时局部地图、物体运动预测等三个关键任务的解码器,实现多任务的联合预测。为了适应不同任务对于视野范围、特征细粒度的需求,BEVerse通过局部网格采样的方式生成任务特定的鸟瞰图特征;此外,BEVerse提出了基于迭代光流的高效未来预测方法,能够降低运动预测的显存需求、更好地赋能多任务学习。

在nuScenes数据集上,得益于时空信息的充分提取和多任务学习的帮助,BEVerse能够以单个模型取得三维目标检测、实时局部地图和物体运动预测等三个任务上的先进性能,相对于传统的线性结构具有明显的速度优势。

论文链接:https://arxiv.org/abs/2205.09743



感知与预测多任务框架 BEVerse


01. 背景介绍

在现代自动驾驶系统中,决策规划模块依赖于多个感知、预测任务模块以提供充足的环境信息,其中感知任务不仅需要检测场景中的动态物体,还需要识别道路边界、车道线、人行横道等静态元素,而预测任务则旨在推理其它动态物体的运动趋势,使得决策系统能够避免潜在的路径碰撞。


目前业界基于纯视觉的感知、预测算法研究通常仅针对上述流程中的单个子问题,如三维目标检测、语义地图识别或物体运动预测;这导致了在搭建整体系统时只能以线性结构堆叠多个子模块。尽管上述方式能够实现问题分解、便于独立的学术研究,但这种串行架构具有两个重要的缺陷:(1)上游模块的模型误差会不断向下游传递,然而在子问题的独立研究中通常以真值作为输入,这使得累积误差会显著影响下游任务的性能表现。(2)尽管不同子模块中存在重复的特征提取、维度转换等运算过程,串行架构却无法实现这些冗余计算的共享,不利于提升系统的整体效率。


02. 方法

针对上述问题,此研究提出了下一代纯视觉自动驾驶感知预测框架BEVerse,率先建立起视觉自动驾驶中的并行多任务架构。


在多任务的共享计算部分,BEVerse希望以多视角的相机视频流作为输入,建立起综合的4D鸟瞰图特征表示,从而为多任务预测提供信息输入。在这一过程中,BEVerse首先利用图像特征编码器并行地处理多帧多视角的图像、得到多尺度的图像特征,接下来利用视角转换模型将多视角的图像特征转换为鸟瞰图特征表示、得到初步的4D鸟瞰图特征。为了在鸟瞰图空间实现进一步的时空特征提取,BEVerse利用车辆自运动实现特征坐标系对齐、并利用基于三维卷积的特征编码器同时作用于时域和空域,最终输出综合的4D鸟瞰图特征表示


在多任务的独立预测部分,BEVerse将每个解码器设计为三部分:局部网格采样、任务特征提取和预测头,其中前两部分在不同任务中是类似的。由于不同任务在三维空间的需求范围与细粒度不同,如局部地图更关注车辆道路方向的信息、需要更加精细的空间预测,而目标检测要求在较大视野范围内作用、但对特征细粒度要求不高;于是BEVerse提出利用局部网格采样,将共享部分的鸟瞰图特征进行感兴趣区域的截取和插值、以满足不同任务对范围和细粒度的需求。为了更好地适应采样后的鸟瞰图特征,BEVerse为每个任务引入了一个轻量化的特征编码器、进行特定于任务的特征提取。在预测头部分:对于三维目标检测,得益于相似的鸟瞰图特征表示、BEVerse可以利用直接利用先进点云算法中的检测头设计;对于局部地图学习,BEVerse采用了轻量化的全卷积设计;对于运动预测,BEVerse提出了基于迭代光流的方法以实现显存友好、计算高效的未来状态生成、并进一步实现实例分割和运动预测。

03. 实验结果

在自动驾驶权威数据集nuScenes上的实验结果充分证明了BEVerse算法框架的有效性。BEVerse能够以多任务并行推理的范式,同时在三维动态物体检测、局部语义地图构建和物体运动预测等三个任务上超越已有的单任务算法。在推理速度方面,与线性堆叠多个子任务的框架对比,BEVerse并行计算框架具有显著的速度优势,结果如下图所示:

即使是与自身的单任务推理相比,BEVerse仍然表现优异,特别是三维物体检测和局部语义地图的联合学习可以明显地改善运动预测的效果:

在与更多已有的单任务算法进行对比时,BEVerse在nuScenes各项任务上都能取得领先的结果:



从可视化结果中可以看出,在复杂的城市道路场景中,BEVerse可以稳定地对各类动态目标进行三维空间的检测,实时构建出高质量的局部语义地图,同时能够得到道路交通参与者未来时刻的状态预测


04. 结论

本文介绍了BEVerse,这是第一个基于多摄像头系统的三维感知和预测统一框架。与现有的单个任务的方法不同,BEVerse从多摄像头视频中生成4D BEV表示,并对3D目标检测、语义地图构建和运动预测进行联合推理。通过在nuScenes数据集上的综合实验,表明BEVerse的多任务范式可以在三个任务上实现SOTA的性能,并且比顺序范式更高效。另外,感知任务的联合学习还可以明显地改善运动预测的效果。

活动预热:
5月20日 19:00-19:30,鉴智机器人视觉雷达产品线FPGA负责人吴迪,将在赛灵思Vitis AI在线研讨会上,直播分享PhiGent Heimdallr-基于Xilinx KV26的立体视觉匹配方案。敬请扫码关注!





_____

了解更多详情
请访问
www.phigent.ai





【声明】内容源于网络
0
0
鉴智机器人 PhiGent Robotics
鉴智机器人 PhiGent Robotics——以视觉3D理解为核心的下一代自动驾驶系统提供商。
内容 42
粉丝 0
鉴智机器人 PhiGent Robotics 鉴智机器人 PhiGent Robotics——以视觉3D理解为核心的下一代自动驾驶系统提供商。
总阅读0
粉丝0
内容42