项目地址:http://skyeye.cs.uni-freiburg.de
01
BEV和OccNet已经成为了自动驾驶领域的通用方法。现有的BEV生成方法需要依赖大量的标注数据。本文使用正面视图Frontal View(FV)这一单目图像来生成BEV语义地图。提出了基于隐式监督和显式监督两种self-supervise学习的SkyEye架构。
隐式监督通过控制FV图像在空间中的一致性来训练模型,显式监督则利用从分割算法和深度估计算法中得到的BEV伪标签(pseudo labels)进行训练。(随着SAM和DAM技术的发展,笔者认为这一思路是可靠且实用的。)
最终,在KITTI-360和Waymo数据集上进行了训练和测试,并公开了生成的伪BEV数据集。
本文的核心网络架构如下:
02
这篇论文的核心思想是将给定的单目前视相机图像转变为BEV的瞬时语义地图。其核心工作如下:

图 隐式网络分割效果
(1)该网络的核心是一个3D Voxel网络,该3D网络提取的特征能够同时支持FV和BEV的语义分割任务(见图1)。通过这种方法,降低BEV数据的语义依赖,更多使用2D标注的语义信息就能够实现对BEV语义信息的监督学习。
隐式监督学习训练时思路十分巧妙,用第一帧图像的3D体素网络特征对视频序列中后续多帧的图像进行语义分割。这就解决了BEV建图过程中空间信息的互补和遮挡问题,让网络学习到3D的体积表示能力。

图 显式伪标签生成过程
(2)显式方法的核心在于伪标签的生成策略,首先将多个深度+分割预测得到的语义点云进行叠加,累加点云P0。之后,对动静态类进行区分。首先生成静态环境的标签,并利用图形学中膨胀和腐蚀操作将之前稀疏的BEV图像致密化。之后,给每一个动目标(车辆,行人)利用DBSCAN聚类方法得到每一个目标的2D中心和聚类簇的长短半轴,生成BEV中的边界框。
03
这篇论文在KITTI-360数据集上进行了评估,并在Waymo数据集上对泛化能力进行了验证。下图展示了使用 KITTI-360数据集的IoU 和mIoU 指标进行评估的结果。可以观察到,SkyEye 模型比 6 个Baseline中的 5 个模型高出 3.65 个百分点以上,并与最先进的完全监督方法相媲美。

04
相关软件及文档链接
我们以后也会定期分享目前集群智能和具身智能领域的高水平论文,供大家交流学习~
SIGMA free永久免费下载链接:
http://download.dxuas.com.cn/SigmaFree/SigmaFree.zip

