SkyEye 基于单目图像的自监督BEV语义建图方法- 大数跨境

首页

SkyEye 基于单目图像的自监督BEV语义建图方法

北京大翔航空科技有限公司

2025-02-22

导读：现有的BEV生成方法需要依赖大量的标注数据。本文使用正面视图Frontal View(FV)这一单目图像来生成BEV语义地图。提出了基于隐式监督和显式监督两种self-supervise学习的SkyE

项目地址：http://skyeye.cs.uni-freiburg.de

论文方法

1.1 研究出发点

BEV和OccNet已经成为了自动驾驶领域的通用方法。现有的BEV生成方法需要依赖大量的标注数据。本文使用正面视图Frontal View(FV)这一单目图像来生成BEV语义地图。提出了基于隐式监督和显式监督两种self-supervise学习的SkyEye架构。

隐式监督通过控制FV图像在空间中的一致性来训练模型，显式监督则利用从分割算法和深度估计算法中得到的BEV伪标签（pseudo labels）进行训练。（随着SAM和DAM技术的发展，笔者认为这一思路是可靠且实用的。）

最终，在KITTI-360和Waymo数据集上进行了训练和测试，并公开了生成的伪BEV数据集。

1.2 网络架构

本文的核心网络架构如下：

包含5个重要组件，分别是：

（1）图像编码器-用于生成2D特征；

（2）lifting module：用于将深度分布生成3D体素网络；

（3）FV语义head：用于生成语义信息；

（4）BEV head：生成BEV语义信息；

（5）伪标签生成模块：用于将连续图像直接生成BEV伪标签；

本文利用FV head作为一个auxiliary head对体素网络的特征进行自监督学习，将该分支称为隐式监督。同时，根据生成的BEV伪标签对BEVhead进行监督学习，将该分支称为显式监督。同时使用这两种自监督学习方法，来解决目前单目BEV数据量不足的问题。

方法创新点

这篇论文的核心思想是将给定的单目前视相机图像转变为BEV的瞬时语义地图。其核心工作如下：

图隐式网络分割效果

（1）该网络的核心是一个3D Voxel网络，该3D网络提取的特征能够同时支持FV和BEV的语义分割任务（见图1）。通过这种方法，降低BEV数据的语义依赖，更多使用2D标注的语义信息就能够实现对BEV语义信息的监督学习。

隐式监督学习训练时思路十分巧妙，用第一帧图像的3D体素网络特征对视频序列中后续多帧的图像进行语义分割。这就解决了BEV建图过程中空间信息的互补和遮挡问题，让网络学习到3D的体积表示能力。

图显式伪标签生成过程

（2）显式方法的核心在于伪标签的生成策略，首先将多个深度+分割预测得到的语义点云进行叠加，累加点云P0。之后，对动静态类进行区分。首先生成静态环境的标签，并利用图形学中膨胀和腐蚀操作将之前稀疏的BEV图像致密化。之后，给每一个动目标（车辆，行人）利用DBSCAN聚类方法得到每一个目标的2D中心和聚类簇的长短半轴，生成BEV中的边界框。

试验结果

这篇论文在KITTI-360数据集上进行了评估，并在Waymo数据集上对泛化能力进行了验证。下图展示了使用 KITTI-360数据集的IoU 和mIoU 指标进行评估的结果。可以观察到，SkyEye 模型比 6 个Baseline中的 5 个模型高出 3.65 个百分点以上，并与最先进的完全监督方法相媲美。

整体评价

笔者认为这篇论文在研究方法上更适合已有大模型算法的后续生成工作，这种自监督方法能够解决目前BEV数据不足的问题。在深度、分割算法本身已经成熟的前提下，该方法如果在自监督的过程中结合平面、空间投影关系来保证BEV的生成质量可能效果更佳。除此之外，作者研究时，仿真生成BEV的技术尚不完善，笔者认为随着UE5技术的高速发展，CARLA/GTA5等采集的数据集已经足够逼真，也可以用来提升BEV的学习效果。