
此次,鉴智机器人团队提交的两篇论文研究成果分别是《A Simple Baseline for Multi-Camera 3D Object Detection》(《一种简单的多摄像机三维目标检测基线》)和《Crafting Monocular Cues and Velocity Guidance for Self-Supervised Multi-Frame Depth Learning》(《制作用于自监督多帧深度学习的单目线索和速度引导》)。
两篇论文从近9000篇投稿论文中脱颖而出,围绕自动驾驶领域的视觉感知难题展开研究,分别提出了一种更简单的基于环视摄像头进行三维物体目标检测的方法和利用单目相机特征和车身运动速度改进多帧深度学习实现深度预测精度大幅提升的模型,帮助自动驾驶车辆有效利用视觉感知精准识别周围各项环境特征,大幅提升自动驾驶解决方案的感知及预测性能。
A Simple Baseline for Multi-Camera 3D Object Detection
《A Simple Baseline for Multi-Camera 3D Object Detection》中指出,基于环视摄像头的三维物体检测是自动驾驶领域一项应用前景广阔的感知技术,但尚且存在收敛速度缓慢、性能不佳等情况。
通过在 nuScenes 三维物体检测基准上的一系列实验,团队证明了SimMOD的两阶段设计能够显著提升三维物体检测网络的收敛速度和最终精度,相对于已有方法能够取得先进性能。
SimMOD方法的一大创新突破是,利用动态的物体候选替代了固定的物体查询,使得检测算法能够更加关注所感兴趣的全景区域,极大加速整体收敛速度,实现在相同迭代次数下性能的显著提升。
由此,基于环视相机的三维检测模块,公司团队可以通过引入动态的物体候选,实现训练成本的降低和检测性能的提升。
Crafting Monocular Cues and Velocity Guidance for Self-Supervised Multi-Frame Depth Learning
《Crafting Monocular Cues and Velocity Guidance for Self-Supervised Multi-Frame Depth Learning》关注自动驾驶视觉感知领域自监督单目方法和多帧深度估计方法的瓶颈问题,指出自监督单目方法可以有效学习弱纹理表面或反射物体的深度信息,但深度精度受到限制;多帧深度估计方法可以提高深度精度,但在弱纹理区域、非朗伯表面和动态场景下表现不佳。
为此,鉴智机器人团队提出了MOVEDepth,利用单目相机特征和车身运动速度来改进多帧深度学习,与现有方法不同,MOVEDepth 直接解决 MVS 的固有问题来促进多帧深度学习。
MOVEDepth方法的关键是利用单目深度作为几何优先级来构建 MVS 的代价体函数,并在预测的相机速度下调整深度的范围。通过学习代价体中的不确定性进一步融合单目深度和 MVS 深度,从而更加精确地预测深度。简而概之,MOVEDepth通过预测车的运动速度,降低了深度搜索范围,从而大大提升了深度预测精度。
大量实验表明MOVEDepth实现了最先进的性能:与 Monodepth2 和 PackNet 相比,MOVEDepth在 KITTI 基准测试中相对提高了 20% 和 19.8% 的深度精度。MOVEDepth 还泛化到更具挑战性的 DDAD 基准测试,相对优于 ManyDepth 7.2%。




