3D视觉感知技术再获新突破，鉴智机器人两篇论文入选顶会AAAI2023- 大数跨境

3D视觉感知技术再获新突破，鉴智机器人两篇论文入选顶会AAAI2023

鉴智机器人 PhiGent Robotics

2023-02-17

导读：在量产项目规模化交付的同时，鉴智机器人持续保持对AI视觉前沿领域的深度探索。

PhiGent News：

近日，第37届国际顶级人工智能学术会议AAAI Conference on Artificial Intelligence（简称AAAI）于美国华盛顿特区落下帷幕。此前揭晓的论文入选结果中，鉴智机器人以创新和研发持续引领视觉3D感知技术发展，共有2篇论文成功入选AAAI。

作为人工智能领域公认的权威性顶级学术会议，AAAI收录的论文代表着国际人工智能研究领域的最高水准。本届AAAI共接收8777篇投稿，录用论文1721篇，接受率仅为19.6%。本次成功入选代表了鉴智机器人在人工智能视觉感知领域的研究成果再次获得全球同行的广泛认可。

此次，鉴智机器人团队提交的两篇论文研究成果分别是《A Simple Baseline for Multi-Camera 3D Object Detection》（《一种简单的多摄像机三维目标检测基线》）和《Crafting Monocular Cues and Velocity Guidance for Self-Supervised Multi-Frame Depth Learning》（《制作用于自监督多帧深度学习的单目线索和速度引导》）。

两篇论文从近9000篇投稿论文中脱颖而出，围绕自动驾驶领域的视觉感知难题展开研究，分别提出了一种更简单的基于环视摄像头进行三维物体目标检测的方法和利用单目相机特征和车身运动速度改进多帧深度学习实现深度预测精度大幅提升的模型，帮助自动驾驶车辆有效利用视觉感知精准识别周围各项环境特征，大幅提升自动驾驶解决方案的感知及预测性能。

A Simple Baseline for Multi-Camera 3D Object Detection

《A Simple Baseline for Multi-Camera 3D Object Detection》中指出，基于环视摄像头的三维物体检测是自动驾驶领域一项应用前景广阔的感知技术，但尚且存在收敛速度缓慢、性能不佳等情况。

为此，鉴智机器人团队提出了基于物体候选框的两阶段简单基线方法SimMOD，以物体候选框为核心建立了单视角生成、多视角优化的两阶段工作流程。

通过在 nuScenes 三维物体检测基准上的一系列实验，团队证明了SimMOD的两阶段设计能够显著提升三维物体检测网络的收敛速度和最终精度，相对于已有方法能够取得先进性能。

SimMOD方法的一大创新突破是，利用动态的物体候选替代了固定的物体查询，使得检测算法能够更加关注所感兴趣的全景区域，极大加速整体收敛速度，实现在相同迭代次数下性能的显著提升。

由此，基于环视相机的三维检测模块，公司团队可以通过引入动态的物体候选，实现训练成本的降低和检测性能的提升。

Crafting Monocular Cues and Velocity Guidance for Self-Supervised Multi-Frame Depth Learning

《Crafting Monocular Cues and Velocity Guidance for Self-Supervised Multi-Frame Depth Learning》关注自动驾驶视觉感知领域自监督单目方法和多帧深度估计方法的瓶颈问题，指出自监督单目方法可以有效学习弱纹理表面或反射物体的深度信息，但深度精度受到限制；多帧深度估计方法可以提高深度精度，但在弱纹理区域、非朗伯表面和动态场景下表现不佳。

为此，鉴智机器人团队提出了MOVEDepth，利用单目相机特征和车身运动速度来改进多帧深度学习，与现有方法不同，MOVEDepth 直接解决 MVS 的固有问题来促进多帧深度学习。

MOVEDepth方法的关键是利用单目深度作为几何优先级来构建 MVS 的代价体函数，并在预测的相机速度下调整深度的范围。通过学习代价体中的不确定性进一步融合单目深度和 MVS 深度，从而更加精确地预测深度。简而概之，MOVEDepth通过预测车的运动速度，降低了深度搜索范围，从而大大提升了深度预测精度。

大量实验表明MOVEDepth实现了最先进的性能：与 Monodepth2 和 PackNet 相比，MOVEDepth在 KITTI 基准测试中相对提高了 20% 和 19.8% 的深度精度。MOVEDepth 还泛化到更具挑战性的 DDAD 基准测试，相对优于 ManyDepth 7.2%。

与行业内其他方法相比，该方法无需使用人工标注数据，仅凭借拍摄的视频即可训练出高精度的深度估计模型。

视觉为主的技术路线正成为智驾系统规模量产的新方向。凭借业内领先的视觉感知技术和全栈研发能力，鉴智机器人自研双目立体视觉产品，从传感器到智驾系统实现软硬件协同优化，在适当算力芯片配置下即可实现显著的性能提升，以更具性价比的方式满足客户的智驾系统大规模落地的需求。

一直以来，鉴智机器人坚持渐进式发展路线，在量产项目规模化交付的同时，保持对AI视觉前沿领域的持续探索，以“长期主义”视角推进产研结合，实现“技术驱动、产品量产、商业闭环”，持续推进产品方案快速进化，不断打造更符合智驾市场需求的量产方案和前瞻性产品。