极市导读
近十年来计算机视觉三大顶级会议(CVPR、ICCV、ECCV)第一篇来自中国研究机构(包括港澳台地区)的最佳论文奖。本文为UniAD官方团队对工作的解读。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
本文为OpenDriveLab团队对UniAD工作的解读。团队不对其他第三方文章、评论等内容负责。本文观点,论文作者与团队成员都进行了矫正。我们也邀请了一些业界同行对全文校验, 在此表示感谢。转载请注明出处。
CVPR23 Best Paper Award
当地时间6月21日,国际电子与电气工程师协会(IEEE)举办的2023年国际计算机视觉与模式识别会议(CVPR,IEEE/CVF Conference on Computer Vision and Pattern Recognition)公布了最佳论文等奖项,上海人工智能实验室(以下简称“实验室”)主导的研究工作《以路径规划为导向的自动驾驶》(英文:Planning-oriented Autonomous Driving;简称UniAD),摘得最佳论文奖(Best Paper Award)。这是近十年来计算机视觉三大顶级会议(CVPR、ICCV、ECCV)第一篇来自中国研究机构(包括港澳台地区)的最佳论文奖。同时,这是CVPR历史上第一篇以自动驾驶为主题的最佳论文。
大会官方组委会(Award Committee)给出的获奖理由是:该文章提出一个端到端的感知决策一体框架,融合了多任务联合学习的新范式,使得进行更有效的信息交换,协调感知预测决策,以进一步提升路径规划能力。
实验室与武汉大学研究团队联合提出的UniAD工作,是业界首个具备全栈关键任务的端到端自动驾驶模型,开创了以终极任务为全局优化目标的自动驾驶算法架构先河,达到了国际领先水平、并得到了国际权威会议认可。该工作为自动驾驶大模型与行业垂直应用提供了重要指引与设计思路。
相比于业界其他方案,例如美国Waymo、Cruise等自驾公司普遍采用的 “独立并行模型” 架构设计模式,美国特斯拉、中国小鹏汽车等提出的“多任务共享网络”架构设计模式,美国英伟达、德国马克斯普朗克研究所(MPI)、英国Wayve自驾公司等提出的“直接端到端方案”,UniAD首次将全栈关键任务端到端地包含在一个统一的网络架构中,提出“全栈可控端到端方案”,并受益于系统联合调优,取得了优异效果。技术上,本方案利用多组查询向量(query)串联起多个任务,并在网络中传递信息,将所有融合的信息传至最终的规划模块。同时,每个模块的Transformer架构可以有效地对查询向量通过注意力机制进行交互。UniAD 能够显著节省计算资源,避免不同任务模块的累积误差。该研究发现了在正确的任务架构方式下,前序任务能够互相帮助,并可以提升驾驶安全舒适体验。
01 UniAD: 业界首个具备全栈关键任务的端到端自动驾驶模型
UniAD 首次将感知、预测、规划等三大类主任务、六小类子任务(目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划)整合到统一的端到端网络框架下,实现了全栈关键任务驾驶通用模型。在 nuScenes 真实场景数据集下,所有任务均达到领域最佳性能(State-of-the-art),尤其是预测和规划效果远超之前最好方案。
相关资料如下:
论文:https://arxiv.org/abs/2212.10156
代码:https://github.com/OpenDriveLab/UniADCVPR
全体会议演讲材料:https://opendrivelab.com/e2ead/UniAD_plenary_talk_slides.pdf
自动驾驶是一项高度复杂的技术,需要多个学科领域的知识和技能,包括传感器硬件、机器学习、多模态融合等内容。自动驾驶还需要适应不同国家与地区的道路规则和交通文化,与其他车辆和行人进行良好的交互,以实现高度可靠和安全的自动驾驶系统。面对这种复杂的场景,大部分自动驾驶相关的工作都聚焦在具体的某个模块,关于框架性的研究与思考相对匮乏。
虽然以往大多数显式端到端自动驾驶工作都关注了感知、决策和规划三部分,但具体任务存在差异,且没有框架融合所有的任务。究其原因可能有两方面:一方面受限于对自动驾驶的认识,研究者们没有对任务之间的关联和构建方式研究清楚;另一方面受限于模型的最终效果,或许有人曾经尝试过把全部任务融合,但是效果不佳。
UniAD能够成功解决不同任务的融合难的问题,从而实现多任务和高性能的关键在于以下两点:
-
多组查询向量的全 Transformer 模型: UniAD利用多组 query 实现了全栈 Transformer 的端到端模型, 我们可以从具体 Transformer 的输入输出感受到信息融合。在 TrackFormer 中, Track query 通过与 BEV 特征通过 attention 的方式进行交互, 输出特征 。类似的, Map query 经过 MapFormer 的更新后, 得到特征 。MotionFormer 使用 Motion query与 以及 BEV 特征进行交互, 得到末来轨迹以及特征 。OccFormer 以密集的 BEV 特征为 和稀疏的特征 对应的位置信息 和 作为 和 来构建实例级别的占据栅格。
-
基于最终“规划”为目标: 在 TrackFormer 中,Track query 中包含一个特定的 ego-vehicle query 用来表示自车属性。规划模块 (Planner) 将 MotionFormer 更新后的 ego-vehicle query 与 BEV 特征进行交互,此时 ego-vehicle query 包含对整个环境的感知与预测信息,因此能更好的学习 planning 任务。为了减少碰撞,我们还利用占据栅格预测模块 OccFormer 的输出对自车路径进行优化,避免行驶到未来可能有物体占用的区域。在这个过程中,全部的模块通过输出特定的特征来帮助实现最终的目标“规划”。
02 技术效果展示
晴天直行
UniAD 可以感知左前方等待的黑色车辆,预测其未来轨迹(即将左转驶入自车的车道),并立即减速以进行避让,待黑色驶离后再恢复正常速度直行。
雨天转弯
在视野干扰较大且场景复杂的十字路口,UniAD 能通过分割模块生成十字路口的整体道路结构(如右侧 BEV图中的绿色分割结果所示),并进行大幅度左转的规划。
夜晚转弯
在夜晚视野变暗的情况下,UniAD能感知到前车并完成先静止,后左转的规划。
03 对自动驾驶大模型领域的启发
上海人工智能实验室青年科学家李弘扬博士补充道,“UniAD工作奠定了多任务端到端自动驾驶大模型的基础,该工作具有很强的可扩展性,在增大模型参数与扩充海量数据双轮驱动的情况下,可以进一步实现自动驾驶大模型,赋能行业应用与相关自驾产品落地”。作为通用视觉大模型“书生谱系”的自然延伸,是实验室大模型体系在下游应用、AI赋能的重要体现。实际应用层面,UniAD提供了全套关键自动驾驶任务配置,其充分的可解释性、安全性、与多模块的可持续迭代性,是目前为止最具希望实际部署的端到端模型。这套基于视觉的全栈自动驾驶框架,据初步测算,每年节省激光雷达与标注成本可达千万级。
上海人工智能实验室持续输出原创技术,对标甚至超越国际先进方案。作为国内科技行业的参与者,愿意与国内学界、产业界一道共同思考、共同进步。
公众号后台回复“极市直播”获取100+期极市技术直播回放+PPT
极市干货

点击阅读原文进入CV社区
收获更多技术干货

