大模型重构自动驾驶

自动驾驶为什么要具有“世界知识”?
第一步,人们要掌握交通规则和驾驶经验。现代交通是由大量的符号和规则来构成的交通网络,从而可以保证高密度车辆的高效、安全的行驶,越是复杂的交通场景,尤其是人车混行的路口,相对于的规则也就越多。
第二步是掌握驾驶技巧,主要是掌握启停的手脚操作,泊车入位的操作,以及慢速情况下的绕行等。
第三步是实际的上路,通过切身经验来体会加减速度、跟车距离、变道时机,同时也实际理解从理论上学习到的驾驶知识和交通规则。
第一,自动驾驶以不应该过度依赖激光雷达,视觉感知本身就可以带来最为丰富的驾驶场景,而配合少量的毫米波雷达或者最多一颗激光雷达就可以弥补超视距感知的不足。毕竟人类主要依靠视觉就可以完成驾驶,而多颗摄像头实现的环视效果就能极大提高感知效果。
第二,自动驾驶不应该以高精地图的方案来实现。高精地图带来了“先验”视角,让车辆有了对环境信息的提前的掌握,但高精地图显然也限制了自动驾驶的运行范围,提高了运行成本,在鲜度不足或者覆盖范围之外的地方会带来额外的风险。毕竟人类只要靠自己的感知的判断就可以完成驾驶,最多依赖导航地图能够更有效。
第三,自动驾驶不应该以AI小模型+人工规则的方式来实现。AI小模型是基于特定问题来执行任务的,比如有专门识别红绿灯、车道线的小任务模型,但是驾驶场景会遇到种类繁多的感知任务,不可能用小模型的方式去穷尽极端场景;同样,车辆行驶过程当中遇到的各类任务也不可能完全用人工规则写完,遭遇复杂的博弈场景,系统就很容易“摆烂”或者“失效”。
首先,感知模式应该是以视觉为主的多模态,感知能力应该是具备通用识别能力的,无论是对于形状各异、提示信息各异的红绿灯,还是对于道路上的各类指示牌、标线都有较好的泛化性;
其次,自动驾驶的局部路径规划应该是实时建图的方式,至少是多次重复建图的方式,来处理当前的路径规划任务,就像人类依靠重复记忆,在多次经过一段道路之后,就会对道路结构和转向连接路径有了内生的认知,从而可以摆脱导航地图的帮助。
另外,自动驾驶对自车和其他障碍物的预测以及规划,要依靠模型的自我学习的方式而非规则的方式,来理解交通场景中各类障碍物的特点和行动意图,从而更灵活地做出驾驶决策。比如,挡在闪灯鸣笛的救护车或者消防车前面,是否要主动靠边让行,遇到前方路口的交通事故,是否要压实线变道过去,遇到前面带着耳机在主路上骑行的车手或者行动迟缓的老人要不要减速避让等等,而这些正是人类驾驶所必须掌握的“世界知识”。


