

自动驾驶系统的局部最优陷阱

睐芯科技LightSense

2025-11-21

导读：曾经推动进步的海量廉价数据，如今反而成了前进的桎梏。

作者：刘兰个川（Patrick Liu）

作者毕业于北京大学物理学系，目前供职于英伟达自动驾驶团队，撰稿仅代表本人立场。

技术演进之路

自动驾驶技术这些年的进步有目共睹。

十年前，系统主要依赖2D物体检测和语义分割来理解环境。随后，单目3D检测和车道线估计技术的出现，让系统能从单一摄像头中推断出深度与结构。发展到今天，多摄像头鸟瞰图感知技术（Multi-Camera BEV Perception）已经能将车辆周身环境融合成一个无缝的360度全景画面。

“看”得越准，便“想”得越远。

感知能力的进步也带动了预测和规划模块的发展。端到端驾驶系统应运而生，它能将视觉信号直接映射为控制指令，其驾驶表现比传统的规则系统更平滑、更自然，也更接近真人。

这一切的背后，都离不开一个核心引擎：数据飞轮。其运作流程“部署→路测→挖掘→训练→再部署”构成了一个驱动系统持续进化的强力闭环。

图：一个2019年的典型的数据飞轮，引自Andrej Karpathy的ICML主题演讲，2025年的数据飞轮没有太大变化

与学术界聚焦固定数据集的研究范式不同，工业界的逻辑是让系统能力随数据规模而生长。一旦评测发现系统的薄弱环节，便能自动挖掘海量相似场景投入训练。

对于特斯拉、理想、小鹏这类拥有庞大真实车队的公司而言，这些数据正是用户日常行驶中产生的天然副产品，收集成本极低。车队的每一公里行驶，都在为模型注入新的养分。

特斯拉将这一模式发挥到了极致：通过数百万辆行驶中的车辆，它构建了人类历史上可能规模最庞大的现实世界机器学习闭环。这一闭环或许确实能将安全水平提升至超越人类驾驶员的平均值，但其底层逻辑并未改变：系统的能力源于对大量数据的记忆，而每一个故障案例，都依然需要一个对应的数据补丁。

这个闭环设计精巧，却也隐含着它的终极和局限。

数据补丁的局限与出路

如果每次遇到特殊路况，第一反应都是“堆数据”，那我们打造的终究只是一套“擅长打补丁的系统”。

这类系统看似能闯过不少复杂关卡，本质上却依赖机械记忆而非真正理解，因此难以举一反三。一旦现实场景在已有数据的边缘发生细微变化，哪怕只是光照、天气或道路布局的差异，模型就可能再度失灵——它们是训练出来的“场景专家”，却成不了灵活应变的“通用司机”。

随着自动驾驶的运营设计域（ODD）不断拓宽，需要修补的漏洞数量几乎呈指数级增长。孟买的复杂换道、柏林的高速汇入、东京的窄路调头……每个问题都要经历独立的数据采集、标注和模型迭代。系统规模确实在变大，但我们“打补丁”的速度却远远跟不上新问题出现的节奏。

更严峻的是，容易解决的场景逐渐被覆盖殆尽，剩下的往往是数据稀缺、逻辑复杂的“硬骨头”，收集成本急剧上升，最终导致系统性能陷入平台期。

曾经推动进步的海量廉价数据，如今反而成了前进的桎梏。

当前的自动驾驶系统，本质上是一本写满“如果-那么”规则的电子操作手册。在熟悉的场景中它们游刃有余，一旦跨出已知边界就显得力不从心。

它们精于重复，却弱于泛化。现有技术路线基于一个美好却脆弱的前提：所有问题都能通过“投喂”更多数据，在有限时间内解决。然而，当系统面对那些真正罕见、完全超出其训练经验的“黑天鹅”事件时，这条路径便走到了尽头。

要实现真正的全自动驾驶，我们必须转向构建具备通用法则理解能力的系统。这样的系统能够推理他车意图、洞悉因果链条、理解物理约束与社会惯例，从而突破数据本身的局限。唯有掌握这种“举一反三”的认知能力，才能系统性地解决长尾难题。

操作手册式的系统注定无法规模化，“场景专家”也永远走不出舒适区。这正是自动驾驶技术面临的局部最优困境：

我们在一条看似正确的道路上不断前进，却最终抵达了一座无法逾越的高墙之下。

机器人学的逆境启示

自动驾驶领域一直享受着廉价数据的“红利”，机器人学却长期面临着“数据饥荒”的考验。

正如英伟达GEAR团队负责人Jim Fan在近期演讲中指出的，如果说互联网规模的文本是大语言模型赖以发展的“化石燃料”，那么机器人学几乎是在“无米之炊”的困境中前行。这个领域依赖的是珍贵的“人力燃料”——需要专家进行繁琐的遥控操作，而机器人本身能够自主工作的时长又极为有限。

面对这种先天不足，机器人学家们被迫在算法层面寻找突破口。他们打造的模型必须具备“小样本学习”的能力：既要能消化多种传感器传来的异构信息，又要能进行跨模态的推理，还要善于从有限的真实数据中提炼出普适的规律。

这种严苛的要求，反而催生了视觉-语言-动作模型（VLA）的突破。VLA模型的精妙之处在于，它既继承了互联网预训练赋予的常识推理能力，又能将这些知识与真实的传感器观测相结合，最终转化为精准的底层控制指令。在这个过程中，语言充当了“思维链条”的角色，让机器人在行动之前能够进行必要的逻辑推演。

颇具讽刺意味的是，正是这种数据的极度稀缺，反而锻造了机器人学独特的竞争优势——在有限信息中提炼智慧的能力。当自动驾驶还在依赖数据量的堆砌时，机器人学已经走上了一条更具普适性的道路。

语言智能体的启示

在数字世界的另一端，语言智能体正以另一种形态快速发展。虽然它们没有物理实体，无法像自动驾驶汽车或机器人那样直接与环境交互，但它们的演进轨迹同样为我们提供了宝贵镜鉴。语言模型预训练的成功经验揭示了一个关键认知：构建真正可用的智能体是一项系统工程，其复杂程度远超训练单个模型。

CoALA框架集成了数十年认知系统研究的精华，并针对大语言模型时代进行了重新设计。这个框架清晰地勾勒出智能体的核心架构：长期记忆、工作记忆与外部环境构成的三位一体。在这个体系下，智能体通过感知获取环境信息，借助检索或推理整合知识，基于内在的决策逻辑做出判断，最终通过行动改变环境或更新自身的记忆体系。

图：语言智能体的架构图，引自Cognitive Architecture of Language Agents论文

值得深思的是，无论是模块化设计的传统自动驾驶栈，还是端到端的新一代系统，都可以纳入这个统一框架来分析。它们确实具备了智能体的基本构件——感知、记忆、决策、执行，但仔细审视就会发现一个关键缺陷：深度推理能力的缺失。

这种对比直指问题的核心：当我们在自动驾驶系统中不断追求更高的感知精度、更大的记忆容量、更优的决策规则时，是否忽略了最根本的认知能力——推理？

语言智能体的发展路径给我们敲响了警钟：真正的智能不仅在于知道“是什么”，更在于理解“为什么”。

图：各类语言智能体和自动驾驶系统的对比，扩展自Cognitive Architecture of Language Agents论文

自动驾驶2.0到3.0：范式跃迁

业界常将端到端的“学习型驾驶”范式称为自动驾驶2.0，其核心理念是从海量数据中直接学习驾驶能力。它用一个能够将像素直接映射为控制信号的神经网络，取代了自动驾驶1.0时代需要手工构建的感知、预测和规划等独立模块。

英伟达是这条技术路径的早期开拓者，而特斯拉的FSD系统也遵循着相似的逻辑：不依赖人工设定的明确规则，而是通过不断积累的数据和持续的模型迭代，实现系统能力的渐进式提升。

尽管这种方法取得了令人瞩目的进展，但其发展瓶颈也已显现。当系统面对训练数据中罕见或完全未见的场景时，往往表现得束手无策。究其根源：自动驾驶2.0本质上是数据驱动，而非推理驱动。

要突破这一局限，我们必须转向以推理为核心的新架构。

这个即将到来的新阶段——自动驾驶3.0，旨在打造这样的系统：它不仅能够从历史数据中学习，更能在实际运行中进行逻辑推断、提出合理假设，并动态调整自身行为。

自动驾驶3.0的四大支柱

推理能力

推理的实质是在运行过程中动态创造新知识，这是一种基于理解的推断能力，而非简单的模式匹配。它使系统能够建立假设、推演不同方案的可能结果，并在信息不完备的情况下做出符合因果关系的决策。

即使在那些不需要复杂推理的场景中，这种能力也能显著提高数据的利用效率，降低对大规模重复训练的依赖。

常识性认知

一个具备推理能力的智能系统，必须掌握人类在日常生活中积累的那些不言自明的知识——我们称之为常识。它需要懂得“雨天路滑应提前减速”、“行人徘徊在斑马线旁可能准备过马路”，以及“车辆在出口车道减速很可能是要驶离高速”。

长时程记忆

真实的驾驶决策建立在数分钟的时间维度上，而非单个瞬间。

一个合格的驾驶系统必须能够记住刚刚发生的事件（比如前方道路突然封闭，或者旁边车辆强行并线），并据此调整后续的驾驶策略。这就要求系统具备持续存在的长时程记忆，能够在整个行驶过程中保持对环境和决策上下文的理解。

解释与交互

自动驾驶绝不能停留在“黑箱”状态。为了赢得用户信任，系统必须能够解释自己的行为逻辑（例如，“我减速是因为检测到前车刹车灯亮起”），同时理解人类的自然指令（比如，“在下一个路口的咖啡店停车”）。解释能力建立透明与信任，交互能力则让机器智能真正为人所用。

从代码，到数据，再到推理

自动驾驶的决策体系的演进经历了三个鲜明的阶段：

自动驾驶1.0是代码优先：这一阶段的决策逻辑完全由工程师手动编写——成千上万行的“如果-那么”规则、启发式判断与优化算法，构成了系统的“大脑”。虽然能在特定场景下有效运转，但整体系统脆弱且僵硬。
自动驾驶2.0转向数据优先：基于庞大车队收集的真实驾驶数据所训练的端到端模型，逐步接管了各个驾驶模块。系统驾驶风格因此变得更平滑、更类人，但其智能本质上仍是对所见数据的“高级模仿”，难以超越训练集的范围。
自动驾驶3.0将是推理优先：模型不再仅仅记忆数据，而是开始内化驾驶规则、理解事件间的因果关系，并有效利用记忆进行思考。这将赋予系统真正的“外推”能力——即使面对从未见过的场景，也能基于理解做出合理的决策。

如果说2.0的精髓是“熟能生巧”，那么3.0的目标就是“融会贯通”。

这一范式转变已初现端倪。英伟达在2025年10月发布的Alpamayo-R1模型，便将显式的因果推理与轨迹规划整合进一个统一的VLA架构中。无独有偶，特斯拉在ICCV 2025及近期财报会上也明确表示，其下一代FSD系统将是一个端到端且推理增强的驾驶智能体。

这些不约而同的战略转向，昭示着一个新共识：自动驾驶的未来，正从“用数据打补丁”迈向“用推理求突破”。

为什么语言至关重要

虽然推理能力本身不局限于语言，但在现有的所有信息模态中，语言无疑是技术最成熟、控制最精准、且扩展性最强的载体。大语言模型的出现，已经将语言从单纯的交流工具，升维为一个支撑智能的基础设施——这套设施已经初步具备了实现自动驾驶3.0所需的核心能力。

推理：大语言模型是第一批展现出“涌现”推理能力的人工智能系统。尽管多模态推理的研究日新月异，语言在其中依然扮演着不可替代的“思维骨架”角色。

常识：语言是我们通往人类集体智慧最宽广的桥梁。大语言模型是目前唯一能成功从互联网级别的数据中，有效提炼出人类常识的知识蒸馏系统。相比之下，视觉等模态的预训练至今仍面临“能识别，难理解”的瓶颈。

记忆：语言天然是经验的容器。瞬息万变的驾驶体验，可以通过语言被凝结成一段段可追溯、可解读的“叙事日志”。系统能够随时调阅这些持续滚动的上下文，就像现代智能体框架（如LangGraph）通过分层摘要和检索来高效管理记忆一样。

解释与交互：语言生来就具备可解释的基因。一个统一的语言接口，就能完成决策解释、指令遵从、意图对齐等一系列关键任务，让机器与人的协作变得自然流畅。

语言或许不是自动驾驶的“终极答案”，但它无疑是当下最可行的路径。它为我们搭建并验证“推理优先”的系统架构，提供了一条清晰且坚实的工程栈道。

人类语言并非偶然的造物，而是数百万年认知进化锤炼出的工具。正如研究员姚顺雨所言：“语言是人类为了泛化而发明的工具。”

在大语言模型的推动下，它已成为我们构建认知系统最得力的接口。即便未来具身AGI会引入新的交互模态，语言也仍将作为智能的核心骨架，是所有理解得以构建、分享与传承的基础。

认清语言的边界

当然，语言并非自动驾驶的万能钥匙。它善于处理高层决策，例如规避高风险行为（如快速变道加塞、跟车太近不刹车），也能理解复杂的长尾场景（道路封锁、临时标志）。

然而，语言模型难以解决细微的运动控制控制问题，比如在湿滑路面上精确控制刹车，或在急弯中规划最优轨迹。这类问题仍需在自动驾驶2.0的框架下，通过高质量的数据驱动方法来解决。

一言以蔽之：我们必须在2.0的层面上把“车开稳”，才能在3.0的层面上让“车开好”。

跳出局部最优

到了“推理时代”，我们需要的数据也变了。不再是同一种情况的无限重复，而是富含推理过程的数据：

决策背后的思考链条：不仅记录行为，更要捕捉人类做出该决策的完整推理过程；
语言引导的示范教学：通过自然语言指令，演示如何在不同情境中分析、判断与执行；
反事实推演训练：系统性地探讨“如果当时选择另一条路径，结果会怎样”的假设性问题；
长程记忆的构建与使用：模拟人类在持续行驶过程中对关键信息的记忆、提取与运用。

这意味着，我们的核心任务从标注“发生了什么”，转变为解读“为何这样发生”。

如果你也身处自动驾驶或具身智能领域，现在也许是时候审视自己的技术路线了：

我们是否陷入了“用数据解决数据问题”的循环？
系统的“情境记忆”能持续多久？它以何种方式影响后续决策？
假如我们停止无休止的数据修补，转向构建真正的推理能力，整个系统会发生怎样的质变？

自动驾驶的下一轮突破，不会来自又一个更大的数据集。现在，或许正是我们共同跳出这个舒适区的时刻。

致谢

感谢与赵京伟（小米）、陈龙（前Wayve，现小米）、詹锟（理想汽车）和José Álvarez（英伟达）的深入交流，他们的见解为本文提供了重要启发。

参考资料

The Physical Turing Test: Jim Fan on Nvidia's Roadmap for Embodied AI

张小珺Jùn｜商业访谈录: 对OpenAI姚顺雨3小时访谈：6年Agent研究、人与系统、吞噬的边界、既单极又多元的世界

Ilya Sutskever full talk at NeurIPS 2024 Vancouver 15/12/2024

Cognitive Architectures for Language Agents

ReAct: Synergizing Reasoning and Acting in Language Models, ICLR 2023

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

A Crash Course of Planning for Perception Engineers in Autonomous Driving

End to End Learning for Self-Driving Cars, Nvidia

Reimagining an autonomous vehicle, Wayve

Memory Overview, LangChain

A Brief History of Intelligence: Evolution, AI, and the Five Breakthroughs That Made Our Brains

Workshop on Knowledge-Intensive Multimodal Reasoning, ICCV 2025

Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail, Nvidia

Tesla's approach to Autonomy, ICCV 2025

Tesla Q3 2025 Financial Results and Q&A Webcast

附录

长期记忆：智能驾驶的认知基石

缺乏持续的记忆，任何复杂的推理都难以立足。

让我分享一个亲身经历。在硅谷的一个夜晚，我与同事驱车返回公司时，发现主干道因夜间施工全部封闭。更麻烦的是，导航应用因数据更新延迟，提供的绕行路线完全无法通行。

我们连续尝试了两条备选路线，都在施工路障前被迫折返。最终的成功来自记忆与实时推理的协同作用：我们需要准确记住已经证实不可通行的路口，同时根据实时观察到的路况，动态优化新的行驶路径。经过十分钟的第三次尝试，我们终于找到了有效的绕行方案。

这正是人类驾驶员的优势所在：我们的决策建立在分钟级别的时间维度上，而非秒级的瞬时反应。我们能够构建并维护一个动态的“认知地图”，记住过去的经验教训，并用于指导未来的决策。

而这一点，恰恰是当前自动驾驶系统的核心短板。

主流系统普遍缺乏持续数分钟的上下文记忆能力。它们为每个瞬间独立做出判断，导致容易在相同的困境中重复失败。这正是传统“数据补丁”方法无法解决的根本问题——你不可能为所有依赖记忆和情境理解的动态场景预先准备训练数据。

解决方案或许在于语言的力量。设想一下，如果系统能够将感知到的事件（比如“Oak路口封闭”、“El Camino绕行失败”）实时转化为简洁的语言记录，形成连续的“航行日志”。那么，决策系统就获得了一个稳定、可检索、可推理的“记忆基座”。

这也揭示了全自动驾驶与通用人工智能之间的内在联系。要想在任何环境下实现人类水平的驾驶能力，系统必须掌握抽象思考、长期规划、持续记忆和社会化推理——这些能力的有机结合，在功能层面已经趋近于AGI的核心特征。