作者:刘兰个川(Patrick Liu)
作者毕业于北京大学物理学系,目前供职于英伟达自动驾驶团队,撰稿仅代表本人立场。
01
技术演进之路
自动驾驶技术这些年的进步有目共睹。
十年前,系统主要依赖2D物体检测和语义分割来理解环境。随后,单目3D检测和车道线估计技术的出现,让系统能从单一摄像头中推断出深度与结构。发展到今天,多摄像头鸟瞰图感知技术(Multi-Camera BEV Perception)已经能将车辆周身环境融合成一个无缝的360度全景画面。
“看”得越准,便“想”得越远。
感知能力的进步也带动了预测和规划模块的发展。端到端驾驶系统应运而生,它能将视觉信号直接映射为控制指令,其驾驶表现比传统的规则系统更平滑、更自然,也更接近真人。
这一切的背后,都离不开一个核心引擎:数据飞轮。其运作流程“部署→路测→挖掘→训练→再部署”构成了一个驱动系统持续进化的强力闭环。

与学术界聚焦固定数据集的研究范式不同,工业界的逻辑是让系统能力随数据规模而生长。一旦评测发现系统的薄弱环节,便能自动挖掘海量相似场景投入训练。
对于特斯拉、理想、小鹏这类拥有庞大真实车队的公司而言,这些数据正是用户日常行驶中产生的天然副产品,收集成本极低。车队的每一公里行驶,都在为模型注入新的养分。
特斯拉将这一模式发挥到了极致:通过数百万辆行驶中的车辆,它构建了人类历史上可能规模最庞大的现实世界机器学习闭环。这一闭环或许确实能将安全水平提升至超越人类驾驶员的平均值,但其底层逻辑并未改变:系统的能力源于对大量数据的记忆,而每一个故障案例,都依然需要一个对应的数据补丁。
这个闭环设计精巧,却也隐含着它的终极和局限。
02
数据补丁的局限与出路
如果每次遇到特殊路况,第一反应都是“堆数据”,那我们打造的终究只是一套“擅长打补丁的系统”。
这类系统看似能闯过不少复杂关卡,本质上却依赖机械记忆而非真正理解,因此难以举一反三。一旦现实场景在已有数据的边缘发生细微变化,哪怕只是光照、天气或道路布局的差异,模型就可能再度失灵——它们是训练出来的“场景专家”,却成不了灵活应变的“通用司机”。
随着自动驾驶的运营设计域(ODD)不断拓宽,需要修补的漏洞数量几乎呈指数级增长。孟买的复杂换道、柏林的高速汇入、东京的窄路调头……每个问题都要经历独立的数据采集、标注和模型迭代。系统规模确实在变大,但我们“打补丁”的速度却远远跟不上新问题出现的节奏。
更严峻的是,容易解决的场景逐渐被覆盖殆尽,剩下的往往是数据稀缺、逻辑复杂的“硬骨头”,收集成本急剧上升,最终导致系统性能陷入平台期。
曾经推动进步的海量廉价数据,如今反而成了前进的桎梏。
当前的自动驾驶系统,本质上是一本写满“如果-那么”规则的电子操作手册。在熟悉的场景中它们游刃有余,一旦跨出已知边界就显得力不从心。
它们精于重复,却弱于泛化。现有技术路线基于一个美好却脆弱的前提:所有问题都能通过“投喂”更多数据,在有限时间内解决。然而,当系统面对那些真正罕见、完全超出其训练经验的“黑天鹅”事件时,这条路径便走到了尽头。
要实现真正的全自动驾驶,我们必须转向构建具备通用法则理解能力的系统。这样的系统能够推理他车意图、洞悉因果链条、理解物理约束与社会惯例,从而突破数据本身的局限。唯有掌握这种“举一反三”的认知能力,才能系统性地解决长尾难题。
操作手册式的系统注定无法规模化,“场景专家”也永远走不出舒适区。这正是自动驾驶技术面临的局部最优困境:
我们在一条看似正确的道路上不断前进,却最终抵达了一座无法逾越的高墙之下。
03
机器人学的逆境启示
自动驾驶领域一直享受着廉价数据的“红利”,机器人学却长期面临着“数据饥荒”的考验。
正如英伟达GEAR团队负责人Jim Fan在近期演讲中指出的,如果说互联网规模的文本是大语言模型赖以发展的“化石燃料”,那么机器人学几乎是在“无米之炊”的困境中前行。这个领域依赖的是珍贵的“人力燃料”——需要专家进行繁琐的遥控操作,而机器人本身能够自主工作的时长又极为有限。
面对这种先天不足,机器人学家们被迫在算法层面寻找突破口。他们打造的模型必须具备“小样本学习”的能力:既要能消化多种传感器传来的异构信息,又要能进行跨模态的推理,还要善于从有限的真实数据中提炼出普适的规律。
这种严苛的要求,反而催生了视觉-语言-动作模型(VLA)的突破。VLA模型的精妙之处在于,它既继承了互联网预训练赋予的常识推理能力,又能将这些知识与真实的传感器观测相结合,最终转化为精准的底层控制指令。在这个过程中,语言充当了“思维链条”的角色,让机器人在行动之前能够进行必要的逻辑推演。
颇具讽刺意味的是,正是这种数据的极度稀缺,反而锻造了机器人学独特的竞争优势——在有限信息中提炼智慧的能力。当自动驾驶还在依赖数据量的堆砌时,机器人学已经走上了一条更具普适性的道路。
04
语言智能体的启示
在数字世界的另一端,语言智能体正以另一种形态快速发展。虽然它们没有物理实体,无法像自动驾驶汽车或机器人那样直接与环境交互,但它们的演进轨迹同样为我们提供了宝贵镜鉴。语言模型预训练的成功经验揭示了一个关键认知:构建真正可用的智能体是一项系统工程,其复杂程度远超训练单个模型。
CoALA框架集成了数十年认知系统研究的精华,并针对大语言模型时代进行了重新设计。这个框架清晰地勾勒出智能体的核心架构:长期记忆、工作记忆与外部环境构成的三位一体。在这个体系下,智能体通过感知获取环境信息,借助检索或推理整合知识,基于内在的决策逻辑做出判断,最终通过行动改变环境或更新自身的记忆体系。

值得深思的是,无论是模块化设计的传统自动驾驶栈,还是端到端的新一代系统,都可以纳入这个统一框架来分析。它们确实具备了智能体的基本构件——感知、记忆、决策、执行,但仔细审视就会发现一个关键缺陷:深度推理能力的缺失。
这种对比直指问题的核心:当我们在自动驾驶系统中不断追求更高的感知精度、更大的记忆容量、更优的决策规则时,是否忽略了最根本的认知能力——推理?
语言智能体的发展路径给我们敲响了警钟:真正的智能不仅在于知道“是什么”,更在于理解“为什么”。
05
自动驾驶2.0到3.0:范式跃迁
业界常将端到端的“学习型驾驶”范式称为自动驾驶2.0,其核心理念是从海量数据中直接学习驾驶能力。它用一个能够将像素直接映射为控制信号的神经网络,取代了自动驾驶1.0时代需要手工构建的感知、预测和规划等独立模块。
英伟达是这条技术路径的早期开拓者,而特斯拉的FSD系统也遵循着相似的逻辑:不依赖人工设定的明确规则,而是通过不断积累的数据和持续的模型迭代,实现系统能力的渐进式提升。
尽管这种方法取得了令人瞩目的进展,但其发展瓶颈也已显现。当系统面对训练数据中罕见或完全未见的场景时,往往表现得束手无策。究其根源:自动驾驶2.0本质上是数据驱动,而非推理驱动。
要突破这一局限,我们必须转向以推理为核心的新架构。
这个即将到来的新阶段——自动驾驶3.0,旨在打造这样的系统:它不仅能够从历史数据中学习,更能在实际运行中进行逻辑推断、提出合理假设,并动态调整自身行为。
06
自动驾驶3.0的四大支柱
推理能力
推理的实质是在运行过程中动态创造新知识,这是一种基于理解的推断能力,而非简单的模式匹配。它使系统能够建立假设、推演不同方案的可能结果,并在信息不完备的情况下做出符合因果关系的决策。
即使在那些不需要复杂推理的场景中,这种能力也能显著提高数据的利用效率,降低对大规模重复训练的依赖。
常识性认知
一个具备推理能力的智能系统,必须掌握人类在日常生活中积累的那些不言自明的知识——我们称之为常识。它需要懂得“雨天路滑应提前减速”、“行人徘徊在斑马线旁可能准备过马路”,以及“车辆在出口车道减速很可能是要驶离高速”。
长时程记忆
真实的驾驶决策建立在数分钟的时间维度上,而非单个瞬间。
一个合格的驾驶系统必须能够记住刚刚发生的事件(比如前方道路突然封闭,或者旁边车辆强行并线),并据此调整后续的驾驶策略。这就要求系统具备持续存在的长时程记忆,能够在整个行驶过程中保持对环境和决策上下文的理解。
解释与交互
自动驾驶绝不能停留在“黑箱”状态。为了赢得用户信任,系统必须能够解释自己的行为逻辑(例如,“我减速是因为检测到前车刹车灯亮起”),同时理解人类的自然指令(比如,“在下一个路口的咖啡店停车”)。解释能力建立透明与信任,交互能力则让机器智能真正为人所用。
07
从代码,到数据,再到推理
自动驾驶的决策体系的演进经历了三个鲜明的阶段:
自动驾驶1.0是代码优先:这一阶段的决策逻辑完全由工程师手动编写——成千上万行的“如果-那么”规则、启发式判断与优化算法,构成了系统的“大脑”。虽然能在特定场景下有效运转,但整体系统脆弱且僵硬。
自动驾驶2.0转向数据优先:基于庞大车队收集的真实驾驶数据所训练的端到端模型,逐步接管了各个驾驶模块。系统驾驶风格因此变得更平滑、更类人,但其智能本质上仍是对所见数据的“高级模仿”,难以超越训练集的范围。
自动驾驶3.0将是推理优先:模型不再仅仅记忆数据,而是开始内化驾驶规则、理解事件间的因果关系,并有效利用记忆进行思考。这将赋予系统真正的“外推”能力——即使面对从未见过的场景,也能基于理解做出合理的决策。
如果说2.0的精髓是“熟能生巧”,那么3.0的目标就是“融会贯通”。
这一范式转变已初现端倪。英伟达在2025年10月发布的Alpamayo-R1模型,便将显式的因果推理与轨迹规划整合进一个统一的VLA架构中。无独有偶,特斯拉在ICCV 2025及近期财报会上也明确表示,其下一代FSD系统将是一个端到端且推理增强的驾驶智能体。
这些不约而同的战略转向,昭示着一个新共识:自动驾驶的未来,正从“用数据打补丁”迈向“用推理求突破”。

08
为什么语言至关重要
虽然推理能力本身不局限于语言,但在现有的所有信息模态中,语言无疑是技术最成熟、控制最精准、且扩展性最强的载体。大语言模型的出现,已经将语言从单纯的交流工具,升维为一个支撑智能的基础设施——这套设施已经初步具备了实现自动驾驶3.0所需的核心能力。
推理:大语言模型是第一批展现出“涌现”推理能力的人工智能系统。尽管多模态推理的研究日新月异,语言在其中依然扮演着不可替代的“思维骨架”角色。
常识:语言是我们通往人类集体智慧最宽广的桥梁。大语言模型是目前唯一能成功从互联网级别的数据中,有效提炼出人类常识的知识蒸馏系统。相比之下,视觉等模态的预训练至今仍面临“能识别,难理解”的瓶颈。
记忆:语言天然是经验的容器。瞬息万变的驾驶体验,可以通过语言被凝结成一段段可追溯、可解读的“叙事日志”。系统能够随时调阅这些持续滚动的上下文,就像现代智能体框架(如LangGraph)通过分层摘要和检索来高效管理记忆一样。
解释与交互:语言生来就具备可解释的基因。一个统一的语言接口,就能完成决策解释、指令遵从、意图对齐等一系列关键任务,让机器与人的协作变得自然流畅。
语言或许不是自动驾驶的“终极答案”,但它无疑是当下最可行的路径。它为我们搭建并验证“推理优先”的系统架构,提供了一条清晰且坚实的工程栈道。
人类语言并非偶然的造物,而是数百万年认知进化锤炼出的工具。正如研究员姚顺雨所言:“语言是人类为了泛化而发明的工具。”
在大语言模型的推动下,它已成为我们构建认知系统最得力的接口。即便未来具身AGI会引入新的交互模态,语言也仍将作为智能的核心骨架,是所有理解得以构建、分享与传承的基础。
09
认清语言的边界
当然,语言并非自动驾驶的万能钥匙。它善于处理高层决策,例如规避高风险行为(如快速变道加塞、跟车太近不刹车),也能理解复杂的长尾场景(道路封锁、临时标志)。
然而,语言模型难以解决细微的运动控制控制问题,比如在湿滑路面上精确控制刹车,或在急弯中规划最优轨迹。这类问题仍需在自动驾驶2.0的框架下,通过高质量的数据驱动方法来解决。
一言以蔽之:我们必须在2.0的层面上把“车开稳”,才能在3.0的层面上让“车开好”。
10
跳出局部最优
到了“推理时代”,我们需要的数据也变了。不再是同一种情况的无限重复,而是富含推理过程的数据:
决策背后的思考链条:不仅记录行为,更要捕捉人类做出该决策的完整推理过程;
语言引导的示范教学:通过自然语言指令,演示如何在不同情境中分析、判断与执行;
反事实推演训练:系统性地探讨“如果当时选择另一条路径,结果会怎样”的假设性问题;
长程记忆的构建与使用:模拟人类在持续行驶过程中对关键信息的记忆、提取与运用。
这意味着,我们的核心任务从标注“发生了什么”,转变为解读“为何这样发生”。
如果你也身处自动驾驶或具身智能领域,现在也许是时候审视自己的技术路线了:
我们是否陷入了“用数据解决数据问题”的循环?
系统的“情境记忆”能持续多久?它以何种方式影响后续决策?
假如我们停止无休止的数据修补,转向构建真正的推理能力,整个系统会发生怎样的质变?
自动驾驶的下一轮突破,不会来自又一个更大的数据集。现在,或许正是我们共同跳出这个舒适区的时刻。
致谢
参考资料
The Physical Turing Test: Jim Fan on Nvidia's Roadmap for Embodied AI
张小珺Jùn|商业访谈录: 对OpenAI姚顺雨3小时访谈:6年Agent研究、人与系统、吞噬的边界、既单极又多元的世界
Ilya Sutskever full talk at NeurIPS 2024 Vancouver 15/12/2024
Cognitive Architectures for Language Agents
ReAct: Synergizing Reasoning and Acting in Language Models, ICLR 2023
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
A Crash Course of Planning for Perception Engineers in Autonomous Driving
End to End Learning for Self-Driving Cars, Nvidia
Reimagining an autonomous vehicle, Wayve
Memory Overview, LangChain
A Brief History of Intelligence: Evolution, AI, and the Five Breakthroughs That Made Our Brains
Workshop on Knowledge-Intensive Multimodal Reasoning, ICCV 2025
Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers
Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail, Nvidia
Tesla's approach to Autonomy, ICCV 2025
Tesla Q3 2025 Financial Results and Q&A Webcast
附录
长期记忆:智能驾驶的认知基石
缺乏持续的记忆,任何复杂的推理都难以立足。
让我分享一个亲身经历。在硅谷的一个夜晚,我与同事驱车返回公司时,发现主干道因夜间施工全部封闭。更麻烦的是,导航应用因数据更新延迟,提供的绕行路线完全无法通行。
我们连续尝试了两条备选路线,都在施工路障前被迫折返。最终的成功来自记忆与实时推理的协同作用:我们需要准确记住已经证实不可通行的路口,同时根据实时观察到的路况,动态优化新的行驶路径。经过十分钟的第三次尝试,我们终于找到了有效的绕行方案。
这正是人类驾驶员的优势所在:我们的决策建立在分钟级别的时间维度上,而非秒级的瞬时反应。我们能够构建并维护一个动态的“认知地图”,记住过去的经验教训,并用于指导未来的决策。
而这一点,恰恰是当前自动驾驶系统的核心短板。
主流系统普遍缺乏持续数分钟的上下文记忆能力。它们为每个瞬间独立做出判断,导致容易在相同的困境中重复失败。这正是传统“数据补丁”方法无法解决的根本问题——你不可能为所有依赖记忆和情境理解的动态场景预先准备训练数据。
解决方案或许在于语言的力量。设想一下,如果系统能够将感知到的事件(比如“Oak路口封闭”、“El Camino绕行失败”)实时转化为简洁的语言记录,形成连续的“航行日志”。那么,决策系统就获得了一个稳定、可检索、可推理的“记忆基座”。
这也揭示了全自动驾驶与通用人工智能之间的内在联系。要想在任何环境下实现人类水平的驾驶能力,系统必须掌握抽象思考、长期规划、持续记忆和社会化推理——这些能力的有机结合,在功能层面已经趋近于AGI的核心特征。
推荐阅读

