大数跨境
0
0

自动驾驶系统的局部最优陷阱

自动驾驶系统的局部最优陷阱 睐芯科技LightSense
2025-11-21
9
导读:曾经推动进步的海量廉价数据,如今反而成了前进的桎梏。


作者:刘兰个川(Patrick Liu

作者毕业于北京大学物理学系,目前供职于英伟达自动驾驶团队,撰稿仅代表本人立场。


01

技术演进之路



动驾驶技术这些年的进步有目共睹。

十年前,系统主要依赖2D物体检测和语义分割来理解环境。随后,单目3D检测和车道线估计技术的出现,让系统能从单一摄像头中推断出深度与结构。发展到今天,多摄像头鸟瞰图感知技术(Multi-Camera BEV Perception已经能将车辆周身环境融合成一个无缝的360度全景画面。

得越准,便得越远。

感知能力的进步也带动了预测和规划模块的发展端到端驾驶系统应运而生,它能将视觉信号直接映射为控制指令,其驾驶表现比传统的规则系统更平滑、更自然,也更接近真人。

这一切的背后,都离不开一个核心引擎:数据飞轮。其运作流程部署→路测→挖掘→训练→再部署构成了一个驱动系统持续进化的强力闭环。



图:一个2019年的典型的数据飞轮,引自Andrej Karpathy的ICML主题演讲,2025年的数据飞轮没有太大变化

与学术界聚焦固定数据集的研究范式不同,工业界的逻辑是让系统能力随数据规模而生长。一旦评测发现系统的薄弱环节,便能自动挖掘海量相似场景投入训练。

对于特斯拉、理想、小鹏这类拥有庞大真实车队的公司而言,这些数据正是用户日常行驶中产生的天然副产品,收集成本极低。车队的每一公里行驶,都在为模型注入新的养分。

特斯拉将这一模式发挥到了极致:通过数百万辆行驶中的车辆,它构建了人类历史上可能规模最庞大的现实世界机器学习闭环。这一闭环或许确实能将安全水平提升至超越人类驾驶员的平均值,但其底层逻辑并未改变:系统的能力源于对大量数据的记忆,而每一个故障案例,都依然需要一个对应的数据补丁。

这个闭环设计精巧,却也隐含着它的终极和局限。


02

数据补丁的局限与出路



如果每次遇到特殊路况,第一反应都是堆数据,那我们打造的终究只是一套“擅长打补丁的系统”

这类系统看似能闯过不少复杂关卡,本质上却依赖机械记忆而非真正理解,因此难以举一反三。一旦现实场景在已有数据的边缘发生细微变化,哪怕只是光照、天气或道路布局的差异,模型就可能再度失灵——它们是训练出来的场景专家,却成不了灵活应变的通用司机

随着自动驾驶的运营设计域(ODD)不断拓宽,需要修补的漏洞数量几乎呈指数级增长。孟买的复杂换道、柏林的高速汇入、东京的窄路调头……每个问题都要经历独立的数据采集、标注和模型迭代。系统规模确实在变大,但我们打补丁的速度却远远跟不上新问题出现的节奏。

更严峻的是,容易解决的场景逐渐被覆盖殆尽,剩下的往往是数据稀缺、逻辑复杂的硬骨头,收集成本急剧上升,最终导致系统性能陷入平台期。

曾经推动进步的海量廉价数据,如今反而成了前进的桎梏。

当前的自动驾驶系统,本质上是一本写满如果-那么规则的电子操作手册。在熟悉的场景中它们游刃有余,一旦跨出已知边界就显得力不从心。

它们精于重复,却弱于泛化。现有技术路线基于一个美好却脆弱的前提:所有问题都能通过投喂更多数据,在有限时间内解决。然而,当系统面对那些真正罕见、完全超出其训练经验的黑天鹅事件时,这条路径便走到了尽头。

要实现真正的全自动驾驶,我们必须转向构建具备通用法则理解能力的系统。这样的系统能够推理他车意图、洞悉因果链条、理解物理约束与社会惯例,从而突破数据本身的局限。唯有掌握这种举一反三的认知能力,才能系统性地解决长尾难题。

操作手册式的系统注定无法规模化,场景专家也永远走不出舒适区。这正是自动驾驶技术面临的局部最优困境

我们在一条看似正确的道路上不断前进,却最终抵达了一座无法逾越的高墙之下。



03

机器人学的逆境启示



自动驾驶领域一直享受着廉价数据的“红利”,机器人学却长期面临着“数据饥荒”的考验。

正如英伟达GEAR团队负责人Jim Fan近期演讲中指出的,如果说互联网规模的文本是大语言模型赖以发展的“化石燃料”,那么机器人学几乎是在“无米之炊”的困境中前行。这个领域依赖的是珍贵的“人力燃料”——需要专家进行繁琐的遥控操作,而机器人本身能够自主工作的时长又极为有限。

面对这种先天不足,机器人学家们被迫在算法层面寻找突破口。他们打造的模型必须具备“小样本学习”的能力:既要能消化多种传感器传来的异构信息,又要能进行跨模态的推理,还要善于从有限的真实数据中提炼出普适的规律。

这种严苛的要求,反而催生了视觉-语言-动作模型VLA)的突破。VLA模型的精妙之处在于,它既继承了互联网预训练赋予的常识推理能力,又能将这些知识与真实的传感器观测相结合,最终转化为精准的底层控制指令。在这个过程中,语言充当了“思维链条”的角色,让机器人在行动之前能够进行必要的逻辑推演。

颇具讽刺意味的是,正是这种数据的极度稀缺,反而锻造了机器人学独特的竞争优势——在有限信息中提炼智慧的能力。当自动驾驶还在依赖数据量的堆砌时,机器人学已经走上了一条更具普适性的道路。


04

语言智能体的启示



在数字世界的另一端,语言智能体正以另一种形态快速发展。虽然它们没有物理实体,无法像自动驾驶汽车或机器人那样直接与环境交互,但它们的演进轨迹同样为我们提供了宝贵镜鉴。语言模型预训练的成功经验揭示了一个关键认知:构建真正可用的智能体是一项系统工程,其复杂程度远超训练单个模型。

CoALA框架集成了数十年认知系统研究的精华,并针对大语言模型时代进行了重新设计。这个框架清晰地勾勒出智能体的核心架构:长期记忆、工作记忆与外部环境构成的三位一体。在这个体系下,智能体通过感知获取环境信息,借助检索或推理整合知识,基于内在的决策逻辑做出判断,最终通过行动改变环境或更新自身的记忆体系。



图:语言智能体的架构图,引自Cognitive Architecture of Language Agents论文

值得深思的是,无论是模块化设计的传统自动驾驶栈,还是端到端的新一代系统,都可以纳入这个统一框架来分析。它们确实具备了智能体的基本构件——感知、记忆、决策、执行,但仔细审视就会发现一个关键缺陷:深度推理能力的缺失。

这种对比直指问题的核心:当我们在自动驾驶系统中不断追求更高的感知精度、更大的记忆容量、更优的决策规则时,是否忽略了最根本的认知能力——推理?

语言智能体的发展路径给我们敲响了警钟:真正的智能不仅在于知道是什么,更在于理解为什么”。



图:各类语言智能体和自动驾驶系统的对比,扩展自Cognitive Architecture of Language Agents论文


05

自动驾驶2.03.0:范式跃迁



业界常将端到端的学习型驾驶范式称为自动驾驶2.0,其核心理念是从海量数据中直接学习驾驶能力。它用一个能够将像素直接映射为控制信号的神经网络,取代了自动驾驶1.0时代需要手工构建的感知、预测和规划等独立模块。

英伟达是这条技术路径的早期开拓者,而特斯拉的FSD系统也遵循着相似的逻辑:不依赖人工设定的明确规则,而是通过不断积累的数据和持续的模型迭代,实现系统能力的渐进式提升。

尽管这种方法取得了令人瞩目的进展,但其发展瓶颈也已显现。当系统面对训练数据中罕见或完全未见的场景时,往往表现得束手无策。究其根源:自动驾驶2.0本质上是数据驱动,而非推理驱动。

要突破这一局限,我们必须转向以推理为核心的新架构

这个即将到来的新阶段——自动驾驶3.0,旨在打造这样的系统:它不仅能够从历史数据中学习,更能在实际运行中进行逻辑推断、提出合理假设,并动态调整自身行为。


06

自动驾驶3.0的四大支柱



  • 推理能力

推理的实质是在运行过程中动态创造新知识,这是一种基于理解的推断能力,而非简单的模式匹配。它使系统能够建立假设、推演不同方案的可能结果,并在信息不完备的情况下做出符合因果关系的决策。

即使在那些不需要复杂推理的场景中,这种能力也能显著提高数据的利用效率,降低对大规模重复训练的依赖。

  • 常识性认知

一个具备推理能力的智能系统,必须掌握人类在日常生活中积累的那些不言自明的知识——我们称之为常识。它需要懂得雨天路滑应提前减速行人徘徊在斑马线旁可能准备过马路,以及车辆在出口车道减速很可能是要驶离高速

  • 长时程记忆

真实的驾驶决策建立在数分钟的时间维度上,而非单个瞬间。

一个合格的驾驶系统必须能够记住刚刚发生的事件(比如前方道路突然封闭,或者旁边车辆强行并线),并据此调整后续的驾驶策略。这就要求系统具备持续存在的长时程记忆,能够在整个行驶过程中保持对环境和决策上下文的理解。

  • 解释与交互

自动驾驶绝不能停留在黑箱状态。为了赢得用户信任,系统必须能够解释自己的行为逻辑(例如,我减速是因为检测到前车刹车灯亮起),同时理解人类的自然指令(比如,在下一个路口的咖啡店停车)。解释能力建立透明与信任,交互能力则让机器智能真正为人所用。



07

从代码,到数据,再到推理



动驾驶的决策体系的演进经历了三个鲜明的阶段:

  • 自动驾驶1.0代码优先这一阶段的决策逻辑完全由工程师手动编写——成千上万行的“如果-那么”规则、启发式判断与优化算法,构成了系统的“大脑”。虽然能在特定场景下有效运转,但整体系统脆弱且僵硬。

  • 自动驾驶2.0转向数据优先基于庞大车队收集的真实驾驶数据所训练的端到端模型,逐步接管了各个驾驶模块。系统驾驶风格因此变得更平滑、更类人,但其智能本质上仍是对所见数据的“高级模仿”,难以超越训练集的范围。

  • 动驾驶3.0将是推理优先模型不再仅仅记忆数据,而是开始内化驾驶规则、理解事件间的因果关系,并有效利用记忆进行思考。这将赋予系统真正的“外推”能力——即使面对从未见过的场景,也能基于理解做出合理的决策。

如果说2.0的精髓是熟能生巧,那3.0的目标就是融会贯通

这一范式转变已初现端倪。英伟达202510月发布的Alpamayo-R1模型,便将显式的因果推理与轨迹规划整合进一个统一的VLA架构中。无独有偶,特斯拉ICCV 2025近期财报会上也明确表示,其下一代FSD系统将是一个端到端且推理增强的驾驶智能体。

这些不约而同的战略转向,昭示着一个新共识:自动驾驶的未来,正从用数据打补丁迈向用推理求突破



08

为什么语言至关重要



虽然推理能力本身不局限于语言,但在现有的所有信息模态中,语言无疑是技术最成熟、控制最精准、且扩展性最强的载体。大语言模型的出现,已经将语言从单纯的交流工具,升维为一个支撑智能的基础设施——这套设施已经初步具备了实现自动驾驶3.0所需的核心能力。

  • 推理:大语言模型是第一批展现出涌现推理能力的人工智能系统。尽管多模态推理的研究日新月异,语言在其中依然扮演着不可替代的思维骨架角色。

  • 常识:语言是我们通往人类集体智慧最宽广的桥梁。大语言模型是目前唯一能成功从互联网级别的数据中,有效提炼出人类常识的知识蒸馏系统。相比之下,视觉等模态的预训练至今仍面临能识别,难理解的瓶颈。

  • 记忆:语言天然是经验的容器。瞬息万变的驾驶体验,可以通过语言被凝结成一段段可追溯、可解读的叙事日志。系统能够随时调阅这些持续滚动的上下文,就像现代智能体框架(如LangGraph)通过分层摘要和检索来高效管理记忆一样。

  • 解释与交互:语言生来就具备可解释的基因。一个统一的语言接口,就能完成决策解释、指令遵从、意图对齐等一系列关键任务,让机器与人的协作变得自然流畅。

语言或许不是自动驾驶的终极答案,但它无疑是当下最可行的路径。它为我们搭建并验证推理优先的系统架构,提供了一条清晰且坚实的工程栈道。

人类语言并非偶然的造物,而是数百万年认知进化锤炼出的工具。正如研究员姚顺雨所言语言是人类为了泛化而发明的工具。

在大语言模型的推动下,它已成为我们构建认知系统最得力的接口。即便未来具身AGI会引入新的交互模态,语言也仍将作为智能的核心骨架,是所有理解得以构建、分享与传承的基础。


09

认清语言的边界



当然,语言并非自动驾驶的万能钥匙。它善于处理高层决策,例如规避高风险行为(如快速变道加塞、跟车太近不刹车),也能理解复杂的长尾场景(道路封锁、临时标志)。

然而,语言模型难以解决细微的运动控制控制问题,比如在湿滑路面上精确控制刹车,或在急弯中规划最优轨迹。这类问题仍需在自动驾驶2.0的框架下,通过高质量的数据驱动方法来解决。

一言以蔽之:我们必须在2.0的层面上把车开稳,才能在3.0的层面上让车开好


10

跳出局部最优



到了推理时代,我们需要的数据也变了。不再是同一种情况的无限重复,而是富含推理过程的数据

  • 决策背后的思考链条:不仅记录行为,更要捕捉人类做出该决策的完整推理过程;

  • 语言引导的示范教学:通过自然语言指令,演示如何在不同情境中分析、判断与执行;

  • 反事实推演训练:系统性地探讨如果当时选择另一条路径,结果会怎样的假设性问题;

  • 长程记忆的构建与使用:模拟人类在持续行驶过程中对关键信息的记忆、提取与运用。

这意味着,我们的核心任务从标注发生了什么,转变为解读为何这样发生

如果你也身处自动驾驶或具身智能领域,现在也许是时候审视自己的技术路线了:

  • 我们是否陷入了用数据解决数据问题的循环?

  • 系统的情境记忆能持续多久?它以何种方式影响后续决策?

  • 假如我们停止无休止的数据修补,转向构建真正的推理能力,整个系统会发生怎样的质变?

自动驾驶的下一轮突破,不会来自又一个更大的数据集。现在,或许正是我们共同跳出这个舒适区的时刻。


致谢

感谢与赵京伟(小米)、陈龙(前Wayve,现小米)、詹锟(理想汽车)和José Álvarez(英伟达)的深入交流,他们的见解为本文提供了重要启发。

参考资料

    The Physical Turing Test: Jim Fan on Nvidia's Roadmap for Embodied AI

    张小珺Jùn|商业访谈录: 对OpenAI姚顺雨3小时访谈:6年Agent研究、人与系统、吞噬的边界、既单极又多元的世界

    Ilya Sutskever full talk at NeurIPS 2024 Vancouver 15/12/2024

    Cognitive Architectures for Language Agents

    ReAct: Synergizing Reasoning and Acting in Language Models, ICLR 2023

    RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

    A Crash Course of Planning for Perception Engineers in Autonomous Driving

    End to End Learning for Self-Driving Cars, Nvidia

    Reimagining an autonomous vehicle, Wayve

    Memory Overview, LangChain

    A Brief History of Intelligence: Evolution, AI, and the Five Breakthroughs That Made Our Brains

    Workshop on Knowledge-Intensive Multimodal Reasoning, ICCV 2025

    Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

    Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail, Nvidia

    Tesla's approach to Autonomy, ICCV 2025

    Tesla Q3 2025 Financial Results and Q&A Webcast


    附录

    长期记忆:智能驾驶的认知基石



    缺乏持续的记忆,任何复杂的推理都难以立足。

    让我分享一个亲身经历。在硅谷的一个夜晚,我与同事驱车返回公司时,发现主干道因夜间施工全部封闭。更麻烦的是,导航应用因数据更新延迟,提供的绕行路线完全无法通行。

    我们连续尝试了两条备选路线,都在施工路障前被迫折返。最终的成功来自记忆与实时推理的协同作用:我们需要准确记住已经证实不可通行的路口,同时根据实时观察到的路况,动态优化新的行驶路径。经过十分钟的第三次尝试,我们终于找到了有效的绕行方案。

    这正是人类驾驶员的优势所在:我们的决策建立在分钟级别的时间维度上,而非秒级的瞬时反应。我们能够构建并维护一个动态的认知地图,记住过去的经验教训,并用于指导未来的决策。

    而这一点,恰恰是当前自动驾驶系统的核心短板。

    主流系统普遍缺乏持续数分钟的上下文记忆能力。它们为每个瞬间独立做出判断,导致容易在相同的困境中重复失败。这正是传统数据补丁方法无法解决的根本问题——你不可能为所有依赖记忆和情境理解的动态场景预先准备训练数据。

    解决方案或许在于语言的力量。设想一下,如果系统能够将感知到的事件(比如“Oak路口封闭“El Camino绕行失败)实时转化为简洁的语言记录,形成连续的航行日志。那么,决策系统就获得了一个稳定、可检索、可推理的记忆基座

    这也揭示了全自动驾驶与通用人工智能之间的内在联系。要想在任何环境下实现人类水平的驾驶能力,系统必须掌握抽象思考、长期规划、持续记忆和社会化推理——这些能力的有机结合,在功能层面已经趋近于AGI的核心特征。


    推荐阅读





    【声明】内容源于网络
    0
    0
    睐芯科技LightSense
    1234
    内容 795
    粉丝 0
    睐芯科技LightSense 1234
    总阅读1.8k
    粉丝0
    内容795