观众提问:
你的模型的输出似乎是加速度和转向,你们是否生成轨迹,用于规划路径点,然后再将其转换成转向中的加速度,亦或者是这就是模型的直接输出?
Tesla AI副总裁Ashok挠了挠脖子,心想这个不能告诉他,别想套我方案,然后回答到:
我不想在这里讨论具体架构的细节,但话说回来,端到端的只要前提是梯度必须能够端到端反向传播,只要这一点成立,你可以设置中间层,也可以不设置。或者你可以预测轨迹,唯一的要求是梯度必须流入其中。学习过程,就像是从传感器流入的每一点信息都被用于决策。其他一切都是经验性的,你可以尝试不同的事情,看看什么最有效,然后为你的场景选择那个。但我想说的是,从大局来看,这没有那么重要。
以下是特斯拉在ICCV2025上的演讲的大致内容,主要内容是维度灾难,可解释性,神经网络世界模拟器。
为什么选择端到端(End-to-End)?
端到端的方法提供了几个优势,举例如下:
-
人类价值的编码非常困难:从数据中学习这些价值比硬编码更容易。 -
感知、预测和规划之间的接口不清晰:在端到端系统中,梯度可以从控制到传感器输入全程反向传播,从而整体优化整个网络。 -
容易扩展,能够应对真实世界机器人技术中的长尾问题。 -
统一计算,具有确定性延迟。 -
总体上,符合关于“苦涩教训”的正确扩展方向。
不过,要构建这样一个系统,仍需要克服许多挑战。接下来,我们将讨论其中的一些。
1. 维度灾难(Curse of Dimensionality)
在现实世界中安全运行,需要处理高帧率、高分辨率、长时序上下文的输入数据。
假设我们对“输入 token”的大小作出合理设定,比如一个 5×5 像素块,则输入量大致如下:
7 个摄像头 × 36 帧/秒 × 500 万像素 × 30 秒历史 / (5×5 像素块)
此外,还要包括:
-
几英里范围内的导航地图与路线信息 -
100Hz 的运动学数据(速度、IMU、里程计等) -
48kHz 的音频数据 总计约 20 亿个输入 token。 神经网络必须学习到正确的因果映射,将这 20 亿个输入压缩为仅 2 个输出 token——车辆的下一步转向角和加速度。
在不学习到虚假相关的前提下掌握正确因果关系,是一个极具挑战的问题。幸运的是,特斯拉拥有来自其车队的海量数据。 整个车队每天生成的数据,相当于人类 500 年驾驶时长 的积累。 当然,并非所有数据都值得使用,也不可能全部导入训练。 因此,特斯拉构建了复杂的数据引擎管线,用以挑选出最有代表性、最丰富且质量最高的数据样本。
2. 可解释性与安全保障(Interpretability and Safety Guarantees)
调试这样一个端到端系统在车辆表现与预期不符时可能会比较困难。
但在实际应用中,这并不是一个严重的问题,因为模型也能生成可解释的中间 token。
这些中间 token 在不同情境下还能被用作推理 token,帮助分析和解释模型的决策过程。
这张图展示了特斯拉的端到端网络结构及其可解释输出的原理。 (1) 输入端:
-
摄像头视频(Camera videos) -
导航地图(Navigation maps) -
车辆运动学数据(Vehicle kinematics) -
音频数据(Audio) -
…(其他输入信号) 这些多模态信息共同输入一个大型神经网络(Large Neural Network)。
(2) 输出端 模型在预测车辆的下一步动作(Next action的同时, 也会生成多个可解释的中间任务结果,作为推理的一部分(Reasoning),包括:
-
全景分割(Panoptic Segmentation):场景中物体及区域的完整语义划分; -
三维占据(3D Occupancy):环境的空间占据状态建模; -
三维高斯点云(3D Gaussians):场景的几何重建; -
语言理解(Language):语言或符号层面的推理任务; -
…(其他辅助预测任务)
这些“多任务输出”既是模型的内部推理线索,也能用于外部分析和可视化, 形成可解释的 AI 决策结构。
其中一个任务是特斯拉的生成式高斯散点(Generative Gaussian Splatting)。虽然3D 高斯散点在近几年计算机视觉领域取得了巨大进展,但它的良好性能依赖于相机视角之间较大的基线差。 然而,车辆在行驶中的典型运动轨迹往往是相当线性的,这就导致在这种条件下运行传统的高斯散点方法时,重建质量较差,特别是在从新的视角进行重建时。 此外,这些三维高斯点云还需要从其他管线中获得良好的初始化,而整个优化过程通常需要耗时数十分钟。相比之下,特斯拉的生成式高斯散点具有极强的泛化能力, 运行速度约为 220 毫秒,不需要初始化, 能够建模动态物体,并且可以与端到端 AI 模型联合训练。值得注意的是,这些高斯点云完全基于量产车上摄像头配置生成。 除了三维几何之外,推理(reasoning)还可以通过自然语言结合视频语义的方式进行。
这意味着模型不仅能理解场景中的空间结构,还能用语言形式表达对场景的逻辑推断与解释。一个规模较小的版本已经在 FSD v14.x中运行。
3. 评估(Evaluation)
最后也是最具挑战性的环节是评估。 即使拥有高质量的数据集,开放环预测(open-loop prediction)的损失函数结果也未必能与真实世界中的表现高度相关。
评估必须具备多样性(diverse)与模式覆盖性(mode covering), 以支持快速的算法迭代。这项工作十分繁琐, 需要投入大量精力以确保评估指标具有高信噪比(high signal-to-noise ratio), 从而能够真正反映模型性能。
为了解决这一问题,特斯拉开发了一个神经世界模拟器。 该模拟器基于特斯拉所整理的同一庞大数据集进行训练。但它与传统预测模型不同:
-
传统模型预测的是“在当前状态下的动作”; -
而神经世界模拟器预测的是“在当前状态与下一个动作给定的情况下,世界的下一状态”。 这意味着它不是输出控制信号,而是合成(synthesize)未来的传感器观测数据。 然后,这个模拟器可以与策略模型(policy AI model)或智能体(agent)连接, 形成闭环结构(closed-loop fashion),用于评估整个系统的性能。

