Tesla AI副总裁Ashok挠了挠脖子，心想这个不能告诉他，别想套我方案，然后回答到

睐芯科技LightSense

2025-11-13

导读：观众提问：你的模型的输出似乎是加速度和转向，你们是否生成轨迹，用于规划路径点，然后再将其转换成转向中的加速度，

观众提问：

你的模型的输出似乎是加速度和转向，你们是否生成轨迹，用于规划路径点，然后再将其转换成转向中的加速度，亦或者是这就是模型的直接输出？

Tesla AI副总裁Ashok挠了挠脖子，心想这个不能告诉他，别想套我方案，然后回答到：

我不想在这里讨论具体架构的细节，但话说回来，端到端的只要前提是梯度必须能够端到端反向传播，只要这一点成立，你可以设置中间层，也可以不设置。或者你可以预测轨迹，唯一的要求是梯度必须流入其中。学习过程，就像是从传感器流入的每一点信息都被用于决策。其他一切都是经验性的，你可以尝试不同的事情，看看什么最有效，然后为你的场景选择那个。但我想说的是，从大局来看，这没有那么重要。

以下是特斯拉在ICCV2025上的演讲的大致内容，主要内容是维度灾难，可解释性，神经网络世界模拟器。

为什么选择端到端（End-to-End）？

端到端的方法提供了几个优势，举例如下：

人类价值的编码非常困难：从数据中学习这些价值比硬编码更容易。
感知、预测和规划之间的接口不清晰：在端到端系统中，梯度可以从控制到传感器输入全程反向传播，从而整体优化整个网络。
容易扩展，能够应对真实世界机器人技术中的长尾问题。
统一计算，具有确定性延迟。
总体上，符合关于“苦涩教训”的正确扩展方向。

不过，要构建这样一个系统，仍需要克服许多挑战。接下来，我们将讨论其中的一些。

1. 维度灾难（Curse of Dimensionality）

在现实世界中安全运行，需要处理高帧率、高分辨率、长时序上下文的输入数据。
假设我们对“输入 token”的大小作出合理设定，比如一个 5×5 像素块，则输入量大致如下：

7 个摄像头 × 36 帧/秒 × 500 万像素 × 30 秒历史 / (5×5 像素块)

此外，还要包括：

几英里范围内的导航地图与路线信息
100Hz 的运动学数据（速度、IMU、里程计等）
48kHz 的音频数据总计约 20 亿个输入 token。神经网络必须学习到正确的因果映射，将这 20 亿个输入压缩为仅 2 个输出 token——车辆的下一步转向角和加速度。

在不学习到虚假相关的前提下掌握正确因果关系，是一个极具挑战的问题。幸运的是，特斯拉拥有来自其车队的海量数据。整个车队每天生成的数据，相当于人类 500 年驾驶时长的积累。当然，并非所有数据都值得使用，也不可能全部导入训练。因此，特斯拉构建了复杂的数据引擎管线，用以挑选出最有代表性、最丰富且质量最高的数据样本。

2. 可解释性与安全保障（Interpretability and Safety Guarantees）

调试这样一个端到端系统在车辆表现与预期不符时可能会比较困难。
但在实际应用中，这并不是一个严重的问题，因为模型也能生成可解释的中间 token。
这些中间 token 在不同情境下还能被用作推理 token，帮助分析和解释模型的决策过程。

这张图展示了特斯拉的端到端网络结构及其可解释输出的原理。 (1) 输入端：

摄像头视频（Camera videos）
导航地图（Navigation maps）
车辆运动学数据（Vehicle kinematics）
音频数据（Audio）
…（其他输入信号）这些多模态信息共同输入一个大型神经网络（Large Neural Network）。

(2) 输出端模型在预测车辆的下一步动作（Next action的同时，也会生成多个可解释的中间任务结果，作为推理的一部分（Reasoning），包括：

全景分割（Panoptic Segmentation）：场景中物体及区域的完整语义划分；
三维占据（3D Occupancy）：环境的空间占据状态建模；
三维高斯点云（3D Gaussians）：场景的几何重建；
语言理解（Language）：语言或符号层面的推理任务；
…（其他辅助预测任务）

这些“多任务输出”既是模型的内部推理线索，也能用于外部分析和可视化，形成可解释的 AI 决策结构。

其中一个任务是特斯拉的生成式高斯散点（Generative Gaussian Splatting）。虽然3D 高斯散点在近几年计算机视觉领域取得了巨大进展，但它的良好性能依赖于相机视角之间较大的基线差。然而，车辆在行驶中的典型运动轨迹往往是相当线性的，这就导致在这种条件下运行传统的高斯散点方法时，重建质量较差，特别是在从新的视角进行重建时。此外，这些三维高斯点云还需要从其他管线中获得良好的初始化，而整个优化过程通常需要耗时数十分钟。相比之下，特斯拉的生成式高斯散点具有极强的泛化能力，运行速度约为 220 毫秒，不需要初始化，能够建模动态物体，并且可以与端到端 AI 模型联合训练。值得注意的是，这些高斯点云完全基于量产车上摄像头配置生成。除了三维几何之外，推理（reasoning）还可以通过自然语言结合视频语义的方式进行。
这意味着模型不仅能理解场景中的空间结构，还能用语言形式表达对场景的逻辑推断与解释。一个规模较小的版本已经在 FSD v14.x中运行。

3. 评估（Evaluation）

最后也是最具挑战性的环节是评估。即使拥有高质量的数据集，开放环预测（open-loop prediction）的损失函数结果也未必能与真实世界中的表现高度相关。
评估必须具备多样性（diverse）与模式覆盖性（mode covering），以支持快速的算法迭代。这项工作十分繁琐，需要投入大量精力以确保评估指标具有高信噪比（high signal-to-noise ratio），从而能够真正反映模型性能。

为了解决这一问题，特斯拉开发了一个神经世界模拟器。该模拟器基于特斯拉所整理的同一庞大数据集进行训练。但它与传统预测模型不同：

传统模型预测的是“在当前状态下的动作”；
而神经世界模拟器预测的是“在当前状态与下一个动作给定的情况下，世界的下一状态”。这意味着它不是输出控制信号，而是合成（synthesize）未来的传感器观测数据。然后，这个模拟器可以与策略模型（policy AI model）或智能体（agent）连接，形成闭环结构（closed-loop fashion），用于评估整个系统的性能。

说到模拟器，我做了个穷人版的仿真器，欢迎使用：

为了降低算法开发和学习的门槛，我做了一个开源项目和网站

【声明】内容源于网络

睐芯科技LightSense

1234

内容 795

粉丝 0

睐芯科技LightSense 1234

总阅读1.8k

粉丝0

内容795