大数跨境
0
0

Tesla AI副总裁Ashok挠了挠脖子,心想这个不能告诉他,别想套我方案,然后回答到

Tesla AI副总裁Ashok挠了挠脖子,心想这个不能告诉他,别想套我方案,然后回答到 睐芯科技LightSense
2025-11-13
9
导读:观众提问:你的模型的输出似乎是加速度和转向,你们是否生成轨迹,用于规划路径点,然后再将其转换成转向中的加速度,

观众提问:

你的模型的输出似乎是加速度和转向,你们是否生成轨迹,用于规划路径点,然后再将其转换成转向中的加速度,亦或者是这就是模型的直接输出?

Tesla AI副总裁Ashok挠了挠脖子,心想这个不能告诉他,别想套我方案,然后回答到:

我不想在这里讨论具体架构的细节,但话说回来,端到端的只要前提是梯度必须能够端到端反向传播,只要这一点成立,你可以设置中间层,也可以不设置。或者你可以预测轨迹,唯一的要求是梯度必须流入其中。学习过程,就像是从传感器流入的每一点信息都被用于决策。其他一切都是经验性的,你可以尝试不同的事情,看看什么最有效,然后为你的场景选择那个。但我想说的是,从大局来看,这没有那么重要。

以下是特斯拉在ICCV2025上的演讲的大致内容,主要内容是维度灾难,可解释性,神经网络世界模拟器。

为什么选择端到端(End-to-End)?

端到端的方法提供了几个优势,举例如下:

  • 人类价值的编码非常困难:从数据中学习这些价值比硬编码更容易。
  • 感知、预测和规划之间的接口不清晰:在端到端系统中,梯度可以从控制到传感器输入全程反向传播,从而整体优化整个网络。
  • 容易扩展,能够应对真实世界机器人技术中的长尾问题。
  • 统一计算,具有确定性延迟。
  • 总体上,符合关于“苦涩教训”的正确扩展方向。

不过,要构建这样一个系统,仍需要克服许多挑战。接下来,我们将讨论其中的一些。

1. 维度灾难(Curse of Dimensionality)

在现实世界中安全运行,需要处理高帧率、高分辨率、长时序上下文的输入数据。
假设我们对“输入 token”的大小作出合理设定,比如一个 5×5 像素块,则输入量大致如下:

7 个摄像头 × 36 帧/秒 × 500 万像素 × 30 秒历史 / (5×5 像素块)

此外,还要包括:

  • 几英里范围内的导航地图与路线信息
  • 100Hz 的运动学数据(速度、IMU、里程计等)
  • 48kHz 的音频数据 总计约 20 亿个输入 token。 神经网络必须学习到正确的因果映射,将这 20 亿个输入压缩为仅 2 个输出 token——车辆的下一步转向角和加速度。

在不学习到虚假相关的前提下掌握正确因果关系,是一个极具挑战的问题。幸运的是,特斯拉拥有来自其车队的海量数据。  整个车队每天生成的数据,相当于人类 500 年驾驶时长 的积累。  当然,并非所有数据都值得使用,也不可能全部导入训练。  因此,特斯拉构建了复杂的数据引擎管线,用以挑选出最有代表性、最丰富且质量最高的数据样本。

2. 可解释性与安全保障(Interpretability and Safety Guarantees)

调试这样一个端到端系统在车辆表现与预期不符时可能会比较困难。
但在实际应用中,这并不是一个严重的问题,因为模型也能生成可解释的中间 token。
这些中间 token 在不同情境下还能被用作推理 token,帮助分析和解释模型的决策过程。

这张图展示了特斯拉的端到端网络结构及其可解释输出的原理。 (1) 输入端:

  • 摄像头视频(Camera videos)
  • 导航地图(Navigation maps)
  • 车辆运动学数据(Vehicle kinematics)
  • 音频数据(Audio)
  • …(其他输入信号) 这些多模态信息共同输入一个大型神经网络(Large Neural Network)。

(2) 输出端 模型在预测车辆的下一步动作(Next action的同时,  也会生成多个可解释的中间任务结果,作为推理的一部分(Reasoning),包括:

  • 全景分割(Panoptic Segmentation):场景中物体及区域的完整语义划分;
  • 三维占据(3D Occupancy):环境的空间占据状态建模;
  • 三维高斯点云(3D Gaussians):场景的几何重建;
  • 语言理解(Language):语言或符号层面的推理任务;
  • …(其他辅助预测任务)

这些“多任务输出”既是模型的内部推理线索,也能用于外部分析和可视化,  形成可解释的 AI 决策结构。

其中一个任务是特斯拉的生成式高斯散点(Generative Gaussian Splatting)。虽然3D 高斯散点在近几年计算机视觉领域取得了巨大进展,但它的良好性能依赖于相机视角之间较大的基线差。  然而,车辆在行驶中的典型运动轨迹往往是相当线性的,这就导致在这种条件下运行传统的高斯散点方法时,重建质量较差,特别是在从新的视角进行重建时。 此外,这些三维高斯点云还需要从其他管线中获得良好的初始化,而整个优化过程通常需要耗时数十分钟。相比之下,特斯拉的生成式高斯散点具有极强的泛化能力,  运行速度约为 220 毫秒,不需要初始化,  能够建模动态物体,并且可以与端到端 AI 模型联合训练。值得注意的是,这些高斯点云完全基于量产车上摄像头配置生成。 除了三维几何之外,推理(reasoning)还可以通过自然语言结合视频语义的方式进行。
这意味着模型不仅能理解场景中的空间结构,还能用语言形式表达对场景的逻辑推断与解释。一个规模较小的版本已经在 FSD v14.x中运行。

3. 评估(Evaluation)

最后也是最具挑战性的环节是评估。  即使拥有高质量的数据集,开放环预测(open-loop prediction)的损失函数结果也未必能与真实世界中的表现高度相关。
评估必须具备多样性(diverse)与模式覆盖性(mode covering),  以支持快速的算法迭代。这项工作十分繁琐,  需要投入大量精力以确保评估指标具有高信噪比(high signal-to-noise ratio),  从而能够真正反映模型性能。

为了解决这一问题,特斯拉开发了一个神经世界模拟器。  该模拟器基于特斯拉所整理的同一庞大数据集进行训练。但它与传统预测模型不同:

  • 传统模型预测的是“在当前状态下的动作”;
  • 而神经世界模拟器预测的是“在当前状态与下一个动作给定的情况下,世界的下一状态”。 这意味着它不是输出控制信号,而是合成(synthesize)未来的传感器观测数据。  然后,这个模拟器可以与策略模型(policy AI model)或智能体(agent)连接,  形成闭环结构(closed-loop fashion),用于评估整个系统的性能。

说到模拟器,我做了个穷人版的仿真器,欢迎使用:
为了降低算法开发和学习的门槛,我做了一个开源项目和网站

【声明】内容源于网络
0
0
睐芯科技LightSense
1234
内容 795
粉丝 0
睐芯科技LightSense 1234
总阅读1.8k
粉丝0
内容795