大数跨境
0
0

FSDrive入选NeurIPS 2025 Spotlight | 自动驾驶迎来“视觉思考”新范式:基于时空思维链的规划方法

FSDrive入选NeurIPS 2025 Spotlight | 自动驾驶迎来“视觉思考”新范式:基于时空思维链的规划方法 极市平台
2025-09-22
0
↑ 点击蓝字 关注极市平台
编辑丨极市平台

极市导读

 

FSDrive首创“时空思维链”让自动驾驶模型跳过文本中转,直接生成未来场景图完成视觉预演,在nuScenes规划任务拿下SOTA轨迹精度,同时保持高保真图像生成与场景理解能力。>>加入极市CV技术交流群,走在计算机视觉的最前沿

引言

如何让自动驾驶系统像经验丰富的人类驾驶员一样,具备对复杂动态交通场景的直觉式预判与决策能力?这是该领域追求的终极目标之一。近年来,功能强大的视觉语言模型(VLM)为实现这一目标带来了曙光,但其主流的“思考”方式仍存在瓶颈。

当前的VLM在进行规划决策时,大多依赖于一种基于离散文本的“思维链”(Chain-of-Thought, CoT)。模型将连续、高维的视觉感知信息(如图像)压缩成抽象的语言符号(如“前方有车”)和坐标,再进行逻辑推理。这种“先看再写,然后思考”的模式,不仅会造成关键时空信息的损失,还引入了不必要的模态转换鸿沟,限制了其在真实世界中做出精准、可靠决策的潜力。

我们不禁要问:自动驾驶的“思考”过程,是否能更接近人类的思维模式——直接在脑海中进行场景的视觉化模拟与预演,而非依赖纯粹的符号逻辑推演?

为此,我们重磅推出全新的自动驾驶框架 FSDrive (FutureSightDrive)。其核心是一种创新的时空思维链(Spatio-temporal Chain-of-Thought, S-CoT)推理范式,赋予模型进行“视觉化预演”的能力,从而做出更直观、更安全的驾驶规划。

  • 项目主页https://miv-xjtu.github.io/FSDrive.github.io/
  • 论文链接https://arxiv.org/abs/2505.17685
  • 代码链接https://github.com/MIV-XJTU/FSDrive

关键词:视觉语言动作模型 (VLA)、世界模型 (World Model)、视觉推理、时空思维链 (Spatio-temporal CoT)、自动驾驶

图1:不同思维链(CoT)对比。传统文本CoT(上)信息抽象;图文CoT(中)存在模态不一致问题;我们提出的时空CoT(下)以统一的视觉形式表征未来,更直观、信息更丰富

01 核心创新:从“文字复述”到“视觉预演”

传统VLM的决策链路可以概括为“视觉→文本→推理”。这种模式的弊端在于:

  1. 信息压缩与损耗:将丰富的视觉信息强制编码为离散的文字,会丢失大量关于物体纹理、光照、精确相对位置等细粒度信息。
  2. 模态转换鸿沟:在不同模态间反复转换,容易引入语义偏差,影响推理的准确性。

FSDrive另辟蹊径,提出时空思维链 (S-CoT)。它不再生成中间文本,而是直接在“脑海”中生成一幅包含丰富时空信息的“未来统一图像”作为思考步骤。这幅“思考图”巧妙地融合了:

  • 时间维度:通过生成未来场景的像素内容,模拟场景随时间的动态演变。
  • 空间维度:将未来的关键感知结果,如车道线3D障碍物边界框,以红色线条的形式直接绘制在生成的图像上,明确未来世界的空间结构。

这幅“思考图”让VLM身兼二职:

  • 作为世界模型 (World Model) :通过生成该图像,VLM对未来世界的时空状态(可行驶区域、物体位置与动态)进行全面预测。
  • 作为逆动力学模型 (Inverse Dynamics Model) :VLM根据当前观测和自己生成的“未来思考图”,反向推理出实现这一理想未来所应执行的最佳轨迹。

FSDrive藉此构建了一个端到端的视觉因果推理闭环,让模型在统一的视觉空间内完成“观察→思考→决策”全过程,从根本上解决了信息损耗和模态鸿沟问题。

02 技术实现:如何唤醒VLM的“视觉想象力”

为了让以理解见长的VLM具备生成高保真图像的“想象力”,我们设计了一套高效的训练范式:

  1. 统一视觉生成与理解的预训练:我们提出了一种新颖的预训练范式。通过对现有VLM词表进行微量扩展,我们成功激活了其潜藏的视觉生成能力,且此过程成本极低,并完整保留了其强大的语义理解能力。
  2. 由简到繁的渐进式生成:直接生成复杂的未来场景极易出错且可能违背物理规律。为此,我们设计了一种渐进式生成策略:在预训练阶段,模型首先学习生成代表物理约束的场景“骨架”(即车道线和3D检测框),再基于此骨架“填充”场景细节。这种由粗到精的生成过程,显著提升了预测结果的物理真实感和准确性。
图2:FSDrive整体框架。左侧为统一的预训练阶段,右侧为推理阶段。模型通过生成时空CoT进行视觉化思考,并最终输出轨迹规划
图2:FSDrive整体框架。左侧为统一的预训练阶段,右侧为推理阶段。模型通过生成时空CoT进行视觉化思考,并最终输出轨迹规划

03 实验验证:性能全面领先

我们在轨迹规划、未来场景生成和场景理解三大核心任务上对FSDrive进行了全面评估,结果证明了其卓越的性能。

3.1 SOTA的规划性能

在nuScenes数据集的轨迹规划任务上,FSDrive在L2误差和碰撞率等关键安全指标上均取得了当前最佳(SOTA)性能,充分验证了“视觉思考”对于提升规划安全性和准确性的巨大价值。

规划性能对比
规划性能对比

3.2 高质量的未来场景生成

作为世界模型,FSDrive生成的未来场景质量也同样出色。实验表明,尽管FSDrive采用计算效率更高的自回归方式生成图像,其FID指标仍优于众多专用的扩散模型,证明了我们所提预训练范式的有效性。

生成质量对比
生成质量对比

3. 3 强大的场景理解与因果推理

在赋予模型生成能力的同时,FSDrive的理解能力并未削弱,反而得到了协同增强。在权威的DriveLM基准测试中,FSDrive在多项问答和描述任务上均取得优异成绩。

场景理解能力评估
场景理解能力评估

下图直观展示了FSDrive时空思维链的推理过程。通过生成包含未来车道线和障碍物位置的“思考图”,模型能够预见潜在风险(如前方车辆减速),并规划出更安全的避让轨迹,展现了强大的视觉因果推理能力。

可视化分析
可视化分析

04 结论

本文提出了FSDrive,一个基于时空思维链的自动驾驶新框架,首次赋予了视觉语言模型进行“视觉化思考”的能力。通过将未来预测统一在单一的图像模态下进行中间推理,FSDrive消除了跨模态转换的语义鸿沟,建立了一套端到端的视觉推理流程。实验证明,FSDrive通过建立与物理世界更直接的像素级关联,而非依赖抽象的语言符号,有力地推动了自动驾驶技术向更高级的视觉推理阶段迈进。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k