

理想郎咸朋长文分享为什么关于VLA与宇树王兴兴观点不一致

智猩猩Auto

2025-12-13

导读：具身机器人核心将有两种形态：汽车类、人形类

转载自公众号：理想TOP2。

本文只做学术/技术分享，如有侵权，联系删文。

2025年12月10日理想自动驾驶负责人郎咸朋表示：

今年8月，我关注到宇树科技创始人王兴兴提出对VLA的一些担忧。当时没有提出我的观点，一是理想VLA司机大模型还没正式发布，空口无凭；二是我们对具身机器人行业，还处于密切关注阶段。我跟王兴兴观点最不一样的地方在于，他认为模型架构更重要，但我认为模型的关键是要与整个具身智能系统适配，在此基础上，数据是起决定意义的。

从今年9月VLA正式发布，到12月6日OTA 8.1的推送，经过两个月多的“实践出真知”后，我有两点心得：第一，VLA就是自动驾驶最好的模型方案，第二，具身智能最终拼的是整体的系统能力。

VLA

1. 理想的 VLA 本质上就是生成式模型。我们是在用 GPT 的方式做自动驾驶，只不过生成的 Token 不是文本，而是轨迹和控制信号。从目前用户使用的反馈看，在某些场景下理想的VLA已经具备了对物理世界的认知涌现。具体表现是用户会越来越多的发现之前端到端没有的拟人行为。

2. 世界模型更适合做“考场”而不是“考生”。世界模型的高算力需求（训练和推理都是）决定了它更适合在云端做数据生成和极度逼真的仿真测试和强化训练，这也是理想目前正在做的，通过几E flops的推理算力做仿真测试。这个算力水平，即使再强的车端芯片也无法做到。

3. 空谈架构不如看疗效。在自动驾驶领域，脱离了海量真实数据谈模型架构都是空中楼阁，我们之所以坚持 VLA，是因为我们拥有数百万辆车构建的数据闭环，这让我们能在当前算力下，把驾驶水平做到接近人类。

具身智能

要想做好自动驾驶，必须先把自动驾驶当作完整的具身智能系统对待，每一部分在研发过程中要相互配合才能将价值发挥出来。人类驾驶车辆并不需要特别强的能力，普通人都能学会。但这里讲的普通人，是各部分都能相互协调的正常人。再强的大脑，如果配的是高度近视的眼睛和不灵活的身体，是开不了车的。具身智能系统包括感知（眼睛）、模型（大脑）、操作系统（神经）、芯片（心脏）、本体（身体）。需要做到全栈自研，不仅仅是软件栈，而是整体软硬全栈。理想的自动驾驶团队与基座模型、芯片、底盘团队协同打造了整个的自动驾驶系统。基座和芯片大家比较了解不多说了，底盘方面给一个简单例子。底盘的VMM（车辆运动管理）模块会对自动驾驶的控制信号做精细化调校，在减速过程中区分卡钳制动和液压制动的使用策略，兼顾安全性和舒适体验，实现“身体” 和 “大脑” 的协同价值。

模型的关键是要与整个具身智能系统适配，在此基础上，数据是起决定意义的。在机器人领域获取数据相对困难，但在自动驾驶领域，特别是建立起数据闭环能力的车企来说并不是大问题。理想不仅可以从过去几年积累的10几亿公里的存量数据里进行挖掘和筛选，更可以通过150万车主的日常使用源源不断的获取新的数据。这与用数据采集车做数据是完全不同的，其质量和分布相比真实情况是有很大差距的。

另外，在筛选数据过程中，我们也发现很多有趣现象，比如有接近40%的人类驾驶数据都是偏一侧开车的，也几乎不会严格卡着限速值开车。我们认为其实这才是符合人类的驾驶行为，所以并没有刻意删除这些数据样本。大家在使用AD Max时如果发现也有这些行为，那是模型跟各位学习到的习惯。

想哥在前两天明确提到，未来五到十年，具身机器人核心将有两种形态：汽车类的具身机器人、人形类的具身机器人。理想的VLA不仅服务于现在的理想各类汽车产品形态，也将服务于未来的汽车类具身机器人。

END

智猩猩矩阵号各有所长

点击名片即可关注

【声明】内容源于网络

智猩猩Auto

智猩猩矩阵账号之一，关注AI定义汽车新进展，追踪自动驾驶新突破。

内容 2043

粉丝 0

智猩猩Auto 智猩猩矩阵账号之一，关注AI定义汽车新进展，追踪自动驾驶新突破。

总阅读97

粉丝0

内容2.0k