Waymo联席CEO Dmitri Dolgov在自动驾驶上的20年- 大数跨境

首页

Waymo联席CEO Dmitri Dolgov在自动驾驶上的20年

科技行者

2026-04-11

作者 | 周雅

来源 | 科技行者

在Stripe创始人Patrick Collison主理的播客《Cheeky Pint》最新一期里，Waymo联席CEO Dmitri Dolgov坐在酒馆，讲了一件让他自己都觉得不可思议的事：8年前，Waymo第一次让没有安全员的车在凤凰城接送真实乘客。而就在前不久，Waymo在一天之内，向4座新城市同时开放了无人驾驶打车服务。

“过去8年我们才第一次完成第一座城市的跨越，而现在我们一天就跨4座城市。”Dolgov说这句话的时候，Waymo每周已经在美国10座城市完成接近50万次完全无人驾驶载客，自动驾驶里程超过400万英里。截至2026年2月，Waymo刚完成160亿美元的新融资，公司估值约1260亿美元，这个数字让Waymo成了Alphabet（谷歌母公司）迄今为止最成功的项目之一。

Dolgov这期内容讲清楚了，自动驾驶为什么花了20年，以及它过去这一两年的加速到底建立在什么之上。

一个自动驾驶领域工程师的前20年

Dolgov的履历是自动驾驶领域里最完整的一份样本。他在莫斯科物理技术学院（Moscow Institute of Physics and Technology，简称MIPT）拿到物理和应用数学的本硕，2000年到密歇根大学读计算机博士，毕业后先在丰田研究院做自动驾驶，又加入斯坦福，参加了2007年的DARPA Urban Challenge，那是DARPA系列挑战赛的第三届，第一次把比赛搬进城市路网，斯坦福队由Sebastian Thrun带队。两年前的2005年，同样由Thrun领导的斯坦福团队靠着一辆叫Stanley的车拿下第二届DARPA Grand Challenge的冠军，那场比赛被普遍视为现代自动驾驶行业真正的起点。Dolgov加入斯坦福时，「自动驾驶」这件事被证明出来不过两年时间。

2009年Google把这件事变成内部项目“Chauffeur”，Dolgov是最早的十几名工程师之一；2021年他出任联席CEO。从斯坦福算起，他在自动驾驶上正好走了20年，而这20年差不多就是这个行业的全部历史。

Patrick在节目里提到一个观察：英国市值最高的两家科技公司是金融科技Revolut和量化交易XTX Markets，两家创始人Nikolay Storonsky和Alex Gerko都是MIPT校友。加上Dolgov，三家公司合计估值数千亿美元。MIPT这套从物理到数学再到工程的训练体系，在今天的科技产业里留下了一条相当清晰的脉络。

一辆 Waymo 启动后，内部发生了什么

Patrick问了工程师面试里的一个经典问题：“当我打开Waymo的车门坐进去，技术上发生了什么？”

Dolgov回答的第一件事是纠正“车”这个说法。“我们做的不是车，是司机。”在他口中，“the driver”这个会开车的属性，和承载它的金属壳子，是两码事。

这个司机有三种感官：摄像头、激光雷达（LiDAR）和毫米波雷达。三者都做360度环视覆盖。它们的物理特性彼此互补，这也是Dolgov在节目里反复强调的一点，因为这正是Waymo和“纯视觉派”自动驾驶（典型代表是Tesla）最核心的分歧。

摄像头在阳光充足的白天给出最丰富的语义信息，但在逆光、夜间、被对向远光灯照射、或浓雾中会快速退化。
激光雷达主动发射激光脉冲，每秒打出数百万个点，对世界做高分辨率的3D采样，完全不受光照影响。
毫米波雷达分辨率最低，但波长决定了它在浓雾、暴雨、暴雪中几乎不衰减。“想象你在高速公路上，前方有几辆车在浓雾里完全看不见，雷达照样能给出非常清晰的回波。”

三路感官的数据都进入车上的本地计算平台，被各自的编码器（也就是AI里的encoder）处理，再交给解码器做决策。这套术语在大语言模型里也是同一套：encoder 负责把外部信息压缩成模型能理解的内部表示，decoder 负责把内部表示转回行动，在 LLM 里是文字，在 Waymo 里是方向盘和油门的指令。Dolgov特别强调：所有实时推理都发生在车上，不依赖云端。云端只处理一些非实时任务，比如乘客下车后检查车里有没有遗留物品、有没有被弄脏，需要不需要回基地清洁。

“老师-学生”架构：Waymo 怎么用 AI 训练 AI

Dolgov接着讲了Waymo内部的训练范式，他用了一个术语：“基础模型+三个离线老师+蒸馏出来的车端学生。”

具体来说：

第一步，Waymo先训练一个超大规模的离线基础模型，让它理解物理世界怎么运作、什么叫做“好的驾驶”，包括驾驶里那些社交属性，比如什么时候该让，什么时候该坚持。

第二步，这个基础模型被“特化”，这个动作在AI圈叫fine-tune（微调），从基础模型上衍生出三个高容量的离线“老师”：

1、Waymo Driver：驾驶决策本身。

2、Simulator：一个能生成逼真合成场景的世界模型，用来在云端做训练和评估。

3、Critic：一个有“观点”的评判模型，能在海量数据里挑出有意思的事件，并对车辆行为做出“这是好驾驶”或“这是坏驾驶”的判断。

第三步，每一个老师模型再分别“蒸馏”出一个更小、更快的学生模型。其中Driver的学生就是真正跑在车上的那个推理骨干。Simulator和Critic的学生则不需要上车，前者继续在云端为训练和评估提供合成世界，后者承担强化学习里的奖励函数角色。

Dolgov提到Waymo的训练流程里有一个跟LLM世界平行的环节，他直接借用了同一个名词：“RLFT，强化学习微调。这跟ChatGPT那边的RLHF是一回事，只是我们的反馈不来自人类标注员，而来自Critic模型。”

这套架构能解释一个外界长期争论的问题：Waymo到底是不是端到端（end-to-end）的？

Dolgov的答案是：“是，也不是。”

如果“端到端”的定义是“梯度可以从输出一路反传到输入”，那Waymo是。如果“端到端”的定义是“像Tesla那样把像素直接映射到方向盘和油门”，那Waymo不是。Dolgov说，他们前段时间发表过一篇叫EMMA的论文，证明确实可以拿一个现成的视觉-语言大模型（也就是AI圈里通常缩写为VLM的那类能同时处理图像和语言的模型），对它做微调，让它直接吐出驾驶轨迹，而且“在常规情况下能开得相当不错”。

“但请注意，我说的是‘常规情况下’。它离你真正需要的安全水平差好几个数量级。这不是你应该开上街的东西。”

为什么不行？Dolgov的解释是：纯端到端的最大问题不是它开不动，而是它没法被有效地仿真、评估和闭环训练。如果整个系统只是“像素进，轨迹出”的黑盒，你根本没办法在仿真里高效地构造各种边角场景，也几乎给不出明确的奖励函数。这就是为什么Waymo必须在编码器和解码器之间保留一些中间表示，比如“这里有一个物体”、“这是一条路”、“那是一个限速标志”。这些结构化表示既不丢失通用性，又给了团队“额外的旋钮”来做安全验证、奖励函数设计和大规模仿真。

一个让 Dolgov 自己都没想到的瞬间

Dolgov在节目里讲了一段“涌现行为”。

场景在旧金山的一个十字路口。Waymo 这一侧的灯是红灯，路口有横向车流通过，横向车流里有一辆公交车，停下时正好停在了能挡住 Waymo 这一侧红绿灯的位置。Waymo 的灯随后转绿，车辆起步，一边前进一边小心地绕过那辆横在路口里的公交车。就在它绕的过程中，系统检测到公交车的另一侧有一个行人，于是减速并向外让出更大的空间。几秒钟后，行人真的从公交车那一侧走了出来。

“我第一次看这段日志的时候不敢相信。”Dolgov说，“我们的传感器再好，也不可能透视一辆公交车。雷达照不穿那个金属盒子，摄像头也看不进车窗。我以为这是某种巧合或者噪声。”

工程师把日志一帧一帧拆开后才发现，是车辆侧面的几个外围激光雷达，光束从公交车底部反射到了行人的脚部，留下了一组非常微弱、非常嘈杂的运动信号，这点信号本身远不足以让传统系统判定“那里有个人”，但模型不仅识别出了行人，还顺带预测了他可能要穿过马路。

“它做了一件我以为它不该会做的事。”Dolgov说，“这种瞬间是这份工作里最让人激动的部分。”

这个故事本身正好回答了Patrick前面那个关于“中间表示”的问题。在纯像素空间里，那个人根本不存在；只有当你的系统拥有一个关于世界的内部模型时，“被公交车挡住的行人”这件事才能成为一个可被推理的对象。

第五代到第六代：硬件的两次跳跃

外界看Waymo常常忽略一个事实：今天大街上跑的Jaguar I-PACE，搭载的是Waymo的第五代驾驶系统。每一代之间，不只是软件更新，而是一次主动设定的大跳跃。

第四代（克莱斯勒Pacifica小货车，2020年在亚利桑那州Chandler首次开始无安全员商业运营）的目标是把端到端的运营流程跑通：怎么训练、怎么评估、怎么部署、怎么7×24小时服务真实乘客。当时系统里有大量小型ML模块。

第五代（I-PACE）是一次架构上的赌注。第四代时代的Waymo 司机里塞着大量小型的ML模型，每个模型负责一小块——检测、跟踪、预测、规划，像一条由很多小齿轮组成的传送带。第五代里，Waymo 把这条传送带拆掉，换成一个大型 AI 模型作为整个系统的骨干，让它统管以前那些子任务。同时，他们做了一件配套的事：在全美各地各种城市采集数据，然后把第五代部署到旧金山和凤凰城最复杂的城区。Dolgov 说这是“那次不连续的跳跃”，既是数据规模的跳跃，也是模型架构的跳跃。

第六代是Waymo的下一个分水岭，是一辆完全为乘客而非司机设计的定制车，由Waymo和现代Ioniq合作。Dolgov说他刚刚乘坐过一辆完全无人驾驶的第六代车，“感觉像坐在客厅里”：滑动门、纯平地板、巨大的腿部空间，外部尺寸却只比I-PACE略大。

第六代最大的变化是硬件成本。同样保留三种传感模态，但每一种都做了显著简化和优化。Dolgov拿激光雷达举了一个例子：“多年前的雷达又重又贵，是装在飞机上的东西。现在你买一个不错的车规级雷达，几十美元就够了。”激光雷达在沿着同样的路径下行。他没有给出具体数字，但形容说第六代整套传感器套件的成本“只是上一代的一小部分，已经接近一套高级辅助驾驶系统的水平”。

软件层面，第六代和第五代基本一致。这是一次“tick-tock”式的迭代：硬件大改、软件平移；下一代再轮到软件大改。

为什么辅助驾驶长不出无人驾驶？

关于自动驾驶演进路径，Dolgov 的判断和今天大多数舆论不在一条线上。

主流判断大致是这样：辅助驾驶（L2/L3）会越来越聪明，无人驾驶（L4/L5）会从打车服务慢慢渗透到私家车，两条路线终将在中间汇合。Tesla是前一条路线最响亮的代表，Waymo是后一条。

Dolgov不同意。

“我不认为它们会自然汇合。”他说，“我把它们看成是两个根本不同的问题。如果你列出‘打造一套真正的无人驾驶系统’里最难的几件事，你会发现它们和你为辅助驾驶要解决的问题非常不一样。这不是渐进发展，这是一次质变。”

他举了一个例子说明差距在哪里：高速公路，看上去是自动驾驶最简单的场景，绝大多数时间确实什么都不发生，因为高速本来就是人类按规则设计出来的最结构化的道路。但真正的难度藏在长尾里——速度高，所有事故的后果都是速度的平方。Patrick 接着提到：他每次跟在那种堆满杂物的平板卡车后面都会紧张。Dolgov 笑了：“我们见过这种车，一路掉东西。”在 Waymo 见过的高速长尾里，还有掉落的烧烤架、失控旋转的车辆。这些场景对辅助驾驶来说也许是“接管”，但对无人驾驶系统来说必须自己处理。

他补了一句留了余地的话：“我不想说你完全跳不过去，但这是一次质的跳跃（qualitative jump）。”

这个判断之所以重要，是因为它直接关系到一个估值数千亿美元的行业押注：如果Dolgov是对的，那么靠“先卖几百万辆带辅助驾驶的车，再OTA升级成无人出租车”的路径将走不通；反过来，如果Tesla是对的，Waymo一城一城磕的扩张方式就会被规模化生产的私家车碾压。

就在节目录制前后，Tesla 在德州拿到了州一级的无人出租车许可。两条路线哪一条对，这场押注的答案要等市场给。

“自动驾驶不是真自动”，到底是不是个误解？

外界对 Waymo 最常见的一个怀疑是：自动驾驶车看似无人，但背后是不是其实有一支庞大的远程操作团队在随时接管？Patrick 把这个问题摆到了桌面上。

Dolgov 的回答有两层。

第一层是直接事实：今天 Waymo depot（车队基地）的运转，本质上是一场全自动编排的车辆之舞。完成订单的车自己开回基地；如果电量低或者需要清洁，系统会自动调度它进入相应的工位。

Waymo 在每辆车的传感器穹顶上做了一个不太被人注意的设计：车顶可以显示 emoji 图标，所以一辆需要清洁的车开进 depot 时，会用图标“告诉”现场员工“自己脏了”。

清洁是目前唯一仍需人工的环节，充电也需要人工插线，但车自己开进充电位、充完自己开走。“未来甚至连充电都可以无人。”Dolgov 说，他没急着判断是无线感应充电更合理，还是机械臂自动插枪更合理，“成本谁更低，要看实际跑下来”。

第二层是给出逻辑：“5 年前一辆 Waymo 上路，要走多少步人工，和今天比，差距是数量级的。这条曲线还在往下走。”

至于乘客那一边，Dolgov 笑着说，“Waymo 的乘客是全世界最棒的客户”。他给出一个心理学上的猜测：这辆车不是别人的车，没有司机坐在前面，乘客反而更倾向于像对待自己的空间一样对待它。当然，他诚实地补了一句：“这事是有分布的——一个大学城的周六晚上，分布会很不一样。”

一天开四城：扩张为什么突然加速

Dolgov说，Waymo现在大约有3000辆车在路上，每周完成约50万次乘客接送，自动驾驶里程每周超过400万英里，覆盖美国11座城市（其中10座对公众开放，第11座是刚启动的纳什维尔，还在内部阶段）。2026年内，Waymo将把服务延伸到伦敦和东京，这也是Waymo首次走出美国。

“我们今天显然已经走过了科学研究和核心技术开发的阶段，进入了加速全球扩张和部署的新阶段。”Dolgov说。这并不意味着工程结束了，但他想不出“驾驶里还有哪个根本性的问题没有被基础技术覆盖”。

但这并不等于“把美国的Waymo司机直接搬到伦敦就能开”。每个新城市都需要数据采集、特化和验证。比如英国和日本的车都开在路的另一边，Dolgov笑着说“这对于计算机来说其实不太难”，真正难的反而是寒冷天气：那不只是AI的问题，而是需要清洗液、加热元件、低温下的运动控制，一整套贯穿硬件和算法的工程改造。

至于扩张的极限在哪里，Patrick问了一个刁钻问题：“我能不能在阿拉斯加任何一个有USPS邮政服务的地址叫到一辆Waymo？”

Dolgov的回答是：“最终一定可以。但形式可能不是打车。如果荒郊野外车辆密度太低，让一辆车守在那里等订单从经济上不划算。这种场景下，‘装了Waymo司机的私家车’才是更合理的形态。”

第二序效应：少了停车场之后的城市

播客末尾绕回了一个城市规划话题。Patrick指出，他录音所在的咖啡店其实想做户外座位，但因为城市的停车位下限规定，没法把那些车位收回来。

Dolgov 顺着这句话往下接：“想想这件事。我们最珍贵的城市土地，有多少被分配给了停车场和车库？因为你的车90%的时间就停在那里。如果更多的车成为完全自动驾驶的，这个需求就消失了。然后，想象你最喜欢的那座城市，如果你不必把那么大一块预算花在让一堆金属块停在原地，你能用那块土地做什么？”

他还提到了交通堵塞。有一句海豹突击队的格言被他借用：“Slow is smooth, and smooth is fast.”大多数堵车不是因为路上车多，而是因为某个司机突然急刹，引发了一道一直传到几公里之外的“驻波”。“打个比方，有时候一场堵车的源头，可能就是三小时前一位老太太过了一次马路。如果路上多数车辆都是一致、平滑、可预测的驾驶者，这种驻波的消散时间会显著缩短。”

Google 为什么能把这件事撑 20 年？

最后一个问题来自Patrick：自动驾驶花了20年，Google为什么能一直撑下去？换一家公司，这种长期不出业绩的项目早就被砍了。

Dolgov把功劳给了Larry Page和Sergey Brin。“这是Google文化和DNA的一部分，有那种愿景，也有走完全程的耐力和定力。”他自己在采访里反复强调一个观点：每一次AI的技术突破，无论是2013年的ImageNet、Transformer，还是后来的视觉-语言模型，都重塑了曲线的起点，让“开始做一家自动驾驶公司”变得诱人；但没有任何一次突破真正改变了从0到完全无人驾驶的总复杂度。

“这件事的本质是，开始很容易，开始得有欺骗性地容易。但要走完那段距离，要拿到工程意义上的每一个‘9’，下一个‘9’都比上一个贵10倍。”Dolgov说，“如果存在某个魔法时刻，让你拿现成的组件就能做出商业产品，那今天整个行业的样子就完全不一样了。”

20年前，Dolgov在斯坦福为DARPA城市挑战赛调参的时候，没有人能说清楚这条路有多长。20年后他坐在酒馆里说：“我现在最兴奋的事，是任何一个大都市，你下飞机就能叫一辆Waymo去任何地方。这件事，对我来说让人难以置信地激动。”

· FIN ·

【声明】内容源于网络

科技行者

科技行者，至顶科技旗下的创新生态媒体，多年来一直站在科技的最前沿，致力于与打造“更深刻的创新“和“更硬核的科技”的创业者、企业家对话，连接产品与市场，项目与资本让创新更有价值。

内容 1251

粉丝 0

科技行者北京第二十六维信息技术有限公司科技行者，至顶科技旗下的创新生态媒体，多年来一直站在科技的最前沿，致力于与打造“更深刻的创新“和“更硬核的科技”的创业者、企业家对话，连接产品与市场，项目与资本让创新更有价值。

总阅读12.0k

粉丝0

内容1.3k