大数跨境

Waymo联席CEO Dmitri Dolgov在自动驾驶上的20年

Waymo联席CEO Dmitri Dolgov在自动驾驶上的20年 科技行者
2026-04-11
9

作者 | 周雅

来源 | 科技行者


Stripe创始人Patrick Collison主理的播客《Cheeky Pint》最新一期里,Waymo联席CEO Dmitri Dolgov坐在酒馆,讲了一件让他自己都觉得不可思议的事:8年前,Waymo第一次让没有安全员的车在凤凰城接送真实乘客。而就在前不久,Waymo在一天之内,向4座新城市同时开放了无人驾驶打车服务

“过去8年我们才第一次完成第一座城市的跨越,而现在我们一天就跨4座城市。”Dolgov说这句话的时候,Waymo每周已经在美国10座城市完成接近50万次完全无人驾驶载客,自动驾驶里程超过400万英里。截至20262月,Waymo刚完成160亿美元的新融资,公司估值约1260亿美元,这个数字让Waymo成了Alphabet(谷歌母公司)迄今为止最成功的项目之一

Dolgov这期内容讲清楚了,自动驾驶为什么花了20年,以及它过去这一两年的加速到底建立在什么之上。

一个自动驾驶领域工程师的前20年

Dolgov的履历是自动驾驶领域里最完整的一份样本。他在莫斯科物理技术学院(Moscow Institute of Physics and Technology,简称MIPT)拿到物理和应用数学的本硕,2000年到密歇根大学读计算机博士,毕业后先在丰田研究院做自动驾驶,又加入斯坦福,参加了2007年的DARPA Urban Challenge,那是DARPA系列挑战赛的第三届,第一次把比赛搬进城市路网,斯坦福队由Sebastian Thrun带队。两年前的2005年,同样由Thrun领导的斯坦福团队靠着一辆叫Stanley的车拿下第二届DARPA Grand Challenge的冠军,那场比赛被普遍视为现代自动驾驶行业真正的起点。Dolgov加入斯坦福时,「自动驾驶」这件事被证明出来不过两年时间

2009Google把这件事变成内部项目“Chauffeur”Dolgov是最早的十几名工程师之一;2021年他出任联席CEO从斯坦福算起,他在自动驾驶上正好走了20年,而这20年差不多就是这个行业的全部历史。

Patrick在节目里提到一个观察:英国市值最高的两家科技公司是金融科技Revolut和量化交易XTX Markets,两家创始人Nikolay StoronskyAlex Gerko都是MIPT校友。加上Dolgov,三家公司合计估值数千亿美元。MIPT这套从物理到数学再到工程的训练体系,在今天的科技产业里留下了一条相当清晰的脉络。

一辆 Waymo 启动后,内部发生了什么

Patrick问了工程师面试里的一个经典问题:“当我打开Waymo的车门坐进去,技术上发生了什么?”

Dolgov回答的第一件事是纠正“车”这个说法。“我们做的不是车,是司机。”在他口中,“the driver”这个会开车的属性,和承载它的金属壳子,是两码事。

这个司机有三种感官:摄像头、激光雷达(LiDAR)和毫米波雷达。三者都做360度环视覆盖。它们的物理特性彼此互补,这也是Dolgov在节目里反复强调的一点,因为这正是Waymo和“纯视觉派”自动驾驶(典型代表是Tesla)最核心的分歧。

  • 摄像头在阳光充足的白天给出最丰富的语义信息,但在逆光、夜间、被对向远光灯照射、或浓雾中会快速退化。

  • 激光雷达主动发射激光脉冲,每秒打出数百万个点,对世界做高分辨率的3D采样,完全不受光照影响。

  • 毫米波雷达分辨率最低,但波长决定了它在浓雾、暴雨、暴雪中几乎不衰减。“想象你在高速公路上,前方有几辆车在浓雾里完全看不见,雷达照样能给出非常清晰的回波。”

三路感官的数据都进入车上的本地计算平台,被各自的编码器(也就是AI里的encoder)处理,再交给解码器做决策。这套术语在大语言模型里也是同一套:encoder 负责把外部信息压缩成模型能理解的内部表示,decoder 负责把内部表示转回行动,在 LLM 里是文字,在 Waymo 里是方向盘和油门的指令。Dolgov特别强调:所有实时推理都发生在车上,不依赖云端。云端只处理一些非实时任务,比如乘客下车后检查车里有没有遗留物品、有没有被弄脏,需要不需要回基地清洁。

“老师-学生”架构:Waymo 怎么用 AI 训练 AI

Dolgov接着讲了Waymo内部的训练范式,他用了一个术语:基础模型+三个离线老师+蒸馏出来的车端学生。”

具体来说:

第一步Waymo先训练一个超大规模的离线基础模型,让它理解物理世界怎么运作、什么叫做“好的驾驶”,包括驾驶里那些社交属性,比如什么时候该让,什么时候该坚持。

第二步,这个基础模型被“特化”,这个动作AIfine-tune(微调),从基础模型上衍生出三个高容量的离线“老师”

1、Waymo Driver:驾驶决策本身。

2、Simulator:一个能生成逼真合成场景的世界模型,用来在云端做训练和评估。

3、Critic:一个有“观点”的评判模型,能在海量数据里挑出有意思的事件,并对车辆行为做出“这是好驾驶”或“这是坏驾驶”的判断。

第三步,每一个老师模型再分别“蒸馏”出一个更小、更快的学生模型。其中Driver的学生就是真正跑在车上的那个推理骨干。SimulatorCritic的学生则不需要上车,前者继续在云端为训练和评估提供合成世界,后者承担强化学习里的奖励函数角色。

Dolgov提到Waymo的训练流程里有一个跟LLM世界平行的环节,他直接借用了同一个名词:RLFT,强化学习微调。这跟ChatGPT那边的RLHF是一回事,只是我们的反馈不来自人类标注员,而来自Critic模型。”

这套架构能解释一个外界长期争论的问题:Waymo到底是不是端到端(end-to-end)的?

Dolgov的答案是:“是,也不是。”

如果“端到端”的定义是“梯度可以从输出一路反传到输入”,那Waymo是。如果“端到端”的定义是“Tesla那样把像素直接映射到方向盘和油门”,那Waymo不是。Dolgov说,他们前段时间发表过一篇叫EMMA的论文,证明确实可以拿一个现成的视觉-语言大模型(也就是AI圈里通常缩写为VLM的那类能同时处理图像和语言的模型),对它做微调,让它直接吐出驾驶轨迹,而且“在常规情况下能开得相当不错”

“但请注意,我说的是‘常规情况下’。它离你真正需要的安全水平差好几个数量级。这不是你应该开上街的东西。”

为什么不行?Dolgov的解释是:纯端到端的最大问题不是它开不动,而是它没法被有效地仿真、评估和闭环训练。如果整个系统只是“像素进,轨迹出”的黑盒,你根本没办法在仿真里高效地构造各种边角场景,也几乎给不出明确的奖励函数。这就是为什么Waymo必须在编码器和解码器之间保留一些中间表示,比如“这里有一个物体”、“这是一条路”、“那是一个限速标志”。这些结构化表示既不丢失通用性,又给了团队“额外的旋钮”来做安全验证、奖励函数设计和大规模仿真。

一个让 Dolgov 自己都没想到的瞬间

Dolgov在节目里讲了一段涌现行为”

场景在旧金山的一个十字路口。Waymo 这一侧的灯是红灯,路口有横向车流通过,横向车流里有一辆公交车,停下时正好停在了能挡住 Waymo 这一侧红绿灯的位置。Waymo 的灯随后转绿,车辆起步,一边前进一边小心地绕过那辆横在路口里的公交车。就在它绕的过程中,系统检测到公交车的另一侧有一个行人,于是减速并向外让出更大的空间。几秒钟后,行人真的从公交车那一侧走了出来。

“我第一次看这段日志的时候不敢相信。”Dolgov说,“我们的传感器再好,也不可能透视一辆公交车。雷达照不穿那个金属盒子,摄像头也看不进车窗。我以为这是某种巧合或者噪声。”

工程师把日志一帧一帧拆开后才发现,是车辆侧面的几个外围激光雷达,光束从公交车底部反射到了行人的脚部,留下了一组非常微弱、非常嘈杂的运动信号,这点信号本身远不足以让传统系统判定“那里有个人”,但模型不仅识别出了行人,还顺带预测了他可能要穿过马路。

“它做了一件我以为它不该会做的事。”Dolgov说,这种瞬间是这份工作里最让人激动的部分。”

这个故事本身正好回答了Patrick前面那个关于“中间表示”的问题。在纯像素空间里,那个人根本不存在;只有当你的系统拥有一个关于世界的内部模型时,“被公交车挡住的行人”这件事才能成为一个可被推理的对象。

第五代到第六代:硬件的两次跳跃

外界看Waymo常常忽略一个事实:今天大街上跑的Jaguar I-PACE,搭载的是Waymo第五代驾驶系统。每一代之间,不只是软件更新,而是一次主动设定的大跳跃

  • 第四代(克莱斯勒Pacifica小货车,2020年在亚利桑那州Chandler首次开始无安全员商业运营)的目标是把端到端的运营流程跑通:怎么训练、怎么评估、怎么部署、怎么7×24小时服务真实乘客。当时系统里有大量小型ML模块。

  • 第五代(I-PACE)是一次架构上的赌注。第四代时代的Waymo 司机里塞着大量小型的ML模型,每个模型负责一小块——检测、跟踪、预测、规划,像一条由很多小齿轮组成的传送带。第五代里,Waymo 把这条传送带拆掉,换成一个大型 AI 模型作为整个系统的骨干,让它统管以前那些子任务。同时,他们做了一件配套的事:在全美各地各种城市采集数据,然后把第五代部署到旧金山和凤凰城最复杂的城区。Dolgov 说这是“那次不连续的跳跃”,既是数据规模的跳跃,也是模型架构的跳跃。

  • 第六代Waymo的下一个分水岭,是一辆完全为乘客而非司机设计的定制车,由Waymo和现代Ioniq合作。Dolgov说他刚刚乘坐过一辆完全无人驾驶的第六代车,“感觉像坐在客厅里”:滑动门、纯平地板、巨大的腿部空间,外部尺寸却只比I-PACE略大。
    第六代最大的变化是硬件成本。同样保留三种传感模态,但每一种都做了显著简化和优化。Dolgov拿激光雷达举了一个例子:“多年前的雷达又重又贵,是装在飞机上的东西。现在你买一个不错的车规级雷达,几十美元就够了。”激光雷达在沿着同样的路径下行。他没有给出具体数字,但形容说第六代整套传感器套件的成本“只是上一代的一小部分,已经接近一套高级辅助驾驶系统的水平”。

软件层面,第六代和第五代基本一致。这是一次“tick-tock”式的迭代:硬件大改、软件平移;下一代再轮到软件大改。

为什么辅助驾驶长不出无人驾驶?

关于自动驾驶演进路径Dolgov 的判断和今天大多数舆论不在一条线上。

主流判断大致是这样:辅助驾驶(L2/L3)会越来越聪明,无人驾驶(L4/L5)会从打车服务慢慢渗透到私家车,两条路线终将在中间汇合。Tesla是前一条路线最响亮的代表,Waymo是后一条。

Dolgov不同意。

“我不认为它们会自然汇合。”他说,“我把它们看成是两个根本不同的问题。如果你列出‘打造一套真正的无人驾驶系统’里最难的几件事,你会发现它们和你为辅助驾驶要解决的问题非常不一样。这不是渐进发展,这是一次质变。”

他举了一个例子说明差距在哪里:高速公路,看上去是自动驾驶最简单的场景,绝大多数时间确实什么都不发生,因为高速本来就是人类按规则设计出来的最结构化的道路。但真正的难度藏在长尾里——速度高,所有事故的后果都是速度的平方。Patrick 接着提到:他每次跟在那种堆满杂物的平板卡车后面都会紧张。Dolgov 笑了:“我们见过这种车,一路掉东西。” Waymo 见过的高速长尾里,还有掉落的烧烤架、失控旋转的车辆。这些场景对辅助驾驶来说也许是“接管”,但对无人驾驶系统来说必须自己处理。

他补了一句留了余地的话:“我不想说你完全跳不过去,但这是一次质的跳跃(qualitative jump)。”

这个判断之所以重要,是因为它直接关系到一个估值数千亿美元的行业押注:如果Dolgov是对的,那么靠“先卖几百万辆带辅助驾驶的车,再OTA升级成无人出租车”的路径将走不通;反过来,如果Tesla是对的,Waymo一城一城磕的扩张方式就会被规模化生产的私家车碾压。

就在节目录制前后,Tesla 德州拿到了州一级的无人出租车许可。两条路线哪一条对,这场押注的答案要等市场给。

“自动驾驶不是真自动”,到底是不是个误解?

外界对 Waymo 最常见的一个怀疑是:自动驾驶车看似无人,但背后是不是其实有一支庞大的远程操作团队在随时接管?Patrick 把这个问题摆到了桌面上。

Dolgov 的回答有两层。

第一层是直接事实:今天 Waymo depot(车队基地)的运转,本质上是一场全自动编排的车辆之舞。完成订单的车自己开回基地;如果电量低或者需要清洁,系统会自动调度它进入相应的工位。

Waymo 在每辆车的传感器穹顶上做了一个不太被人注意的设计:车顶可以显示 emoji 图标,所以一辆需要清洁的车开进 depot 时,会用图标“告诉”现场员工“自己脏了”。

清洁是目前唯一仍需人工的环节,充电也需要人工插线,但车自己开进充电位、充完自己开走。“未来甚至连充电都可以无人。”Dolgov 说,他没急着判断是无线感应充电更合理,还是机械臂自动插枪更合理,“成本谁更低,要看实际跑下来”

第二层是给出逻辑:年前一辆 Waymo 上路,要走多少步人工,和今天比,差距是数量级的。这条曲线还在往下走。”

至于乘客那一边,Dolgov 笑着说,“Waymo 的乘客是全世界最棒的客户”。他给出一个心理学上的猜测:这辆车不是别人的车,没有司机坐在前面,乘客反而更倾向于像对待自己的空间一样对待它。当然,他诚实地补了一句:“这事是有分布的——一个大学城的周六晚上,分布会很不一样。”

一天开四城:扩张为什么突然加速

Dolgov说,Waymo现在大约有3000辆车在路上,每周完成约50万次乘客接送,自动驾驶里程每周超过400万英里,覆盖美国11座城市(其中10座对公众开放,第11座是刚启动的纳什维尔,还在内部阶段)。2026年内,Waymo将把服务延伸到伦敦东京,这也是Waymo首次走出美国。

“我们今天显然已经走过了科学研究和核心技术开发的阶段,进入了加速全球扩张和部署的新阶段。”Dolgov说。这并不意味着工程结束了,但他想不出“驾驶里还有哪个根本性的问题没有被基础技术覆盖”

但这并不等于“把美国的Waymo司机直接搬到伦敦就能开”。每个新城市都需要数据采集、特化和验证。比如英国和日本的车都开在路的另一边,Dolgov笑着说“这对于计算机来说其实不太难”真正难的反而是寒冷天气:那不只是AI的问题,而是需要清洗液、加热元件、低温下的运动控制,一整套贯穿硬件和算法的工程改造。

至于扩张的极限在哪里,Patrick问了一个刁钻问题:“我能不能在阿拉斯加任何一个有USPS邮政服务的地址叫到一辆Waymo?”

Dolgov的回答是:“最终一定可以。但形式可能不是打车。如果荒郊野外车辆密度太低,让一辆车守在那里等订单从经济上不划算。这种场景下,‘装了Waymo司机的私家车’才是更合理的形态。”

第二序效应:少了停车场之后的城市

播客末尾绕回了一个城市规划话题。Patrick指出,他录音所在的咖啡店其实想做户外座位,但因为城市的停车位下限规定,没法把那些车位收回来。

Dolgov 顺着这句话往下接:“想想这件事。我们最珍贵的城市土地,有多少被分配给了停车场和车库?因为你的车90%的时间就停在那里。如果更多的车成为完全自动驾驶的,这个需求就消失了。然后,想象你最喜欢的那座城市,如果你不必把那么大一块预算花在让一堆金属块停在原地,你能用那块土地做什么?”

他还提到了交通堵塞。有一句海豹突击队的格言被他借用:Slow is smooth, and smooth is fast.”大多数堵车不是因为路上车多,而是因为某个司机突然急刹,引发了一道一直传到几公里之外的“驻波”。“打个比方,有时候一场堵车的源头,可能就是三小时前一位老太太过了一次马路。如果路上多数车辆都是一致、平滑、可预测的驾驶者,这种驻波的消散时间会显著缩短。”

Google 为什么能把这件事撑 20 年?

最后一个问题来自Patrick自动驾驶花了20年,Google为什么能一直撑下去?换一家公司,这种长期不出业绩的项目早就被砍了。

Dolgov把功劳给了Larry PageSergey Brin。“这是Google文化和DNA的一部分,有那种愿景,也有走完全程的耐力和定力。”他自己在采访里反复强调一个观点:每一次AI的技术突破,无论是2013年的ImageNetTransformer,还是后来的视觉-语言模型,都重塑了曲线的起点,让“开始做一家自动驾驶公司”变得诱人;但没有任何一次突破真正改变了从0到完全无人驾驶的总复杂度

“这件事的本质是,开始很容易,开始得有欺骗性地容易。但要走完那段距离,要拿到工程意义上的每一个‘9’,下一个‘9’都比上一个贵10倍。Dolgov说,“如果存在某个魔法时刻,让你拿现成的组件就能做出商业产品,那今天整个行业的样子就完全不一样了。”

20年前,Dolgov在斯坦福为DARPA城市挑战赛调参的时候,没有人能说清楚这条路有多长。20年后他坐在酒馆里说:“我现在最兴奋的事,是任何一个大都市,你下飞机就能叫一辆Waymo去任何地方。这件事,对我来说让人难以置信地激动。”


·   FIN   ·
【声明】内容源于网络
0
0
科技行者
科技行者,至顶科技旗下的创新生态媒体,多年来一直站在科技的最前沿,致力于与打造“更深刻的创新“和“更硬核的科技”的创业者、企业家对话,连接产品与市场,项目与资本让创新更有价值。
内容 1251
粉丝 0
科技行者 北京第二十六维信息技术有限公司 科技行者,至顶科技旗下的创新生态媒体,多年来一直站在科技的最前沿,致力于与打造“更深刻的创新“和“更硬核的科技”的创业者、企业家对话,连接产品与市场,项目与资本让创新更有价值。
总阅读12.0k
粉丝0
内容1.3k