大数跨境

为什么自动驾驶难以实现

为什么自动驾驶难以实现 变芯空间
2025-10-18
1
导读:核心论点:从“演示”到“产品”的“九个九”鸿沟卡帕西的核心观点是:自动驾驶(以及许多复杂系统)从酷炫的演示到真正可靠、可大规模部署的产品,中间存在一个巨大的鸿沟。

点“小耳机可边听边看!


核心论点:从“演示”到“产品”的“九个九”鸿沟

卡帕西的核心观点是:自动驾驶(以及许多复杂系统)从酷炫的演示到真正可靠、可大规模部署的产品,中间存在一个巨大的鸿沟。他将这个过程形象地比喻为追求 “九个九”的可靠性

  • 演示版(第一个九):一个系统在90%的情况下都能正常工作。这看起来很酷,足以令人印象深刻,但远远不够。

  • 产品化(后续的九):每一个“九”(从90%到99%,再到99.9%,以此类推)的提升,都需要付出恒定的、巨大的工作量。在自动驾驶领域,每一个“九”都意味着要解决无数个罕见但危险的“边缘情况”。

  • 失败的代价:在自动驾驶中,失败的代价是人员伤亡,因此对可靠性的要求极高。他在特斯拉工作了五年,认为可能只完成了“两三个九”,后面还有很长的路要走。

自动驾驶为何如此艰难的深层原因

  1. 极高的安全可靠性要求

    • 他将其与编写生产级软件进行类比,后者任何错误都可能导致安全漏洞或数据泄露。但自动驾驶的容错率更低,后果更直接、更严重。

  2. “规模化”自动驾驶尚未实现

    • 卡帕西强调,真正的终点是规模化的自动驾驶,即普通人不再需要考驾照。他认为我们离这个目标还很远。

    • 他指出,即使是领先的公司如Waymo,其部署规模仍然很小,而且在经济上可能尚不可行,因为涉及高昂的车辆、运营和维护成本。

  3. “远程操作”的隐藏成本

    • 他指出了一个关键但常被忽略的点:许多所谓的“无人驾驶”汽车背后,有一个人类远程操作中心在提供支持。这并非真正取代了人类,而是将人类驾驶员“转移到了幕后”。这限制了技术的可扩展性和经济性。

  4. 物理世界的复杂性 vs 数字世界

    • 他同意对话者的观点,即处理物理世界(比特) 比处理数字世界(比特) 要困难无数个数量级。物理世界是不可预测、不可变且充满延迟的。

  5. 社会、法律和保险问题

    • 技术成熟只是第一步。还需要解决法律责任、保险模式以及公众接受度等问题。他举了“人们在Waymo车上放锥筒”的例子,说明社会适应新技术也会带来挑战。

与大型语言模型的对比

当对话者提出“LLM是否已经解决了自动驾驶中的基本感知和常识问题,从而让其他领域的部署变得更容易”时,卡帕西的回答是谨慎的:

  • 不完全同意:他认为LLM仍然存在很多“空白”并且“很容易出错”。我们并没有“免费”获得所有能力。

  • LLM仍是“孩子”:他再次使用了之前的比喻,认为当前的LLM像“天才儿童”,能出色地模仿和记忆,但并未真正深刻理解世界,因此还不足以直接解决像自动驾驶这样需要极高可靠性的问题。

  • 经济性差异:部署AI软件(如ChatGPT)的成本远低于部署一支自动驾驶车队。软件的边际成本低,且易于扩展。

对当前AI建设的启示

最后,他将自动驾驶的漫长发展历程作为对当前AI热潮的一个比喻和警示:

  • 避免天真预测:他看到社交媒体上对AI能力的许多夸张预测,认为需要立足现实,认清技术当前的真实水平和局限。

  • 借鉴历史:他将当前的AI计算能力建设比作历史上的电信泡沫,即基础设施建设可能超前于实际应用,但长期来看,需求最终会跟上并消化这些能力。

  • 总体乐观但保持清醒:他总体上对科技发展非常乐观,相信问题终将被解决,但他强调必须基于对技术现实的清晰认知,而不是被炒作所迷惑。

总结

卡帕西认为,自动驾驶之所以艰难,是因为它不是一个单纯的技术演示问题,而是一个需要攻克极端可靠性、经济可行性、系统复杂性以及社会接受度等多重壁垒的系统工程。这个过程比大多数人想象的要漫长和艰难得多,而这对于理解其他复杂AI系统(包括AGI)的部署前景,是一个非常重要的参考框架。


为什么自动驾驶难以实现

Dwarkesh Patel:你谈到自己在特斯拉从 2017 年到 2022 年领导自动驾驶技术的发展。亲眼见证了从酷炫的演示到如今成千上万辆真正实现自动驾驶的汽车的进步。为什么这花了十年时间?这期间发生了什么?

Andrej Karpathy:我几乎会立即反驳的一点是,从很多方面来说,自动驾驶还远远没有完成。自动驾驶非常有趣,因为我投入了五年时间,这绝对是我获得很多直觉的地方。自动驾驶有着悠久的历史,最早的自动驾驶演示可以追溯到 20 世纪 80 年代。你可以看到 1986 年卡内基梅隆大学的一个演示。当时有一辆卡车正在道路上自动驾驶。

当我加入特斯拉前,我参与了 Waymo 的一个非常早期的演示。 2014 年左右的时候,它基本上让我体验到了完美的驾驶体验。我们绕着帕洛阿尔托转了一圈。我当时觉得很接近了,但最终还是花了很长时间。

对于某些类型的任务和工作来说,从演示到产品之间存在着巨大的差距。尤其是在自动驾驶这样的领域,失败的代价太高。许多行业、任务和工作可能不具备这种特性,但当你拥有这种特性时,肯定会增加开发时间。

例如,在软件工程中,我认为这种特性确实存在。对于很多模拟编程来说,它并不存在。但如果你编写的是真正的生产级代码,这种特性应该存在,因为任何类型的错误都会导致安全漏洞或类似问题。数以百万计的人的个人社保号码被泄露或类似情况发生。所以在软件开发中,人们应该小心谨慎,有点像自动驾驶。自动驾驶中,如果出了问题,你可能会受伤。后果可能更糟。但在软件开发中,事情的严重程度几乎是无限的。

我确实认为它们都有这个特性。它就像一个九个九的循环。每一个九都是一个恒定的工作量。每一个九都是相同的工作量。当你拿到一个演示版,并且某个东西 90% 的时间都能正常工作,那只是第一个九。然后你需要第二个九,第三个九,第四个九,第五个九。我在特斯拉工作了五年左右,我们可能经历了三个或两个九。我不知道那是什么,但经过了多个九的迭代。还有更多的九要完成。

这就是为什么这些事情需要这么长时间的原因。看到一个演示版的东西对我来说绝对是一种成长。每当我看到任何东西的演示,我都会非常失望。如果是有人为了演示而炮制的演示,那就更糟糕了。如果可以互动,那就好一些了。但即便如此,你还没有完成。你需要真正的产品。当它与现实接触时,它将面临所有这些挑战,以及所有需要修补的不同行为环节。

这是一个至关重要的安全领域,除非你正在做氛围编码,这很美好、很有趣等等。

Dwarkesh Patel:听到你这么说,很有意思。人们常说,自动驾驶之所以花了这么长时间,是因为失败的代价太高了。人类平均每行驶 40 万英里或每七年就会犯一次错误。如果你必须发布一个至少七年内不会犯错的编码代理,那么部署起来就会困难得多。

但你的观点是,如果你犯了一个灾难性的编码错误,比如每七年就破坏某个重要系统……

Andrej Karpathy:很容易犯错。

Dwarkesh Patel:事实上,这远少于七年,因为你一直在输出这样的代码。就 token 而言,这需要七年时间。

Andrej Karpathy:从某些方面来说,这是一个更难的问题。自动驾驶只是人们做的成千上万件事之一。我想,它几乎就像一个单一的垂直领域。而当我们谈论通用软件工程时,它甚至更多…… 涉及的范围更大。

Dwarkesh Patel:人们对这个类比还有另一个反对意见,那就是在自动驾驶领域,很大一部分时间都花在了解决如何获得稳健的基本感知、构建表征以及建立一个具有一定常识的模型上,以便它能够在看到稍微偏离分布的情况时进行泛化。如果有人朝这边挥手,你不需要为此进行训练。这个东西会理解如何应对这样的事情。

这些都是我们今天通过 LLM 或 VLM 免费获得的东西,我们不必解决这些非常基本的表征问题。所以现在在不同领域部署人工智能就像把一辆搭载现有模型的自动驾驶汽车部署到另一个城市,这很难,但不像是一项需要 10 年才能完成的任务。

Andrej Karpathy我不确定我是否完全同意这一点。我不知道我们免费获得了多少。在理解我们获得了什么方面仍然存在很多差距。我们肯定在单个实体中获得了更具泛化的智能,而自动驾驶是一项非常特殊用途的任务…… 从某种意义上说,构建一个专用任务可能更难,因为它不会脱离你正在大规模进行的更通用的任务,如果这说得通的话。

但这个类比仍然不太贴切,因为 LLM 仍然很容易出错,而且它们还有很多空白需要填补。

另一个方面是,自动驾驶汽车还远未完成。部署规模非常小。即使是 Waymo 之类的公司,也只有很少的车。粗略地说,是因为他们不经济。他们构建的是未来的东西。所有这些成本都存在,不仅仅是这些汽车及其运营和维护的边际成本,还有整个系统的资本支出。让它变得经济实惠对他们来说仍然是一项艰巨的任务。

另外,当你看着这些无人驾驶的汽车时,我实际上觉得这有点误导,因为这些汽车里有非常精密的远程操作中心,里面的人与汽车形成了一种循环。我还没有完全掌握,但人操作的程度比你想象的要高。有人从天上向外发射信号。我不知道他们是否完全参与了驾驶过程。有时他们会参与,但他们肯定参与其中,而且还有人类。从某种意义上说,我们并没有真正把人从驾驶中移除,而是把他们转移到了你看不见的地方。

我仍然认为,正如你提到的,在不同环境之间进行转换还需要一些工作。要让自动驾驶成为现实,仍然存在挑战。但我确实同意,它肯定已经跨过了一个门槛,感觉有点真实,除非它真的是远程操作的。例如,Waymo 无法覆盖城市的各个角落。我怀疑是城市某些地方信号不好。但要说的是,我对整个技术栈一无所知,只是在猜测。

Dwarkesh Patel:你在特斯拉领导了五年的自动驾驶项目。

Andrej Karpathy:抱歉,我对 Waymo 的具体情况一无所知。顺便说一句,我很喜欢 Waymo,而且我一直都在用它。我只是觉得大家有时对一些进展有点太天真了,而且还有很多工作要做。在我看来,特斯拉采用了一种更具可扩展性的方法,而且团队做得非常好。我之前预测过这件事会如何发展。Waymo 起步较早,因为可以集成很多传感器。但我确实认为特斯拉正在采取更具可扩展性的策略,而且未来看起来会更接近这种策略。这还需要时间才能实现。

但我不想说自动驾驶花了十年才发展起来,因为它现在还没发展起来。

Dwarkesh Patel:因为第一,自动驾驶始于 1980 年,而不是 10 年前;第二,自动驾驶的终点还没有到来。

Andrej Karpathy:当我们谈论自动驾驶时,我通常想到的是规模化的自动驾驶。人们不需要考驾照等等。

Dwarkesh Patel:人工智能的部署速度有多快,以及它在早期阶段的价值有多大,这可能是目前世界上最重要的问题。如果你想模拟 2030 年的情况,你应该对这个问题有所了解。

你可能会想到的另一件事是,自动驾驶对延迟有要求。我不知道实际的模型是什么,但我猜大概有数千万个参数之类的,这对于 LLM 的知识工作来说并非必要的限制。也许在计算机使用等方面会有所限制。

但另一个重要问题,也许更重要的是资本支出问题。是的,提供额外的模型副本确实需要额外的成本,但一个会话的运营成本相当低,你可以将人工智能的成本分摊到训练运行本身中,具体取决于推理扩展的进展情况等等。但这肯定不像为了服务某个车型的另一个实例而制造一辆全新的汽车那么简单。因此,更广泛地部署的经济效益要好得多。

Andrej Karpathy:没错。如果你坚持比特的概念,比特比任何接触物理世界的东西都要简单一百万倍。比特是完全可变的,可以以极快的速度重组。你会期望在行业中也出现更快的适应性变化等等。第一个是什么?

Dwarkesh Patel:延迟要求及其对模型大小的影响?

Andrej Karpathy:我认为大致正确。我还认为,如果我们谈论的是大规模的知识工作,实际上也会有一些延迟要求,因为我们必须创建大量的计算资源并为其提供服务。

简要谈谈最后一个方面。社会对此有何看法?法律后果是什么?从保险角度来看,它是如何运作的?它包含哪些层面和方面?人们在 Waymo 上放置锥体相当于什么?所有这些都会有类似的情况。所以我觉得自动驾驶是一个非常好的比喻,你可以借鉴。车里的锥体相当于什么?隐藏起来的远程操作工人相当于什么?以及它的所有方面。

Dwarkesh Patel:你对这对当前的人工智能建设意味着什么有什么看法?这将在一两年内使全球可用计算量增加 10 倍,到 2020 年可能增加 100 倍以上。如果人工智能的使用率低于一些人天真的预测,这是否意味着我们过度建设了计算能力?还是这是一个单独的问题?

Andrej Karpathy:有点像铁路的情况。历史上有先例。或者说,是电信行业?它为十年后才出现的互联网铺平了道路,并在 90 年代末创造了整个电信行业的泡沫。

我知道这听起来很悲观,其实我很乐观。之所以听起来悲观,只是因为我打开推特,看到一堆我完全无法理解的东西。这种情况存在的原因有很多。说实话,很多都与融资有关。很多只是吸引注意力,在互联网上把注意力转化为金钱。这样的事情有很多,我只是对此做出反应。

但总体而言,我非常看好科技。我们会努力解决所有这些问题。科技发展速度很快。我不知道是否存在过度建设。我认为我们能够消化掉我所理解的正在建设的东西。例如,Claude Code 或 OpenAI Codex 之类的东西一年前甚至还不存在。对吗?这是一项神奇的技术。未来会有巨大的需求,就像我们已经在 ChatGPT 等方面看到的需求一样。

我不知道是否存在过度建设。我只是在对一些人们一直错误理解的快速发展做出反应。在我从事人工智能的 15 年里,我听过很多次,一些非常有名望的人总是犯错。我希望这个问题能够得到适当的校准,其中一些问题还会产生地缘政治影响等等。我不希望人们在这个领域犯错。我希望我们能够立足于现实,认清技术是什么,不是什么。

Andrej Karpathy 开炮:智能体都在装样子,强化学习很糟糕,AGI 十年也出不来

“人工智能+产业”,空间因“您”而变!

合作沟通:请加 zr18620222480

链接分享:请发至1638079312@qq.com


【声明】内容源于网络
0
0
变芯空间
内容 0
粉丝 0
变芯空间
总阅读0
粉丝0
内容0