

强化学习之父理Richard Sutton认为大语言模型是死胡同

AQG安侨教育

2025-10-24

导读：理查德·萨顿(Richard Sutton)是强化学习之父，2024年图灵奖得主，也是《苦涩的教训》一书的作者。

序言：人工智能时代的教育觉醒

在与“强化学习之父”理查德·萨顿教授的深度对话之后，我们或许比以往任何时候都更需要重新审视“学习”这一概念的本质。

萨顿教授指出，真正的智能并非来自被动训练，而源自持续的、自我驱动的学习过程——正如人类与动物在与环境的互动中获得经验与智慧那样。

这正是安侨教育（AQG Education）始终坚守的理念：教育不仅是知识的传递，更是一种终身强化学习（Reinforcement Learning of Life）。

在我们看来，人工智能的快速迭代并非威胁，而是一次深刻的教育哲学革命。未来的学习者不应被动地等待算法的馈赠，而应成为能够与智能体共同成长、共同探索的“主动学习者”。

今天，安侨教育正与分布于美加的安侨校友们一道，直面人工智能时代的变革，携手探索教育与科技融合的新范式。

正如这篇采访所揭示的那样，我们相信：教育的未来属于那些能够不断自我更新、勇于实验的学习者——而非仅仅扩张算力的系统。

—— 安侨教育（AQG Education）

致力于以人工智能重新定义学习、成长与全球理解。

主持/作者：Dwarkesh Patel，知名科技播客主持人，曾与多位科技领域领军人物进行深度访谈，涉及人工智能、能源问题等议题。

理查德·萨顿(Richard Sutton)是强化学习之父，2024年图灵奖得主，也是《苦涩的教训》一书的作者。他认为大语言模型已经走入死胡同。在采访他之后，我对理查德观点的总结如下：大语言模型无法在工作中学习，因此无论我们如何扩展规模，都需要某种新的架构来实现持续学习。一旦我们有了这种架构，就不再需要特殊的训练阶段——智能体将像所有人类一样，实际上像所有动物一样，即时学习。这种新范式将使我们目前使用大语言模型的方法过时。在采访中，我尽力阐述大语言模型可以作为体验式学习基础的这一观点……结果引发了一些激烈的讨论。非常感谢阿尔伯塔机器智能研究所邀请我到埃德蒙顿，并让我使用他们的工作室和设备。

Dwarkesh Patel 00:00:00

今天我要和理查德·萨顿交谈，他是强化学习的奠基人之一，也是该领域许多主要技术的发明者，比如TD学习和策略梯度方法。正因如此，他获得了今年的图灵奖，这个奖项如果你不知道的话，可以说是计算机科学界的诺贝尔奖。理查德，祝贺你。

Richard Sutton 00:00:17

谢谢你，Dwarkesh。

Dwarkesh Patel 00:00:18

感谢你参加这期播客。

Richard Sutton 00:00:20

这是我的荣幸。

Dwarkesh Patel 00:00:21

第一个问题。我和我的听众都熟悉LLM（大型语言模型）的AI思维方式。从概念上讲，从强化学习（RL）的角度来思考AI，我们会遗漏什么？

Richard Sutton 00:00:33

这确实是一个完全不同的观点。它很容易变得孤立，失去相互对话的能力。大型语言模型已经变得如此重要，总的来说，生成式人工智能也是如此。我们的领域容易受到潮流和时尚的影响，所以我们失去了对基本事物的关注。我认为强化学习是基础的人工智能。什么是智能？问题在于理解你的世界。强化学习是关于理解你的世界，而大型语言模型则是模仿人类，做人们告诉你应该做的事。它们并不是要弄清楚该做什么。

Dwarkesh Patel 00:01:19

您可能会认为，要模拟互联网文本语料库中的数万亿个令牌，您必须建立一个世界模型。事实上，这些模型似乎确实有非常强大的世界模型。它们是我们迄今为止在人工智能领域做出的最好的世界模型，对吧？你认为缺少了什么?

Richard Sutton 00:01:38

我不同意你刚才说的多数观点。模仿人们说的话根本算不上是在构建世界模型。你只是在模仿那些拥有世界模型的事物：人类。我不想以对抗的方式讨论这个问题，但我质疑他们是否真的拥有世界模型。一个真正的世界模型应该能够预测将会发生的事情。他们或许能预测一个人会说什么，但无法预测会发生什么。用艾伦·图灵的话来说，我们想要的是能够从经验中学习的机器，这里的经验指的是你生活中实际发生的事情。你做事，观察结果，然后从中学习。大型语言模型则从其他东西中学习。它们学习的是"这是一个情境，而这是某个人的行为"。这种学习方式隐含的建议是，你应该按照别人的做法去做。

Dwarkesh Patel 00:02:39

我想关键问题在于，我想知道你是否同意这一点：有些人会说模仿学习已经为我们或这些模型提供了一个很好的先验知识，即解决问题的合理方式。正如你所说的，随着我们进入经验时代，这个先验知识将成为我们从经验中训练这些模型的基础，因为这使它们有时能够给出正确的答案。然后在此基础上，你可以用经验来训练它们。你同意这个观点吗？

Richard Sutton 00:03:12

不，我同意这是大型语言模型的视角。但我认为这不是一个好的视角。要成为某事物的先验条件，就必须存在一个真实的事物。先验的知识应该以实际知识为基础。那么实际知识又是什么呢？在这个大型语言模型的框架中，并没有实际知识的定义。什么使得一个行为成为应该采取的好行为呢？

你认识到持续学习的必要性。如果你需要持续学习，这意味着要在与世界正常互动的过程中进行学习。在正常的互动过程中，必须存在某种方式来辨别什么是对的。在大型语言模型的设置中，有什么方法可以判断该说什么才是正确的吗？你会说某些话，但不会得到关于什么才是正确说法的反馈，因为没有定义什么是正确的说法。没有目标。如果没有目标，那么可以说一件事，也可以说另一件事。没有什么是绝对正确的说法。

这里没有绝对真理。如果你没有绝对真理，就无法拥有先验知识，因为先验知识应该是对真理的某种暗示或初始信念。这里没有任何真理。没有绝对正确的话可说。在强化学习中，存在绝对正确的话和正确的事，因为正确的事就是能让你获得奖励的事。

我们有一个关于什么才是正确做法的定义，因此我们可以拥有先验知识或他人提供的关于什么才是正确做法的知识。然后我们可以进行检查，因为我们有一个关于实际正确做法的定义。

更简单的情况是当你试图建立世界模型时。当你预测会发生什么时，你先做出预测，然后观察实际发生的情况。这就是基本事实。而在大型语言模型中不存在基本事实，因为你无法预测接下来会发生什么。当你在对话中说出某些话时，大型语言模型无法预测对方会如何回应，也不知道回应会是什么。

Dwarkesh Patel 00:05:29

我认为他们会这样做。你可以直接问他们："用户可能会做出什么回应？"他们会给出一个预测。

Richard Sutton 00:05:37

不，他们会回答这个问题的。但他们没有实质性的预测，他们不会对发生的事情感到惊讶。如果发生的事情与你所说的他们预测的不一样，他们不会因为发生了意想不到的事情而改变。要了解这一点，他们必须做出调整。

Dwarkesh Patel 00:05:56

我认为这种能力在特定情境下确实存在。观察模型进行思维链推理很有趣。假设它正在尝试解决一个数学问题。它会说："好吧，我首先要用这种方法来解决问题。"然后它会写下来，接着又像："哦等等，我刚意识到这不是解决这个问题的正确概念方法。我要用另一种方法重新开始。"

这种灵活性在特定情况下确实存在，对吗？你是有其他想法，还是认为需要将这种能力扩展到更长的时期？

Richard Sutton 00:06:28

我只是说，他们并没有真正意义上对接下来会发生什么做出预测。他们对接下来发生的事情不会感到惊讶。如果发生什么事情，他们也不会根据所发生的事情做出任何改变。

Dwarkesh Patel 00:06:41

这难道不就是下一个令牌预测的本质吗？预测接下来会发生什么，然后根据惊喜（即实际结果）进行更新？

Richard Sutton 00:06:47

下一个关键是要明确他们应该说什么，应该采取什么行动。这不是世界会对他们的行为做出什么反应。让我们回到他们缺乏目标这个问题上。对我来说，拥有目标才是智能的本质。能够实现目标的事物才称得上智能。我喜欢约翰·麦卡锡(John McCarthy)的定义，即智能是实现目标的能力中的计算部分。你必须要有目标，否则你只是一个行为系统。你并不特殊，也不智能。你同意大型语言模型没有目标这一点吗？

Dwarkesh Patel 00:07:25

不，他们有一个目标。

Richard Sutton 00:07:26

目标是什么？

Dwarkesh Patel 00:07:27

下一个令牌预测

Richard Sutton 00:07:29

那不是一个目标。它不会改变世界。令牌向你袭来，如果你预测它们，你并不会影响它们。

Dwarkesh Patel 00:07:39

哦，是的。这不是一个关于外部世界的目标。

Richard Sutton 00:07:43

这不是一个目标。这不是一个实质性的目标。你不能看着一个系统说它有目标，如果它只是坐在那里进行预测，并对自己能准确预测感到满意的话。

Dwarkesh Patel 00:07:55

我想理解的更重要的问题是，为什么你不认为在大型语言模型之上进行强化学习是一个富有成效的方向。我们似乎能够赋予这些模型解决复杂数学问题的目标。它们在许多方面都达到了人类解决数学奥林匹克竞赛问题的巅峰水平。它们在国际数学奥林匹克竞赛中获得了金牌。因此，看起来在国际数学奥林匹克竞赛中获得金牌的模型确实具有解决数学问题的目标。为什么我们不能将这个扩展到不同领域呢？

Richard Sutton 00:08:27

数学问题与此不同。构建物理世界的模型和执行数学假设或运算的后果，这是两件非常不同的事情。经验世界必须通过学习来认识。你必须了解其后果。而数学则更注重计算，更像是标准规划。在数学中，他们可以有一个寻找证明的目标，并且在某种程度上被赋予了寻找这个目标证明的任务。

Dwarkesh Patel 00:09:10

有趣的是，你在2019年写了一篇题为《苦涩的教训》的文章，这可能是人工智能历史上最有影响力的文章之一。然而，人们却以此作为扩大语言模型规模的正当理由，因为在他们看来，这是我们发现的唯一一种可以将大量计算资源投入到世界学习中的可扩展方式。有趣的是，你的观点是语言模型并没有遵循"苦涩的教训"这一规律。

Richard Sutton 00:09:41

这是一个有趣的问题，大型语言模型是否是"苦涩教训"的一个例子。它们显然是一种利用大规模计算的方式，这种计算能力可以扩展到互联网的极限。但它们也是融入大量人类知识的一种方式。这是一个有趣的问题。这是一个社会学或产业界的问题。它们是否会达到数据的极限，然后被那些能够仅从经验而非人类获取更多数据的事物所取代？

从某些方面来说，这是一个典型的"苦涩教训"案例。我们向大型语言模型中投入的人类知识越多，它们的表现就越好。所以这感觉很好。然而，我预计会出现能够从经验中学习的系统。这些系统可能表现更好，也更具有可扩展性。在这种情况下，这将是另一个"苦涩教训"的例子，即那些依赖人类知识的系统最终会被仅仅从经验和计算中训练出来的系统所取代。

Dwarkesh Patel 00:11:17

我想这对我来说似乎不是关键问题。我认为那些人也会同意，未来绝大部分的计算能力将来自于从经验中学习。他们只是认为，作为这个过程的支撑或基础，也就是你开始注入计算能力以进行未来体验式学习或在职学习的起点，将是大型语言模型。

我仍然不明白为什么这完全是一个错误的起点。为什么我们需要一个全新的架构来开始做体验式持续学习？为什么我们不能从大型语言模型开始做这件事呢？

Richard Sutton 00:11:58

在每个惨痛教训的案例中，你都可以从人类知识开始，然后做可扩展的事情。情况总是如此。没有任何理由说明这一定是坏事。但事实上，在实践中，结果总是很糟糕。人们会陷入人类知识的思维方式，从心理上……现在我在推测为什么会这样，但这就是一直发生的情况。他们总是被那些真正可扩展的方法所击败。

Dwarkesh Patel 00:12:34

让我了解一下这个可扩展方法是什么。

Richard Sutton 00:12:37

可扩展的方法是从经验中学习。你尝试各种事情，看看什么有效。没有人需要告诉你。首先，你要有一个目标。没有目标，就没有对错、好坏之分。大型语言模型试图在没有目标或好坏判断的情况下运行。这恰恰是从错误的地方开始的。

Dwarkesh Patel 00:13:04

也许将这与人类进行比较会很有趣。无论是在通过模仿还是通过经验学习这个问题上，还是在目标这个问题上，我认为都存在一些有趣的相似之处。孩子们最初是通过模仿来学习的。你不这么认为吗？

Richard Sutton 00:13:24

不，当然不了。

Dwarkesh Patel 00:13:27

真的吗？我觉得孩子们只是观察大人。他们试着说同样的话...

Richard Sutton 00:13:32

这些孩子多大了？头六个月的情况怎么样？

Dwarkesh Patel 00:13:37

我认为他们是在模仿。他们试图让自己的嘴型看起来像他们母亲说话时的样子。然后他们会说出同样的词，却不理解这些词的含义。随着年龄的增长，他们模仿的复杂性也会增加。你可能在模仿乐队中人们用来猎鹿或其他技能的技巧。然后你进入从经验中学习的强化学习机制。但我认为人类身上发生了很多模仿学习。

Richard Sutton 00:14:04

令人惊讶的是你会有如此不同的观点。当我看到孩子们时，我看到他们只是在尝试各种事情，挥舞着双手，转动着眼睛。他们的眼神转动方式甚至是发出的声音，都没有模仿的对象。他们可能想要创造出相同的声音，但是他们的行为，婴儿实际所做的动作，是没有目标的。也没有任何范例可循。

Dwarkesh Patel 00:14:37

我同意。这并不能解释婴儿的所有行为，但我认为它能引导学习过程。即使是LLM（大型语言模型），在训练初期尝试预测下一个标记时，也会进行猜测。这个猜测会与实际看到的不同。在某种意义上，这是一种非常短期的强化学习，在这个过程中它会做出这样的猜测："我认为这个标记会是这样。"这就像是孩子尝试说一个词时的另一种情况。他们说错了。

Richard Sutton 00:14:58

大型语言模型正在从训练数据中学习。它并不是从经验中学习。它学习的是在其正常生活中永远无法获得的东西。没有任何训练数据告诉你应该在正常生活中采取这种行为。

Dwarkesh Patel 00:15:15

我认为这更多的是一个语义上的区别。你称之为什么？学校？这不就是训练数据吗？

Richard Sutton 00:15:22

上学的时间晚多了。好吧，我不应该说过"永远不会"这种话。我不知道，我想我甚至会对学校这么说。但正规教育是个例外。你不应该以这个为基础来构建你的理论。

Dwarkesh Patel 00:15:35

但是在学习的某些阶段，早期的生物编程让你并不是很有用。那么你为什么存在呢？就是为了理解世界并学习如何与之互动。这看起来就像一个训练阶段。我同意后来会有一个更渐进的...从训练到部署并没有一个明确的分界点，但似乎确实存在这样一个初始训练阶段，对吗？

Richard Sutton 00:15:59

在你接受过的训练中，并没有告诉你应该做什么。什么都没有。你只能看到发生的事情，却没有人告诉你该怎么做。别这么较真。我的意思是这很明显。

Dwarkesh Patel 00:16:14

你真的是被教导该做什么。这就是"训练"这个词的由来，源自人类。

Richard Sutton 00:16:20

我认为学习并不是真正的训练。我认为学习就是学习本身，它是一个主动的过程。孩子尝试各种事情并观察结果。当我们想到婴儿的成长时，我们不会考虑训练这个词。

这些事情实际上已经被很好地理解了。如果你看看心理学家如何看待学习，就会发现根本没有所谓的模仿。也许在某些极端情况下，人类可能会这样做或看似这样做，但根本不存在一种叫做模仿的基本动物学习过程。基本动物学习过程只存在于预测和试错控制中。

有时候最难看到的东西恰恰是最明显的，这真的很有趣。如果你观察动物及其学习方式，再研究心理学和我们对它们的理论，就会发现监督学习并不是动物学习方式的一部分。我们没有理想行为的例子。我们所拥有的只是发生的事情的例子，一件事接着另一件事。我们有的只是"我们做了某事然后产生了后果"这样的例子。但根本没有监督学习的例子。

监督学习不是自然界中发生的事情。即使学校里的情况如此，我们也应该忘记它，因为这是人类特有的现象。这种现象在自然界中并不普遍存在。松鼠不需要上学。松鼠可以了解整个世界。我想很明显，监督学习在动物界是不会发生的。

Dwarkesh Patel 00:18:11

我采访了这位心理学家和人类学家约瑟夫·亨里奇(Joseph Henrich)，他研究文化进化，主要研究是什么让人类与众不同，以及人类如何获取知识。

Richard Sutton 00:18:26

你为什么要试图区分人类呢？人类也是动物。我们共同拥有的东西才更有趣。我们应该更少关注那些让我们与众不同的地方。

Dwarkesh Patel 00:18:38

我们正在尝试复制智能。如果你想知道是什么让人类能够登月或制造半导体，我认为我们想要理解的是是什么让这一切成为可能。没有动物能够登月或制造半导体。我们想要理解是什么让人类如此特别。

Richard Sutton 00:18:54

我喜欢你认为那件事显而易见的方式，因为我觉得相反的观点才显而易见。我们必须理解我们是如何作为动物的。如果我们能理解松鼠，我想我们就几乎能完全理解人类的智力了。语言这部分只是表面的一层薄薄饰面。

这很好。我们发现彼此的思维方式有很大不同。我们不是在争论，而是在努力分享各自不同的思考方式。

Dwarkesh Patel 00:19:29

我认为辩论是有用的。我确实想完成这个想法。约瑟夫·亨里奇(Joseph Henrich)有一个关于人类为了成功必须掌握许多技能的有趣理论。我们所说的不是过去一千年或一万年，而是几十万年的时间。世界真的很复杂。

如果你生活在北极，仅凭理性思考是不可能学会如何捕猎海豹的。这需要一个漫长而复杂的过程，包括如何制作诱饵、如何寻找海豹，以及如何加工食物以确保不会中毒。所有这些都不可能仅仅通过理性思考就能掌握。随着时间的推移，会出现一个更广泛的过程——无论你想用什么类比，也许是强化学习，或者其他什么——在这个过程中，整个文化体系共同摸索出了如何寻找、捕杀和食用海豹的方法。

在他看来，当这种知识代代相传时，情况就是你必须模仿长辈才能学会这项技能。你不可能仅凭思考就学会如何狩猎、宰杀和处理海豹。你必须观察他人，可能进行一些调整和改动，这就是知识积累的方式。文化传承的第一步必须是模仿。但也许你有不同的想法？

Richard Sutton 00:21:00

不，我的想法是一样的。不过，这只是建立在基本试错学习和预测学习之上的一小点不同而已。这也许就是让我们与其他动物有所区别的地方。但我们首先还是动物。在拥有语言和其他能力之前，我们也是动物。

Dwarkesh Patel 00:21:25

我确实认为你提出了一个非常有趣的观点，那就是持续学习是大多数哺乳动物都具备的能力。我想所有的哺乳动物都有这种能力。有趣的是，我们拥有所有哺乳动物都具备的能力，而我们的AI系统却没有。相比之下，理解数学和解决复杂数学问题的能力——这取决于你如何定义数学——是AI具备的能力，但几乎没有任何动物拥有。最终什么变得困难，什么变得容易，这真的很令人感兴趣。

Richard Sutton 00:21:57

莫拉维克悖论

Dwarkesh Patel 00:21:58

对的，对的。

Dwarkesh Patel 00:23:10

你正在想象的这种替代性范式...

Richard Sutton 00:23:12

经验范式。让我们稍微展开说明一下。这个范式认为，经验、行为、感觉——嗯，感觉、行为、奖励——这个过程在你的生命中不断重复。它指出这是智能的基础和核心。智能就是关于如何利用这个连续的过程，调整行为以增加其中的奖励。

学习来自于溪流，学习也是关于溪流的。第二部分尤其发人深省。你所学习的知识，就是关于溪流的。你的知识关乎如果你采取某个行动，将会发生什么。或者它是关于哪些事件会跟随其他事件发生。这些都是关于溪流的。知识的内容就是关于溪流的陈述。因为这是关于溪流的陈述，所以你可以通过将其与溪流进行比较来检验它，并且你可以持续不断地学习。

Dwarkesh Patel 00:24:19

当你想象这个未来的持续学习智能体时...

Richard Sutton 00:24:22

它们不是"未来"。当然，它们一直存在。这就是强化学习范式，从经验中学习。

Dwarkesh Patel 00:24:29

嗯，我想我说的意思是一个通用的人类级别的持续学习智能体。那么奖励函数是什么？仅仅是预测世界吗？还是对世界产生特定的影响？通用的奖励函数会是什么呢？

Richard Sutton 00:24:46

奖励函数是任意的。如果你在下棋，那么奖励就是赢得棋局。如果你是只松鼠，奖励可能就与获取坚果有关。总的来说，对于动物而言，我们可以说奖励是为了避免痛苦并获得快乐。我认为还应该有一个与增加对环境理解有关的成分。这可以算是一种内在动机。

Dwarkesh Patel 00:25:27

我明白了。对于这款人工智能，很多人都希望它能做各种各样的事情。它正在执行人们想要的任务，但同时也在通过执行这些任务来了解世界。

假设我们摆脱这种既有训练期又有部署期的范式。我们是否也要摆脱这种既有模型又有模型的实例或副本来执行特定任务的范式？你如何看待这样一个事实：我们希望这个东西能够做不同的事情。我们希望能够汇聚它从做这些不同事情中获得的知识。

Richard Sutton 00:26:11

我不喜欢你刚才使用"模型"这个词的方式。我认为更好的词应该是"网络"，因为我觉得你想表达的是网络。也许会有很多个网络。无论如何，事物是可以被学习的。你会有很多副本和实例。当然，你会希望在这些实例之间共享知识。实现这一点有很多可能的办法。

如今，你养大一个孩子并让他了解这个世界，然后每个新出生的孩子都必须重复这个过程。而对于人工智能来说，对于数字智能，你可以希望只进行一次，然后将其复制到下一个作为起点。这将是一个巨大的节省。我认为这比从人类身上学习重要得多。

Dwarkesh Patel 00:27:02

我同意你说的这一点，无论你是否从大型语言模型（LLMs）开始，这都是必要的。如果你想要达到人类或动物级别的智能，你就需要这种能力。

假设一个人正在尝试创业。这是一件需要大约10年时间才能获得回报的事情。每10年你可能会有一个退出的机会，获得10亿美元的回报。但是人类具备创造中间辅助性奖励的能力，或者有一些方法...即使奖励非常稀疏，他们仍然能够通过理解接下来要做的事情是如何通向这个更宏伟的目标来制定中间步骤。你如何想象这样一个过程在人工智能身上会如何展开？

Richard Sutton 00:27:43

这是我们非常了解的事情。其基础是时间差分学习，这种学习在较小规模上发生着同样的过程。当你学习下棋时，你有赢得比赛这个长期目标。然而，你也想从更短期的目标中学习，比如吃掉对手的棋子。

你要通过拥有一个能够预测长期结果的估值函数来实现这一点。如果你吃掉对方的棋子，你对长期结果的预测就会改变。如果预测值上升，你就会认为自己要赢了。然后，这种信念的增加会立即强化吃掉棋子的这个走法。

我们有这个长期的目标，就是创办一家公司并赚很多钱。当取得进展时，我们会说："哦，我更有信心实现这个长期目标了"，这样就会激励我们一路上的每个进步。

Dwarkesh Patel 00:28:47

你也需要具备学习信息的能力。使人类与这些大型语言模型截然不同的一点是，当你在适应新工作时，你会吸收大量的背景知识和信息。这就是让你在工作中发挥作用的原因。你正在学习从客户的偏好到公司运作方式等所有方面的知识。

你从像TD学习这样的过程中获取的信息带宽是否足够高，能够获取人类在部署时需要以这种方式吸收的庞大上下文和隐性知识？

Richard Sutton 00:29:27

我不确定，但我认为关键在于，大世界假说似乎非常相关。人类之所以在工作中变得有用，是因为他们在接触自己特定领域的世界。这些无法提前预测，也不能全部预先设定。世界如此之大，你无法做到这一点。

在我看来，大型语言模型的梦想是你可以教会智能体一切。它将会无所不知，并且在它的"一生"中都不需要在线学习新的东西。你的例子都是在说，"好吧，你真的必须"因为你可以教它，但是存在着他们正在经历的特定生活中的所有这些小特质，以及他们正在合作的特定的人和他们的喜好，而不是普通人的喜好。这只是在说世界真的很大，而你将在过程中不断学习。

Dwarkesh Patel 00:30:28

在我看来，你需要两样东西。一是将这种长期目标奖励转化为未来奖励或通向最终奖励的中间预测性奖励的方法。但一开始，我觉得我需要保持住我在工作中获得的所有这些上下文信息。我正在了解我的客户、我的公司以及所有这些信息。

Richard Sutton 00:31:04

我想说你现在只是在进行常规学习。也许你使用"上下文"这个词是因为在大型语言模型中，所有这些信息都必须进入上下文窗口。但在持续学习的设置中，这些信息只会进入权重。

Dwarkesh Patel 00:31:17

也许"语境"这个词用得不准确，因为我想表达的是一个更普遍的概念。

Richard Sutton 00:31:20

你学会了适应所处环境的特定政策。

Dwarkesh Patel 00:31:25

我试图问的问题是，你需要某种方式来获取...当人们在现实世界中时，他们每秒能接收多少比特的信息？如果你只是通过Slack与客户进行交流的话。

Richard Sutton 00:31:41

也许你想问的是，为了获得我们需要学习的所有知识，奖励似乎太微不足道了。但我们拥有各种感官体验，我们可以从其他所有信息中学习。我们不仅仅从奖励中学习，我们从所有数据中学习。

Dwarkesh Patel 00:31:59

是什么学习过程帮助你获取这些信息？

Richard Sutton 00:32:06

现在我想谈谈这个由四部分组成的代理的基本通用模型。

我们需要一个策略。这个策略会说，"在我当前所处的情况下，我应该怎么做？"我们还需要一个价值函数。这个价值函数是通过时序差分学习得到的，它能产生一个数字。这个数字表示当前的进展状况。然后你观察这个数字是上升还是下降，并利用它来调整你的策略。所以你需要这两个要素。此外还有感知组件，即构建你的状态表示，也就是你对自己当前位置的认知。

第四个才是我们真正要探讨的，至少是最透明的一个。第四个是世界转换模型。这就是为什么我不太愿意把所有东西都简单地称为"模型"，因为我想讨论的是世界模型，特别是世界的转换模型。你相信如果这样做，会发生什么？你的行为会带来什么后果？这就是你对世界的物理认知。但它不仅仅是物理，还包括抽象模型，比如你从加利福尼亚来到埃德蒙顿参加这个播客的行程模型。那是一个模型，也是一个转换模型。这种模型是通过学习获得的。它不是从奖励中学习来的，而是通过"你采取了行动，观察到了结果，然后建立了这个世界模型"这样的过程学习来的。

你将从所接收到的所有感觉中学到非常丰富的知识，而不仅仅是来自奖励。整个模型也必须包含奖励，但这只是整个模型中的一个很小的但至关重要的部分。

Dwarkesh Patel 00:33:39

我的一个朋友托比·奥德(Toby Ord)指出，如果你观察谷歌DeepMind部署的MuZero模型，就会发现这些模型最初并不是一个通用智能，而是一个用于训练专门智能来玩特定游戏的通用框架。也就是说，使用这个框架，你无法训练出一个能同时下棋和围棋以及其他游戏的策略。你必须以专门的方式分别训练每一个。

他想知道这是否意味着，由于这种信息限制，强化学习总体上每次只能学习一件事？信息的密度是否不够高？或者这是否只是特定于MuZero的实现方式。如果是特定于AlphaZero的，那么需要改变什么才能使它成为一个通用的学习代理？

Richard Sutton 00:34:35

这个想法是完全通用的。我总是以人工智能代理的概念作为我的经典例子，这个概念就像人一样。在某种意义上，人们只生活在一个世界中。这个世界可能包含国际象棋，也可能包含雅达利游戏，但这些并不是不同的任务或不同的世界。这些只是他们遇到的不同状态。所以这个通用的想法完全没有限制。

Dwarkesh Patel 00:35:06

也许解释一下这种架构或方法中缺失了什么，以及这种持续学习的通用人工智能（AGI）所应具备的东西，会更有帮助。

Richard Sutton 00:35:19

他们只是建立了它。他们的雄心并不是在这些游戏中只使用一个代理。如果我们想要谈论迁移，我们应该谈论的是状态之间的迁移，而不是游戏之间或任务之间的迁移。

Dwarkesh Patel 00:35:36

我想知道从历史经验来看，我们是否已经看到了使用强化学习技术所需的迁移水平来构建这类...

Richard Sutton 00:35:49

好的。我们目前还没有看到任何迁移现象。要实现良好性能的关键在于你能够从一个状态很好地泛化到另一个状态。我们还没有任何擅长这一点的方法。我们所拥有的是人们尝试不同的方法，然后确定某种表现良好或泛化能力强的表示方式。但是，我们几乎没有促进迁移的自动化技术，而且这些技术都没有在现代深度学习中使用。

Dwarkesh Patel 00:36:26

让我换个说法来确认我是否理解正确。听起来你是在说，当我们的模型中出现泛化现象时，这是由于某种精心设计的...

Richard Sutton 00:36:42

是人类造成的。是研究人员造成的。因为没有其他解释。梯度下降法不会让你很好地泛化。它只会让你解决问题。如果你获得新数据，它也不会让你以良好的方式泛化。

泛化是指训练一件事物会影响你在其他事物上的表现。我们知道深度学习在这方面表现得很差。例如，我们知道如果你训练某个新事物，它通常会灾难性地干扰你已经掌握的所有旧知识。这就是典型的泛化能力差。

正如我所说，泛化是某种训练状态对其他状态的影响。泛化这一事实本身并不一定是好是坏。你可能会泛化得很差，也可能会泛化得很好。泛化总是会发生，但我们需要能够导致良好泛化而非不良泛化的算法。

Dwarkesh Patel 00:37:41

我不想重新挑起这个最初的关键问题，但我确实很好奇，因为我觉得我可能对术语的使用有所不同。理解这些大型语言模型的一种方式是，它们正在扩大泛化能力的范围，从早期的系统（甚至连基本的数学题都做不好）发展到现在的水平，能够解决这类数学奥林匹克竞赛类型的问题。

你最初让他们从能够解决加法问题开始。然后他们可以解决需要使用不同种类的数学技巧、定理和概念类别的问题，这就是数学奥林匹克竞赛所要求的。听起来你不认为能够解决该类别中的任何问题都属于概括能力的体现。如果我理解有误，请告诉我。

Richard Sutton 00:38:33

大型语言模型非常复杂。我们并不真正了解它们之前接受过什么信息。我们不得不进行猜测，因为它们已经被输入了如此大量的数据。这就是为什么它们不是进行科学研究的理想方式。这个过程太过不可控，充满了未知。

Dwarkesh Patel 00:38:52

但如果你提出一个全新的...

Richard Sutton 00:38:54

他们或许在很多方面都做对了。问题在于为什么。嗯，也许是因为他们不需要进行泛化就能做对，因为要想做对一些问题，唯一的方法就是形成一个能够解决所有问题的方案。如果只有一个答案，而你找到了它，这就不叫泛化。这只是解决问题的唯一方法，所以他们找到了这个唯一的方法。但是泛化是指事情可以这样，也可以那样，而他们选择了一个好的方式。

Dwarkesh Patel 00:39:24

我的理解是，这在编码代理方面越来越有效。对于工程师来说，很明显，如果你试图编写一个库，有很多不同的方法可以实现最终规范。这些模型最初让人沮丧的是，它们会以一种草率的方式来完成。随着时间的推移，它们在提出开发人员更满意的设计架构和抽象方面变得越来越好。这似乎是你正在谈论的一个例子。

Richard Sutton 00:39:56

这些算法中没有能使其很好地泛化的东西。梯度下降法只会让它们找到针对已见过问题的解决方案。如果只有一种解决方法，它们就会采用这种方法。但如果有多种解决方法，其中一些泛化效果好，一些泛化效果差，那么算法中并没有什么东西能让它们选择泛化效果好的方法。当然，人类是会进化的，如果方法行不通，人们就会不断调整，直到找到解决方案，也许能找到泛化效果好的方法。

Dwarkesh Patel 00:41:29

我想从更宏观的角度来探讨一下，在人工智能领域工作的时间比现在大多数评论者或从业者都要长。我很好奇最大的惊喜是什么。你觉得现在有多少新东西涌现出来？还是说人们只是在玩味旧有的想法？从宏观角度来看，你甚至在深度学习流行之前就开始涉足这个领域了。那么，你如何看待这个领域随时间发展的轨迹，新想法是如何出现的，以及其他一切？有什么让你感到惊讶的地方吗？

Richard Sutton 00:42:06

我仔细思考了一下这个问题。有几点值得注意。首先，大型语言模型令人惊讶。人工神经网络在语言任务上的表现如此有效，这让人感到意外。这是一个意想不到的结果，因为语言看起来与众不同。所以这一点令人印象深刻。

在人工智能领域，关于简单基本原理的方法（如搜索和学习等通用方法）与符号方法等人类赋能系统之间，一直存在着长期争议。在过去，这很有趣，因为像搜索和学习这样的方法被称为弱方法，因为它们只是使用通用原理，而没有利用人类知识赋予系统的力量。那些使用人类知识的方法被称为强方法。我认为弱方法已经彻底获胜了。这是人工智能早期最大的问题，即会发生什么。学习和搜索方法已经赢得了胜利。

在某种程度上，这并不让我感到惊讶，因为我一直对那些简单的基本原理抱有希望。即使是在大型语言模型上，它的效果之好也令人惊讶，但这一切都是如此美好和令人欣慰。AlphaGo的表现令人惊讶，尤其是AlphaZero，它们的表现如此之好。但这一切都让人感到非常欣慰，因为再次证明了，简单的基本原理才是取胜的关键。

Dwarkesh Patel 00:44:00

每当公众的观念因为某项新应用的发展而改变——比如当AlphaZero成为这种病毒式轰动时——对你这样一个从字面上来说提出了许多所用技术的人来说，这对你来说感觉像是取得了新的突破？还是感觉像是"哦，我们从90年代就有了这些技术，人们现在只是把它们结合起来应用而已"？

Richard Sutton 00:44:28

整个AlphaGo项目有一个前身，那就是TD-Gammon。格里·特萨罗使用强化学习和时间差分学习方法来玩西洋双陆棋。它击败了世界顶尖选手，表现得非常出色。从某种意义上说，AlphaGo只是这个过程的一个扩展。但这是一个相当大的扩展，并且在搜索方式上也有额外的创新。但这是合理的。从这个意义上说，这并不令人惊讶。

AlphaGo实际上并没有使用TD学习。它等待看到最终结果。但AlphaZero使用了TD。AlphaZero被应用于所有其他游戏中，表现得非常出色。我一直对AlphaZero下棋的方式印象深刻，因为我是一名棋手，它为了位置优势牺牲棋子。它愿意并且耐心地长时间牺牲这些棋子。这令人惊讶，因为它效果如此好，但同时也令人欣慰，这符合我的世界观。

这让我走到了现在的位置。在某种意义上，我是一个反传统者，或者说是持不同想法的人。我个人很满足于长期与我的领域不同步，可能是几十年，因为过去偶尔我也被证明是正确的。我所做的另一件事——为了让自己不觉得与时代脱节或思维怪异——就是不去关注我所在的环境或领域，而是回顾历史，看看不同领域的人们对心智的经典思考。我并不觉得自己与更大的传统脱节。我真的把自己视为一个古典主义者，而不是一个反传统者。我关注的是那些一直以来思考心智问题的广大思想家群体。

Dwarkesh Patel 00:46:41

我想问你一些不太常规的问题，如果你不介意的话。我对这个苦涩教训的理解是，它并不是在说人类手工研究者的调优方法一定无效，而是很明显这种方法的扩展性要比计算能力差得多，而计算能力正在呈指数级增长。所以我们需要寻找能够利用后者优势的技术。

Richard Sutton 00:47:06

是的

Dwarkesh Patel 00:47:07

一旦我们拥有通用人工智能（AGI），我们将拥有与计算能力呈线性扩展的研究人员。我们将迎来数百万人工智能研究人员的井喷。他们的能力将随着计算能力的增长而快速增长。所以这可能意味着，让他们从事传统的 AI 研究和手工解决方案将是合理的或有意义的。作为一个关于 AGI 之后人工智能研究如何发展的愿景，我想知道这是否仍然符合"苦涩的教训"。

Richard Sutton 00:47:40

我们是如何发展到这种通用人工智能的？你想假设它已经实现了。

Dwarkesh Patel 00:47:45

假设我们从通用方法开始，但现在我们有了通用人工智能。现在我们想要...

Richard Sutton 00:47:52

那我们就已经实现了。

Dwarkesh Patel 00:47:53

有趣。你不认为在通用人工智能（AGI）之上还有更高级的东西吗？

Richard Sutton 00:47:58

但是你又在用它来获取通用人工智能了。

Dwarkesh Patel 00:48:01

嗯，我利用它来获得在不同任务上的超人类水平的智力或能力。

Richard Sutton 00:48:05

这些人工智能，如果它们还不是超人级别的，那么它们可能传授的知识也不会是超人级别的。

Dwarkesh Patel 00:48:15

我想这其中有不同的等级/层次。

Richard Sutton 00:48:16

我不确定你的想法是否合理，因为这似乎假设了通用人工智能（AGI）的存在，并且认为我们已经解决了这个问题。

Dwarkesh Patel 00:48:27

也许激发这一点的一个方式是，AlphaGo 是超人类的。它能击败任何围棋选手。而 AlphaZero 每次都能击败 AlphaGo。所以有办法变得比超人类还要超人类。这也是一个不同的架构。所以在我看来，能够跨所有领域进行通用学习的智能体，我们也可以找到更好的学习架构，就像 AlphaZero 是对 AlphaGo 的改进，MuZero 是对 AlphaZero 的改进一样。

Richard Sutton 00:48:56

而AlphaZero的改进之处在于它不使用人类知识，而是仅从经验中学习。

Dwarkesh Patel 00:49:04

对的

Richard Sutton 00:49:04

既然这种方法通过经验已经运作得如此成功，而不是依靠其他代理的帮助，那你为什么还说"引入其他代理的专业知识来教授它"呢？

Dwarkesh Patel 00:49:19

我同意在那个特定案例中，我们正在转向更通用的方法。我想用这个特定的例子来说明，从超人级别到超人++级别，再到超人+++级别是可能的。我很想知道，你认为这些渐进式的发展是否会通过简单化方法继续发生。或者，因为我们将拥有数百万个能够根据需要增加复杂性的智能思维，这是否仍将是一条错误的道路，即使当你有数十亿或数万亿个AI研究人员时？

Richard Sutton 00:49:51

思考那个案例会更有趣。当你拥有多个 AI 时，它们会像人类文化进化那样互相帮助吗？也许我们应该讨论一下这个问题。至于那个惨痛的教训，谁在乎呢？那只是对历史特定时期的一个经验性观察。70年的历史经验并不一定适用于接下来的70年。

一个有趣的问题是：你是一个人工智能，如果你获得更多的计算能力，你应该用它来提升自身的计算能力吗？还是应该用它来创建一个自己的副本，去地球的另一端或其他领域学习有趣的知识，然后向你汇报？

我认为这是一个非常有趣的问题，只有在数字智能时代才会出现。我不确定答案是什么。更多的问题是，是否真的能够将其分离出来，发送出去，学习一些新的东西，也许是全新的东西，然后它是否能够重新融入原始系统？或者它会变化太大以至于无法实现？这可能吗，还是不可能？正如我前几天晚上看到你的一个视频一样，你可以把这个想法发挥到极致。视频表明这是可能的。你可以分离出许多许多副本，进行不同的操作，高度去中心化，但最后再向中央主控系统汇报。这将会是一件非常强大的事情。

这是我试图为这个观点补充一些内容。一个重大问题将会是腐败。如果你真的能够从任何地方获取信息并将其带入你的中枢思维，你就会变得越来越强大。一切都是数字化的，它们都说某种内部数字语言。也许这会很简单并且可行。但这并不会像你想象的那么容易，因为这样你可能会失去理智。如果你从外部引入某些东西并融入你的内在思维，它可能会控制你，改变你，可能会是你的毁灭，而不是知识的增长。

新闻出处：

https://www.dwarkesh.com/p/richard-sutton

【声明】内容源于网络

AQG安侨教育

AQG安侨是加拿大珀塞尔国际教育控股子公司——一家集实体资产控股运营、投资及资产管理、国际教育服务于一体的集团公司，拥有珀塞尔高尔夫、珀塞尔幼儿园。安侨为企业家、专业投资人士等各领域的客户提供移民及留学咨询，境外学业监管服务。

内容 716

粉丝 0

AQG安侨教育 AQG安侨是加拿大珀塞尔国际教育控股子公司——一家集实体资产控股运营、投资及资产管理、国际教育服务于一体的集团公司，拥有珀塞尔高尔夫、珀塞尔幼儿园。安侨为企业家、专业投资人士等各领域的客户提供移民及留学咨询，境外学业监管服务。

总阅读0

粉丝0

内容716