点“小耳机”可边听边看!
核心论点:当前AI学习与人类学习的根本差异
卡帕西认为,当前的大型语言模型(LLM)的学习方式与人类有本质不同,这导致了其在“反思”和“创造性思维”上的能力局限。
差异一:被动预测 vs. 主动思考
LLM(被动预测):当LLM“阅读”一本书时,它只是在执行“扩展文本序列并预测下一个token”的任务。这是一个被动的、基于概率的预测过程。
人类(主动思考):人类阅读时,书本内容是一组“提示”,会激发大脑进行主动的信息处理和操纵。我们会:
进行合成数据生成:在脑海中推演、想象。
与他人讨论:比如参加读书俱乐部,通过交流和辩论来深化理解。
内部协调:花时间沉思,将新知识与旧知识融合、协调。
结论:LLM目前完全缺乏这种主动的、内部的“思考”机制。它们只是消化数据,而不“咀嚼”数据。
差异二:“模型崩溃”问题——合成数据的陷阱
当试图让AI模仿人类的“反思”(即生成合成数据并用于自我训练)时,会遇到一个根本性问题:模型崩溃。
什么是模型崩溃?
虽然LLM生成的单个样本看起来质量很高,但其输出的整体分布是狭窄且“崩溃”的。它缺乏多样性和熵。
例子:你让ChatGPT讲个笑话,它反复只会讲那三四个套路笑话。它无法生成人类所能想到的、海量的、多样化的笑话。
为什么这是问题?
如果你持续用模型自己生成的、分布狭窄的合成数据来训练它,模型就会陷入一个不断自我强化的循环,导致输出越来越单一、怪异和退化,就像“近亲繁殖”。
与人类的对比:
高熵的社会互动:与他人交流是引入新信息、打破思维定式的关键。
做梦:他赞同“做梦是为了防止对日常经验过度拟合”的理论,认为做梦能让我们接触离奇的情境,增加认知系统的熵和鲁棒性。
卡帕西认为,人类同样存在“崩溃”趋势(比如成年人会固守观念、重复说同样的话),但我们有机制来对抗它:
差异三:记忆能力是特性还是缺陷?
LLM:超强记忆,但可能是负担
LLM拥有近乎完美的记忆能力,可以逐字背诵训练数据中的随机序列。这导致它们被大量无关紧要的细节所“困扰”,反而可能妨碍它们提取通用的、可迁移的模式。
人类:记忆差,但反而是优势
人类记忆力差,这迫使我们不得不去理解和抽象出世界的核心规律和通用模式。我们“只见森林,不见树木”,这恰恰是强大泛化能力的关键。
儿童期遗忘:儿童学习能力强但记忆力差,这可能不是一个bug,而是一个feature,它确保大脑优先发展抽象思维模型,而非存储具体事实。
结论:卡帕西认为,理想的“认知核心”应该剥离强大的记忆能力,只保留用于思考、规划和实验的算法部分。记忆可以外挂。
对未来AI发展的启示与预测
“认知核心”的规模可能更小
卡帕西预测,一个高效的、专注于“思考”而非“记忆”的AI认知核心,其参数规模可能远小于现在的模型。他个人猜测可能在十亿参数级别,甚至可能更小。
他认为当前模型之所以需要万亿参数,主要是因为训练数据(整个互联网)质量太差,充满了噪声和垃圾信息,模型需要巨大的容量来“记忆”和压缩这些数据。一旦我们能提炼出高质量、高信息密度的“认知数据集”,更小的模型就能表现出色。
未来的改进是全面的
他预计AI的进步不会来自单一突破,而是来自所有方面的协同改进:更好的硬件、更优的算法、更高效的内核、以及更高质量的数据集。每一项都能带来20%的提升,累积起来就是巨大的飞跃。
解决模型崩溃的挑战
简单地鼓励输出多样性(熵正则化)是困难的,因为模型可能会因此产生无意义的胡言乱语或生造语言。
目前,由于大多数应用(如聊天助手)并不需要极高的创造性输出,所以实验室对解决这个问题的动力可能不足。但这最终会成为AI向更高智能迈进的一个关键障碍。
卡帕西描绘了这样一幅图景:当前LLM是拥有“照片式记忆”的“天才儿童”,但它们的学习方式被动、僵化,且容易陷入自我重复。真正的人类式学习,其精髓在于主动的思考、有噪声的生成、不完美的记忆以及通过与高熵环境的持续互动来防止认知僵化。未来的AI若要取得突破,可能需要在这些方面向人类“学习”。
人类是如何学习的
Dwarkesh Patel:我可以概念化地理解如何用自己创造的合成样本或合成问题进行训练。但人类似乎还有另一件事 —— 也许睡觉是这样的,也许做白日梦是这样的 —— 不一定是想出假问题,而只是反思。
我不确定机器学习如何类比白日梦、睡觉或反思。我还没有想出新的问题。显然,最基本的类比就是对反思进行微调,但我觉得在实践中这可能效果不佳。你对这个类比有什么看法?
Andrej Karpathy:我确实认为我们忽略了一些方面。举个例子,以读书为例。目前,当 LLM 阅读一本书时,这意味着我们会扩展文本序列,然后模型会预测下一个 token,并从中获取一些知识。这实际上不是人类所做的。当你阅读一本书时,我甚至不觉得这本书是我应该关注和训练的说明。这本书是一组提示,让我进行合成数据生成,或者让你去读书俱乐部和朋友们讨论。你真正获得知识是通过操纵这些信息来实现的。LLM 没有类似的机制。他们实际上不这么做。我希望在预训练阶段看到某个阶段,模型会仔细思考材料,并尝试将其与已有知识相协调,并花一段时间思考,使其发挥作用。所有这些都没有等同之处。这都是研究。
有一些非常微妙的,我认为很难理解的原因解释了为什么它并非微不足道:为什么我们不能直接合成并训练它?因为每一个合成的例子,如果我给出一个关于一本书的模型的合成生成,你看着它,你会想,「这看起来很棒。为什么我不能用它来训练?」你可以尝试,但如果你继续尝试,模型会变得更糟。这是因为你从模型中获得的所有样本都被默默地崩溃了。如果你看任何一个单独的例子,这并不明显,它们占据了关于内容的可能思考空间中非常小的流形。当 LLM 崩溃时,它们有一个崩溃的数据分布。一个简单的方法是去 ChatGPT 并问它,「给我讲个笑话。」它只有三个笑话。它没有提供所有可能的笑话。它只知道三个笑话。它们悄无声息地崩溃了。
你无法从这些模型中获得像人类模型那样的丰富性、多样性和熵。人类模型的噪声要大得多,但至少从统计学意义上来说,它们没有偏见。它们并非悄无声息地崩溃。它们保留着大量的熵。那么,如何在熵值保持不变的情况下,让合成数据生成工作正常进行呢?这是一个值得研究的问题。
Dwarkesh Patel:为了确保我理解正确,崩溃与合成数据生成相关的原因是,你希望能够提出一些合成问题或反射,而这些问题或反射目前还不在你的数据分布中。
Andrej Karpathy:我的意思是,假设我们有一本书的某一章,我请 LLM 思考一下,他会给你一些看起来很合理的答案。但如果我问 10 次,你会发现所有答案都一样。
Dwarkesh Patel:你不能只是不断地在相同数量的即时信息上进行「反射」的缩放,然后从中获得回报。
Andrej Karpathy:任何单个样本看起来都还不错,但它的分布非常糟糕。糟糕到如果你继续用太多你自己的东西进行训练,你实际上就会崩溃。
我认为这个问题可能没有根本的解决方案。我还认为人类会随着时间的推移而崩溃。这些类比出奇地好。人类在其一生中会崩溃。这就是为什么孩子们还没有过度拟合。他们会说一些让你震惊的话,因为你能看到他们的想法,但这与人们所说的不同,因为他们还没有崩溃。而我们却崩溃了。我们最终会重复同样的想法。我们最终会说越来越多同样的话,学习率下降,崩溃持续恶化,然后一切都恶化了。
Dwarkesh Patel:你看过这篇超级有趣的论文吗?它说做梦是防止这种过度拟合和崩溃的一种方式。做梦之所以具有进化适应性,是因为它会让你置身于与你日常现实截然不同的奇特情境中,从而防止这种过度拟合。
Andrej Karpathy:这是一个有趣的想法。我确实认为,当你在脑海中生成一些东西,然后你去处理它时,你是在用你自己的样本进行训练,用你的合成数据进行训练。如果你这样做太久,你就会偏离轨道,最终崩溃。你总是需要在生活中寻找熵。与他人交谈是熵的一个重要来源,诸如此类。所以也许大脑也建立了一些内部机制来增加这个过程中的熵。这是一个有趣的想法。
Dwarkesh Patel:这个想法很不成熟 —— 我们所知的学习能力最强的,也就是孩子,他们非常不擅长回忆信息。事实上,在童年的最初阶段,你会忘记所有的事情。你会对某个年份之前发生的一切失去记忆。但你非常擅长学习新的语言,并从世界中学习。也许这其中有某种「只见树木不见森林」的特质。
而如果你把它与另一个极端进行比较,你会发现 LLM 预训练模型能够逐字逐句地复述维基百科页面中的下一个内容。但它们像孩子那样快速学习抽象概念的能力要有限得多。而成年人则介于两者之间,他们没有儿童学习的灵活性,但他们能够以一种对孩子来说更难的方式记住事实和信息。我不知道这个范围里有什么有趣的东西。
Andrej Karpathy:我认为这里面确实有意思的地方,我确实认为,与 LLM 相比,人类更擅长只见树木不见森林。我们其实不太擅长记忆,这其实是一个特点。正因为我们不太擅长记忆,所以我们被迫在更普遍的意义上寻找模式。
相比之下,LLM 非常擅长记忆。他们会背诵来自各种训练源的段落。你可以给他们完全无意义的数据。你可以对一定量的文本或类似的东西进行哈希处理,你会得到一个完全随机的序列。如果你用它训练,即使只是一两次迭代,它也能突然把整件事都复述出来。它会记住它。一个人不可能读一串随机数然后把它背诵给你听。
这是一个特性,而不是缺陷,因为它迫使你只学习可泛化的部分。而 LLM 则被预训练文档的记忆所困扰,从某种意义上来说,这可能非常令人分心。所以,当我谈到认知核心时,我想移除记忆,这也是我们之前讨论过的。我希望它们的记忆更少,这样它们就不必去查找资料,只保留用于思考的算法、实验的想法以及所有这些用于行动的认知粘合剂。
Dwarkesh Patel:这也与防止模型崩溃有关吗
Andrej Karpathy:我不确定。这几乎就像一个独立的轴。模型的记忆能力太强了,我们应该以某种方式移除它。人类的记忆能力差得多,但这是一件好事。
Dwarkesh Patel:解决模型崩溃的方案是什么?你可以尝试一些非常简单的方法。比如,在对数函数上的分布应该更宽一些,或者其他什么的。有很多简单的方法可以尝试。这些简单的方法最终会造成什么问题呢?
Andrej Karpathy:你可以想象一下对熵之类的函数进行正则化。我猜它们在经验上效果不佳,因为现在的模型已经崩溃了。但我想说,我们想要的大多数任务实际上并不需要多样性。这或许就是问题的答案。
前沿实验室正在努力让模型变得有用。我觉得输出的多样性并不是…… 首先,它更难处理和评估,但也许它并没有捕捉到大部分价值。
Dwarkesh Patel:事实上,它会受到主动惩罚。如果你在强化学习方面非常有创造力,那就不好了。
Andrej Karpathy:是的。或者,如果你写了很多东西,或者需要 LLM 之类的帮助,那可能就不好了,因为模型会默默地给你提供所有相同的东西。它们不会探索很多不同的方法来回答一个问题。
也许这种多样性,因为没有那么多应用程序需要它,所以模型没有它。但这在合成数据生成时就会有问题,等等。所以,如果我们不让这种熵在模型中保持下去,那我们就是在搬起石头砸自己的脚。或许实验室应该更加努力。
Dwarkesh Patel:我想你暗示过这是一个非常基础的问题,不容易解决。你对此有什么看法?
Andrej Karpathy:我不知道这是否真的非常基础。我不知道我是不是有意这么说的。我确实认为我没有做过这些实验,但我认为你可以将熵正则化得更高。这样一来,你就是在鼓励模型给出越来越多的解决方案,但你又不希望它偏离训练数据太多。它会开始创造自己的语言。它会开始使用极其罕见的词汇,所以它会偏离分布太多。
所以我认为控制分布很棘手。从这个意义上来说,这可能并非易事。
Dwarkesh Patel:如果只能猜测的话,最佳智能核心最终应该有多少位?我们放在冯・诺依曼探测器上的东西,它必须有多大?
Andrej Karpathy:这在该领域的历史上真的很有趣,因为曾经有一段时间,一切都非常规模化,比如「哦,我们要制作更大的模型,数万亿个参数的模型」。这些模型的规模曾经是上升的,现在又下降了。最先进的模型更小。即便如此,我认为它们记忆的内容太多了。所以不久前我曾预测,我几乎可以得到即使在十亿个参数的情况下也表现非常出色的认知核心。
如果你和一个十亿参数的模型交谈,我认为 20 年后,你们可以进行非常高效的对话。它会思考,而且更像人类。但如果你问它一些事实性的问题,它可能需要查找,但它知道自己不知道,然后它会做所有合理的事情。
Dwarkesh Patel:你认为它会需要十亿个参数,这很令人惊讶。因为我们已经有十亿个参数模型,甚至几十亿个参数的非常智能的模型了。
Andrej Karpathy:最先进的模型就像一万亿个参数。但它们能记住很多东西。
Dwarkesh Patel:是的,但我很惊讶,考虑到这样的速度,10 年后…… 我们有了 GPT-OSS-20B。这比 GPT-4 原版好多了,后者有超过一万亿个参数。考虑到这种趋势,我很惊讶你认为 10 年后认知核心仍然是十亿个参数。我很惊讶你没有说:「那会是几千万甚至几百万。」
Andrej Karpathy:问题是,训练数据就是互联网,这真的很糟糕。正因为互联网很糟糕,所以才有巨大的提升空间。即使是互联网,当你我想到互联网时,你想到的也是《华尔街日报》。但事实并非如此。当你在前沿实验室查看预训练数据集时,你随机浏览的互联网文档,你会发现它完全是垃圾。我根本不知道这是怎么回事。它就像股票行情、代码,是来自互联网各个角落的大量垃圾。它不像《华尔街日报》的文章,那是极其罕见的。所以,因为互联网太糟糕了,我们必须建立非常大的模型来压缩所有这些数据。大部分压缩工作是记忆工作,而不是认知工作。
但我们真正想要的是认知部分,删除记忆部分。我想说的是,我们需要智能模型来帮助我们优化预训练集,将其缩小到只剩下认知部分。这样一来,我认为你就可以采用更小的模型,因为它拥有更好的数据集,你可以在其上进行训练。但它可能不是直接在数据集上训练的,而是从一个更好的模型中提炼出来的。
Dwarkesh Patel:但为什么精简后的版本仍然是十亿呢?
Andrej Karpathy:我觉得精简方法效果非常好。所以几乎每个小模型,如果你有一个小模型,它几乎肯定是精简过的。
Dwarkesh Patel:对,但为什么十年后的精简版本没有低于 10 亿呢?
Andrej Karpathy:哦,你认为它应该小于 10 亿?我的意思是,拜托,我不知道。在某些时候,至少需要 10 亿个旋钮才能做一些有趣的事情。你认为它应该更小吗?
Dwarkesh Patel:是的。如果你看看过去几年的趋势,那就是只寻找唾手可得的成果,从数万亿级的模型发展到两年内规模缩小两个数量级且性能更佳的模型,这让我觉得智能的核心可能更小、更小。用费曼的话来说,底部还有很大的空间。
Andrej Karpathy:我觉得我谈论十亿参数的认知核心已经有点反常了,而你却超越了我。也许我们可以再小一点。我确实认为,实际上,你希望模型拥有一些知识。你不希望它查找所有东西,因为那样你就无法在脑子里思考了。你一直在查找的东西太多了。一些基础课程需要用来获取知识,但它不能包含深奥的知识。
Dwarkesh Patel:我们正在讨论什么可能是认知核心。还有一个问题,那就是前沿模型的规模会随着时间的推移变成什么样?我很好奇你有没有预测。我们的规模可能在 GPT 4.5 之前一直在增长,但现在规模正在下降或趋于稳定。造成这种情况的原因有很多。你对未来有什么预测吗?最大的模型会变得更大、更小,还是会保持不变?
Andrej Karpathy:我没有非常确定的预测。只是在实践中,他们有失败的预算和成本预算。事实证明,预训练并不是你希望投入大部分失败或成本的地方。这就是为什么模型变得更小的原因。它们确实小了一点,预训练阶段更小,但它们会在强化学习、中期训练以及所有后续步骤中弥补这一点。他们只是在实践中考虑了所有阶段以及如何最大限度地利用资金。
预测这种趋势非常困难。我确实仍然期待着有很多唾手可得的成果。这是我的基本预期。我在这方面的分布非常广泛。
Dwarkesh Patel:你是否认为这些唾手可得的成果与过去两到五年发生的事情类似?如果我比较一下 nanochat 与 nanoGPT 以及您所做的架构调整,这些事情会继续发生吗?
Andrej Karpathy:在大多数情况下,是的。我预计数据集会变得更好很多。当您查看普通数据集时,它们非常糟糕。糟糕到我甚至不知道一切是如何运作的。看看训练集中的普通样本:事实错误、无意义的内容。不知何故,当你进行大规模处理时,噪音就会消失,只留下一些信号。数据集将大幅改进。
一切都会变得更好。我们的硬件,所有运行硬件的内核,以及最大化硬件性能的内核。英伟达正在慢慢调整硬件本身,Tensor Cores,所有需要改进的,以及将继续改进的。所有内核都会变得更好,最大限度地利用芯片。所有算法都可能随着优化、架构以及所有建模组件(包括所有操作方式以及我们训练的算法)的改进而改进。我预计不会出现任何主导因素。所有因素都会增加 20%。这大致是我所看到的。
Andrej Karpathy 开炮:智能体都在装样子,强化学习很糟糕,AGI 十年也出不来
“人工智能+教育”,空间因“您”而变!
合作沟通:请加 zr18620222480
链接分享:请发至1638079312@qq.com

