

Ilya辟谣Scaling Law终结论

AI前线

2025-11-30

导读：前 OpenAI 首席科学家 Ilya Sutskever 近日在采访中表示，即使现在拥有比以前多 100 倍的资源，也未必能像过去那样看到 AI 能力产生质的飞跃，单纯依靠「大力出奇迹」的时代

编辑 | Tina

前 OpenAI 首席科学家 Ilya Sutskever 近日在采访中表示，即使现在拥有比以前多 100 倍的资源，也未必能像过去那样看到 AI 能力产生质的飞跃，单纯依靠「大力出奇迹」的时代可能已经过去

这番话迅速在网络上发酵，许多人开始解读为「Scaling Laws 要终结了」。对此，Ilya 在社交媒体上做出澄清，强调扩展现有技术仍会带来持续改进且不会停滞，但某些重要的东西仍然缺失

OpenAI 研究员 Noam Brown 随即转发并分析了这一观点。他指出，社交媒体往往将 AI 辩论简化为两种极端：怀疑论者认为大语言模型注定失败，狂热分子则认为超级智能即将到来。但仔细研读顶尖研究人员的实际表态会发现，他们的观点存在惊人的共识：

第一，即使没有进一步研究突破，当前技术范式也足以产生巨大的经济和社会影响；

第二，实现通用人工智能可能还需要更多突破，持续学习和样本效率是常被提及的两个方向；第三，这一目标大概率会在 20 年内实现

Brown 强调，没有任何一位专家认为 ASI 是幻想或需要 100 多年才能实现，真正的分歧在于具体突破点是什么以及到来的速度有多快。总体而言，业内专家的共识远多于分歧。图灵奖得主 Yann LeCun 后续则对这一观点表示完全赞同

下面，我们回顾下 Ilya 当时具体的长访谈内容，以飨读者

要点总结

现有大模型出现了一个很怪的断层：在各类基准测试里成绩惊人，但在简单的真实任务里却经常翻车，说明这种“智能”非常脆弱
过度聚焦 benchmark 可能本身就是问题所在。研究者用强化学习去优化那些专门为“考高分”设计的任务，反而可能在无意间削弱了模型向真实应用场景泛化的能力
在人类身上，“情绪”也许扮演着类似 AI 里“价值函数”的角色，是内置在系统里的决策指导信号
人类情绪本身很简单，却因此在大量情境下都很鲁棒、很好用；但在现代环境中，这种简单性也会失灵，比如在食物极大丰富的世界里，饥饿感已经不再是一个可靠的指引
“纯靠扩容”的 AI 时代正在结束——那种“再大一点就能解决一切”的信念已经明显减弱
AI 正重新回到一个“研究驱动的时代”，只不过这一次，研究是建立在前几年“扩容时代”堆出来的超大算力之上的
当前大模型面临的最核心问题，是它们的泛化能力远逊于人类：既体现在需要海量数据、样本效率极低，也体现在想教它复杂任务非常困难
进化可能给了人类在视觉、运动等“祖先技能”上一个极其强大的“先验”，这解释了为什么在这些领域，人类天然就比 AI 强很多
在现代任务上（比如学开车），人类学习不仅依赖外部奖励，还依赖一个强健的内部价值函数，它能即时地产生“自我评分”，不需要别人显式给反馈
如今，AI 进展的瓶颈已经从“算力”转向“想法本身”，于是出现了一个现实：公司的数量多于真正新颖的思路。
单纯“读”AI 能做什么，和亲眼“看到”它在现实中做成什么，有天壤之别。把强大的 AI 公开给大众，是让人真正理解它影响力的最有效方式
“AGI”和“预训练”这两个概念在某种程度上是误导性的。比起把超级智能想象成一个“完工的、无所不知的产品”，不如把它理解成一种：具备极强持续学习能力的存在。
真正强大的已部署 AI，很关键的一点能力，在于：它可以 把自己在整个经济体系中各个实例的学习结果合并起来。这种集体知识的“汇聚”，是人类做不到的，也可能触发“智能爆炸”

模型“锯齿感”（Jaggedness）的解释

Ilya Sutskever：你知道最疯狂的事情是什么吗？——这一切都是真的。

Dwarkesh Patel：什么意思？

Ilya Sutskever：你不觉得吗？所有这些 AI 的进展、湾区发生的这些事，它们真的正在发生。这难道不像科幻小说里的情节吗？

Dwarkesh：还有一件疯狂的事是——“缓慢起飞”过程竟然显得如此正常。比如说，全社会拿出 1% 的 GDP 投入 AI……过去听上去会像天大的事情，而现在却让人感觉很……

Ilya Sutskever：人类的适应速度其实非常快。再加上这些变化很抽象。所谓“投入 1% GDP”，对大多数人来说只是新闻里看到某家公司宣布投入了一个难以理解的金额。除此之外，人们并没有真正“感受到”什么。

Dwarkesh：我们就从这里开始吧，我觉得这很有意思。

Ilya Sutskever：可以。

Dwarkesh：我觉得从普通人的视角看，世界似乎没什么不同——而这种感觉可能在奇点来临后仍然继续存在。

Ilya Sutskever：不，我不这么认为。

Dwarkesh：哦？有意思。

Ilya Sutskever：我刚才说的“不太感觉得到”是指：公司宣布了一笔巨大的投资，但普通人不知道该如何理解它。但 AI 的真实影响最终会被切切实实感受到。AI 会渗透到整个经济体系 —— 有非常强的经济动力驱动这件事，而这种影响会非常明显。

Dwarkesh：你认为这种影响什么时候真正到来？现在模型看上去似乎比它们的经济影响要“聪明得多”。

Ilya Sutskever：

是的，这是当前模型最令人困惑的地方之一。如何解释这个矛盾？一方面模型在各类评测（evals）上表现惊人，那些评测明明很难，但模型能做得很好；另一方面，它们的经济影响却落后得多

很难理解——模型怎么能在某些方面表现得惊艳，同时又在另一些地方犯极其基础的错误？

举个例子：你用 vibe coding 让模型写代码，遇到一个 bug，你告诉模型：“修一下这个 bug。”

模型回答：“天哪，你说得太对了，我修一下。”然后它修出了第二个 bug。你再告诉它：“这里又有个新 bug。”它又说：“天哪，我怎么会这样，你说得又对了。”接着把第一个 bug 再次引回来。如此循环往复。这是怎么回事？我不太确定，但确实说明某些地方很奇怪

我现在有两个可能的解释：

解释一：RL 让模型“单线思维”

一种略带玩笑但不无道理的解释是：强化学习（RL）可能让模型变得过于单一目标驱动，过于聚焦，某些方面的“觉察力”反而下降。 它在某些任务上更“觉醒”，但在某些基础事情上却变得更迟钝

解释二：训练数据的选择方式本身带来偏差

以前做预训练（pre-training）时，不需要选择数据 ——答案永远是：“全部数据。”预训练需要一切，所以根本不需要做选择。但 RL 不一样。人类必须决定：“我们想让模型在哪些环境里做 RL？哪些任务？哪些奖励？”行业里有很多团队专门在生产新的 RL 环境，然后不断把它们加入训练混合中。问题是：这些 RL 环境究竟是什么？为什么是这些？没人在系统性思考。

其中一个行业内普遍存在的倾向是：大家会从评测（evals）获得灵感。比如：“我们希望模型发布时在某项测评里取得高分，那我们就设计一些 RL 训练来优化它。”

这可能解释了很多现象：模型会在 evals 上看起来很强，但这种能力无法泛化到现实世界任务。 如果再加上：模型的泛化能力其实远没有我们想象的那么好，那就能更好解释为什么评测能力和真实能力之间存在巨大脱节

而这种脱节，目前我们甚至都没完全理解能如何定义

Dwarkesh：

我喜欢这个说法：真正“奖励黑客”的其实是研究人员本身，因为他们过于专注于提升 eval 分数

两个理解方向

第一种理解是：如果模型在编程比赛里达到超人水平，却仍然无法对现实代码库做出“有品味的判断”，那么我们应该扩展训练环境，让模型不仅会比赛，还会做更真实的开发任务

第二种理解是：为什么 超人级比赛能力 不能自然带来 更全面的编程能力？也许重点不是不断堆环境，而是找到一种能让模型从一个环境中学习，并迁移到完全不同环境的方法

人类类比：竞赛高手与真正优秀的工程师

Ilya Sutskever：

我举个类比可能更容易理解

想象两个学习编程的人：

学生 A：决心成为最强的竞赛选手。他练了 1 万小时，刷完所有题、掌握所有技巧，成为世界级顶尖
学生 B：觉得竞赛很酷，只练了 100 小时，题刷得远不如 A，但他也表现不错

你觉得他们毕业后谁在真实世界的工作中表现更好？

Dwarkesh：当然是第二个。

Ilya Sutskever：

是的。模型更像第一个学生，甚至训练得更极端。大家为了让模型在比赛里强，把所有比赛题目都训练了，还做数据扩增，训练得过度、极致

而真正优秀的工程师类似第二个学生——他们有一种“不可量化的东西”，一种“it factor”

预训练与 RL 的区别

Dwarkesh：那第二个学生做的“那 100 小时”到底对应模型的什么？不是预训练吗？

Ilya Sutskever：我认为他们拥有一种“天赋（it）”。预训练其实和那种“天赋”完全不同。

Dwarkesh：那预训练不是相当于“1 万小时练习”吗？只是这些练习来自人类写下的海量内容，而不用自己亲自练？

Ilya Sutskever：

预训练的优势有两个：

数据量巨大得不可思议
数据的选择不需要人类深度思考——自然语言就是人类对世界的投影

但预训练本身很难解释，因为我们没法轻易理解模型如何从这些数据中获取什么。当模型犯错时，我们也无法判断是否因为预训练数据缺乏某些模式

我认为 预训练没有完美的人类类比。

关于人类学习是否类似预训练，有人提出两个类比：

人类前 15 年的成长（大量非生产性的输入）
进化本身（30 亿年搜索过程）

Ilya Sutskever：

两者都与预训练有相似点，但也有巨大差异。比如：人类接触的数据量微乎其微，却能获得更深刻、更可靠的理解，不会像 AI 一样犯低级错误。

再举例：一个失去“情绪处理能力”的人——没有悲伤、愤怒等情绪，但智力完好——会变得：

无法做出任何决策
连挑选袜子都要想数小时
财务决策极差

这说明：情绪在做人类智能体中扮演了“价值函数（value function）”的角色。

Dwarkesh：所以“情绪”其实是一种给决策的最终奖励吗？这样的东西无法靠预训练学到吗？

Ilya Sutskever：也许可以，但并不显然。

Dwarkesh：那情绪在 ML 中的类比是什么？

Ilya Sutskever：应该类似于一种“价值函数”。但目前 ML 里“价值函数”不是核心组件。

价值函数（value function）是什么？

Ilya Sutskever：

在现代 RL 中，模型通常是：

进行大量步骤思考
最后产出一个结果
然后根据最终结果给整条轨迹每一步反馈

这意味着：如果任务很长，你必须等到最后才得到任何学习信号。而 价值函数 的作用就是：

提前判断“你现在是不是在做有前途的事情”
例如下棋丢子，你无需等到被将死才知道“刚刚那步是坏的”

同理，在数学推理或编程中，如果你走了 1000 步后发现方向错误，那么：

价值函数能把“这条路径不行”的信号反向传播回 1000 步之前，
下次避免再走入同样的思路

Dwarkesh Patel：

DeepSeek R1 的论文里提到过，轨迹空间非常宽，可能很难从中间某个思考过程映射到一个价值评估。而且在写代码时，你会先沿着一个错误的思路走，然后再回退，改一改别的地方

Ilya Sutskever：

这听起来有点像“对深度学习缺乏信心”。当然，这件事可能很难，但很难不代表深度学习做不到。我的预期是：价值函数应该是有用的，而且我完全预期未来一定会广泛用起来——如果现在还没的话

我刚刚提到那个情绪中枢受损的病人，其实是想说：也许人类的价值函数，在很大程度上是被情绪调制的，而这些情绪是进化硬编码下来的。这种调制方式，可能对人类在真实世界中的有效性非常关键

Dwarkesh Patel：

这正是我原本想问你的。有一个关于情绪和价值函数的点很有趣：它们的效用非常大，但从理解难度上看，却又显得相对简单

Ilya Sutskever：

我有两个看法。第一点我同意：相对于我们现在讨论的这些东西、相对于我们想要构建的那种 AI，情绪确实要简单得多。它们甚至可能简单到，你真的可以在某种人类可理解的层面上把它们完整刻画出来。我觉得如果有人能做到，会非常酷

第二点是关于效用。我觉得这里存在一种“复杂度和鲁棒性的权衡”：复杂的东西在特定场景下可以非常有用，但简单的机制在非常广泛的情境下都能起作用。可以这样理解当下我们看到的情绪：它们主要是从哺乳动物祖先那一套情绪系统演化而来，在我们成为古人类之后又做了一点微调。我们确实有不少社会情绪，这是一般哺乳动物不一定有的。但整体来说，这些情绪并不算特别复杂。正因为它们不复杂，反而在与祖先完全不同的现代世界里，还能继续很好地服务我们

当然，情绪也会犯错。比如说，我们的情绪……嗯，我也不确定饥饿算不算“情绪”，这是有争议的。但我觉得至少可以说：在一个食物极其丰富的现代社会里，我们对饥饿的直觉感受，显然并没有成功地把我们引导到一个“合理饮食”的状态

我们到底在“放大”什么？

Dwarkesh Patel：这几年大家在谈 scaling（放大）：放大数据、放大参数、放大算力。有没有一种更一般的方式来理解“放大”？还存在哪些“放大的维度”？

Ilya Sutskever：

我有一个视角，可能是对的。过去的机器学习，大概是这样运作的：大家不停地捣鼓各种点子，看看能不能做出一些有趣的结果，这是早期一直在发生的事情

后来，“放大”的洞见出现了。有了 scaling laws，有了 GPT-3，大家突然意识到：“我们应该往大了堆。”这其实是一个“语言如何影响思维”的例子。“Scaling”只是一个词，但它极其强大，因为它告诉大家应该干什么——“去放大吧”。于是问题变成：那我们到底在放大什么？答案是：在放大预训练。预训练变成了那个被放大的配方

预训练真正的突破点在于发现了这样一个“配方是好的”。你说：“如果我把算力和数据，按一定比例混进一个特定规模的神经网络里，就会有成果。而且只要按这个配方不断加量，结果会变好。”这对公司来说非常棒，因为它提供了一种 低风险的资源投入方式。

相比之下，投资“研究”要难得多。如果你想投资研究，你要对团队说：“去探索吧，去搞研究，搞出点东西来。”但如果你投资预训练，你可以说：“多拉点数据，多买点算力。”然后你知道根据预训练这套配方，一定能得到一些提升

而且现在看起来，根据一些人在 Twitter 上的说法，Gemini 似乎找到了从预训练中榨取更多价值的办法。但总有一天，预训练会遇到数据天花板——数据是肉眼可见的有限。那接下来怎么办？要么做某种“强化版预训练”，换一套和以往不同的配方，要么就做 RL，或者做其它什么东西

但无论如何，当算力已经大到这个程度，我们在某种意义上又回到了“研究时代”

可以换一种说法：从 2012 到 2020，这段时间是“研究的时代”。从 2020 到 2025，则是“放大的时代”（前后年份可以加点误差条），因为大家都在说：“太厉害了，继续往大了堆，继续放大。”一个词：scaling

但现在规模已经大到如此离谱了。你真的还相信：“只要再多 100 倍算力，一切就完全不同”吗？当然，多 100 倍肯定会有变化。但是不是说，只要 scale 乘以 100，一切就被彻底改写？我不觉得。所以我们又回到了“研究的时代”，只不过这次我们有了超级大的计算机

Dwarkesh Patel：这个说法很有意思。那我就来问你刚才自己提的那个问题：我们到底在放大什么？“配方”究竟是指什么？在预训练那里，我们有一种几乎像物理定律一样清晰的关系：数据、算力、参数规模和 loss 之间有幂律规律。接下来的时代，我们应该去寻找什么样的关系？新的配方会是什么样子？

Ilya Sutskever：

我们其实已经见证了一次“放大范式”的转变：从“放大预训练”，转向“放大 RL”。现在大家在放大 RL。根据网上的说法，有的公司在 RL 上用的算力已经超过预训练了，因为 RL 能吃掉非常多算力。你会做非常长的 rollout，要花大量算力来生成这些 rollout，但每条 rollout 能带来的学习量又相对有限，所以你确实有很大的空间在 RL 上烧算力

不过，我甚至都不太想把这继续叫做 scaling。我更愿意问的问题是：“你现在在做的事情，是对这台大计算机最有效的使用方式吗？有没有更高效的算力利用方式？”我们前面聊到价值函数，也许一旦大家真正把价值函数玩明白了，就能更高效地用同样的算力。如果你找到另一整套完全不同的训练方式，你当然也可以说是在“放大”它，但那到底算不算 scaling 呢？在这个意义上，边界会变得有点模糊

回想当年的“研究时代”，那时的风格是：“我们试试这个、这个、这个；再试试那个、那个、那个——哎，有点有趣的东西出来了。”我觉得我们会回到那种状态，只是今天我们手里多了一台巨大的计算机

Dwarkesh Patel：

如果我们真的回到了研究时代，从更高一层来看，配方里最需要重新思考的部分究竟是什么？你刚才提到价值函数，现在很多人已经在现有配方上继续往后加步骤，比如用“大模型判官（LLM-as-a-Judge）”之类的办法，你也可以说那是一种价值函数。但听上去你心里想的是比这更基础的东西。我们是不是应该连预训练本身也重新思考，而不仅仅是在预训练后面加更多步骤？

Ilya Sutskever：

关于价值函数这块，我觉得刚才的讨论是有意思的。我想强调的是：价值函数主要是让 RL 更高效，我认为这一点会很重要。但本质上，任何你能通过价值函数实现的东西，不用价值函数也能做到，只是效率更低一点

我觉得最根本的问题是：这些模型的泛化能力，明显远远差于人类。这一点非常显眼，而且我认为是特别基础的问题

为什么人类泛化能力比模型强？

Dwarkesh Patel：

所以问题的核心就是“泛化”。这里可以再拆成两个子问题。第一个是样本效率：为什么模型需要远比人类多得多的数据才能学会同样的东西？第二个是，即便抛开数据量不谈，为什么“把我们真正想教的东西”教给模型会比教给人难得多？对人类来说，你并不一定需要一个可验证的奖励信号。你现在大概在带很多研究员，你和他们讨论、给他们看你的代码、解释你的思路，他们从这些互动中就能学到你的思考方式，以及如何做研究

你不需要给他们设置一条条“可验证的奖励”：现在是下一节课的内容了，现在你的训练不稳定了，之类的。这中间不需要那种又繁琐又定制化的流程。这两个问题也许是相关的，但我更想先探讨第二个，也就是“持续学习”；同时第一部分更像是纯粹的样本效率问题

Ilya Sutskever：

要解释人类样本效率，一个必须认真看待的可能解释是“进化”。进化给了我们一小部分极其有用的信息。在视觉、听觉、运动控制这些方面，我觉得进化给我们的东西非常多

比如，人类的灵巧性远超机器人。机器人当然也可以变得非常灵巧，但那通常需要在模拟环境中进行海量训练。而要在真实世界中训练出一个机器人，让它像人一样快速掌握一项全新的操作技能，目前看起来相当遥远。对于运动能力，人类可以说是拥有一套不可思议的“先验”，因为我们的祖先几乎都必须有很强的运动能力，哪怕是像松鼠那样的祖先

视觉也是类似。Yann LeCun 曾经指出，小孩只需要 10 小时练习就能学会开车，这一点是对的。但前提是：小孩的视觉系统已经非常好了。以我自己为例，我记得自己 5 岁时就对汽车很着迷。我几乎可以肯定，5 岁时我对“汽车”的识别能力已经足够开车用了。可 5 岁的小孩，在那之前实际接触到的数据量并不大，大多数时间都在父母家里活动，数据多样性非常有限

你当然可以说，这也是进化的功劳。但在语言、数学、编程这些领域，情况可能就不是这样了

Dwarkesh Patel：

不过人类在这些领域似乎依然做得比模型更好。诚然，模型在语言、数学和编程平均水平上已经超越大部分人了。但它们在“学习能力”这件事上，真的超过普通人了吗？

Ilya Sutskever：

超过了，绝对超过。我刚才的意思是：语言、数学、编程——尤其是数学和编程——这些领域的表现说明，让人类具备很强学习能力的东西，可能并不是一套很复杂的“先验”，而是更基础、更底层的某种机制

Dwarkesh Patel：

我不太明白，为什么会得出这个结论？

Ilya Sutskever：

想象一个领域，人类在其中展现出非常高的可靠性。如果这个领域，在过去数百万、甚至数亿年的进化过程中一直对我们的祖先非常重要，那你就可以合理推断：人类在这方面强，很大程度是因为进化给了我们一套强大的“先验”，以某种不那么显眼的方式编码在大脑里

但如果人类在一个直到最近才出现的领域里，也展现出极强的能力、可靠性、鲁棒性以及快速学习能力，那这更说明，人类本身就拥有一套“更强的机器学习机制”

Dwarkesh Patel：

我们应该如何理解这种机制？在机器学习里它的类比是什么？它似乎有几个特征：需要的样本更少，更接近无监督；比如一个青少年学开车，他们并不是在一个预先构造好的“可验证奖励系统”里学习，而是通过和机器、环境互动来获得反馈；所需样本极少，训练过程更像无监督，而且结果更鲁棒

Ilya Sutskever：

是的，鲁棒性高得多。人的鲁棒性其实非常惊人

Dwarkesh Patel：

你有没有一种统一的方式来解释这些现象？在机器学习中，有什么样的类比能实现类似的特性？

Ilya Sutskever：

你之前在问：青少年司机是怎么在没有“外部老师”的情况下自我纠正、从经验中学习的？答案是：他们有自己的价值函数。他们有一种极其鲁棒的“整体感受”，这在大多数人身上都存在——除了一些跟成瘾相关的例外，人类的价值函数其实非常稳定

对一个正在学车的青少年来说，他一开始上路，就已经对自己开得怎么样有一种整体感觉：自己有多不熟练、多不自信。随着练习，他不断校准这种感觉。而任何一个青少年的学习速度都非常快，大概十几个小时的练习之后，基本就可以上路了

Dwarkesh Patel：

看起来，人类已经有了一套解决方案，但我很好奇他们到底是怎么做到的，以及为什么对我们来说这么难？要让模型具备类似能力，我们在训练方式上需要做怎样的“重新构想”？

Ilya Sutskever：

这是一个非常好的问题，我自己其实有很多想法。但很不幸，我们现在身处的这个世界，并不是所有机器学习思路都能公开讨论，而这正是其中之一

我几乎可以肯定，这件事是有办法做到的，我也相信它是可以做到的。人类能做到，本身就是“这可以做到”的证据

不过这里还有一个潜在的阻碍：有一种可能是，人类神经元实际执行的计算量比我们以为的要大得多。如果这是真的，而且又恰好在这里起着关键作用，那事情就会变得更棘手一些

但无论如何，我都认为这至少指向某种我心里大概有数的“机器学习原理”。只是很遗憾，现实环境让我们很难把细节讲开

“直奔超级智能”的研究时代

Dwarkesh Patel

【声明】内容源于网络

0

0

AI前线

面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

内容 7992

粉丝 0

AI前线面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。
总阅读47.7k

粉丝0

内容8.0k

旗下产品 M123.com

关于

关于我们
商务合作
友情链接
加入大数
企业会员
帮助中心
隐私协议
版权声明

产品服务

大数活动
跨境快讯
大数研报
大数百科
免费建站
跨企查
跨境社群
跨境培训
知识体系
广告投放
找工作
跨境服务
找货源

微信
合作

公众号

大数跨境小程序

大数跨境10100.com 沪ICP备2022029172号-3 沪公网安备 31010402009968号