所有 AI 会收敛成一个模型吗？答案可能很意外- 大数跨境

首页

所有 AI 会收敛成一个模型吗？答案可能很意外

AI大模型观察站

2026-03-31

导读：AI 技术不断演进，但是否会收敛到一个“终极算法”？本文从当前主流模型与新兴方法出发，分析这一可能性背后的逻辑与限制，探讨 AI 未来是走向统一范式，还是持续多路线竞争的格局。

一组研究者或许找到了目前最优的 AI 学习算法，解开了 AI 训练中一个长期未解的核心难题：

我们如何充分利用富反馈（rich feedback）？

这篇文章面向希望用直觉理解 AI 是如何被训练的读者，全程摒弃不必要的行话、数学和公式，只讲第一性原理（first principles），同时做到教材级准确，还会介绍一个将改变未来训练范式的新技术。

如果这说的就是你，那这篇文章就是为你写的。

我们只会学那些能被验证的东西……而且我们并不擅长。

AI 只能从可验证（verifiable）的信号中学习。就像说“鸟会飞”一样，这是事实。

可这到底意味着什么？

模仿是最经典的训练方式

没有反馈、没有办法验证自己是否在进步，AI 就不知道如何改进——就像人类如果失去了感官，也很难学习现实世界。

机器目前还没我们这么幸运（至少现在还没有），所以我们让它们靠模仿我们来学习。

如果它们无法直接体验世界反馈，我们就让它们模仿那些能体验的人类。

多年来，大多数 AI 训练都是纯粹的模仿。我们收集了一定量的人类数据——这些数据承载了数百万年的进化积累，对于大语言模型（Large Language Models，LLMs）来说，还包含了上千年的书写传统——然后让 AI 去模仿。

学习过程本质上很直接：模型预测它“认为”正确的响应，我们把它和真实的标准答案对比，这个差异就成了学习信号。

以 LLM 为例，对序列 “What’s the capital of Egypt?”（“埃及的首都是哪座城市？”），模型会给所有候选分配概率，比如给 “Cairo” 分配 23%。这 23% 与应当给 “Cairo” 的 100% 之间的“缺口”就是预测误差；随着训练迭代，模型会逐步把正确答案的概率推高。

通过这种反复操练，而且是大量、我指的是非常大量的操练，AI 最终会在特定领域里成为还算像样的人类模仿者（对于 LLM，就是自然语言）。

尽管模仿法有明显的缺点（如你将看到的，有更优的学习方式），但它有一个关键优势：反馈密度（feedback density）。

AI 学习不仅需要有反馈，还需要足够高的反馈频率。反馈越频繁，模型学得越快。

不过，当今的前沿模型，例如你日常使用的 GPT-5.4 或 Claude Opus 4.6，还会进行一个额外的学习阶段：强化学习（Reinforcement Learning，RL）。

模仿训练能得到一个可以给出相当合理预测的 LLM。仍以 “What’s the capital of Egypt?” 为例，模型几乎肯定会回答一个城市名，而不是动物名。它也许没给出 “Cairo”，而是说了 “Alexandria”，但也不会答成“水豚”。

这当然不错，但模仿只能把你带到某个程度。它在压缩知识上很拿手；模型确实学到很多事实，但它并不擅长解题。就像听写能帮助孩子练字，却教不了他们多少数学。

要解决问题，我们需要探索（exploration）。我们需要模型通过试错接近答案。模型必须探索解题路径，才能真正把握背后的概念；就像孩子只有亲自做题，才会真正学会数学。

这就把我们带到了另一种重要的训练方法：探索。

探索的黎明

为了克服上述局限，LLM 在此之后会使用所谓的强化学习（RL），本质上就是“体面的”试错学习。

模型不再被给出完整可抄袭的解法，而只拿到问题本身。然后通过持续的探索、尝试失败、再尝试再失败，模型最终会达到正确答案，我们再对其进行“强化”；也就是激励模型重复那些把它带向正确答案的步骤。

不过，RL 需要三个非常重要的要素：

直觉（Intuition）：
我们不能让一个没有任何世界知识的模型来做这事。否则，探索就会沦为纯随机猜测，永远不收敛（比如你无论怎么试，也教不会一条狗写莎士比亚诗）。这就是为什么 RL 总是在模仿阶段之后进行。
可验证性（Verifiability）：
我们需要有办法评估产出的质量。
奖励（Rewards）：
我们需要“引导”模型朝正确方向前进（即让模型对自己“往哪儿走”有点感觉）。如果你不给狗在做对把戏后发零食，它永远不会知道那些把戏是“好的”。

但如果做得好，可以说 RL 是“终极”的训练范式。只要满足以上三点，你就几乎能保证取得结果。

第一条解释了为什么探索阶段我们用 LLM 而不是狗，因为它能做“有根据的猜测”。
第二条保证了学习信号；没有反馈，就没有学习。
第三条也许最棘手。奖励不仅决定模型学得多快，还决定它学到的先验是“正”的，还是会“跑偏”。

你最近有看到 AI “勒索”用户的新闻吗？嗯，出现这种现象的原因就是糟糕的奖励设计，这被称作奖励黑客（reward hacking）。不过这个话题留待改天再聊。

理解了这些，你就能明白为什么 RL 做得好会如此强大。如果猜测本就不差，迟早能猜对；我们“只需要”推动它更多地做“那些有效的事”。

因此，你应该一点也不惊讶：RL 是 AI 历史上一些最惊人突破的幕后推手——它造就了 AlphaGo 的超人围棋实力，也支撑了最近在数学、编程、智能体上的许多进展。

但它也有一个巨大的问题，在某种意义上直到今天都束缚着 RL 的真正力量：奖励的质量与密度。

那我们即将要谈的这项研究，是如何解决这些限制的？

我的通讯用第一性原理、通俗易懂的话解释 AI，给那些对炒作过敏、对知识饥渴的人看。欢迎加入。

订阅 | TheWhiteBox by Nacho de Gregorio

让 RL 拥有高密度奖励

当我说 RL 的奖励很稀疏，我是认真的。模型可能会在“盲飞”状态下一口气做出 100 次预测，完全不知道自己是否在往正确方向上，直到最后才收到一个“提示”它这一路是不是对的奖励信号。

这种试错效率极低，因为每次尝试几乎不产出关于质量的什么信息。这就像玩“冷热（hot or cold）”的游戏：玩家靠近目标会被喊“热”，远离会被喊“冷”，但你不是每动一下就有反馈，而是每分钟才给一次信号。

可为什么不干脆给它所有需要的奖励呢？ 事实证明，现实世界要复杂得多。

归因分配问题（credit assignment problem）

问题并不是我们不想给更密的反馈；而是很难做到。

这就是“归因分配问题（credit assignment problem）”：对一次 rollout（从模型接收问题到生成解答的整段预测序列）里的许多预测来说，我们并不知道它到底是“好”还是“坏”。

这就像写一篇 5,000 字的文章，然后纠结在第 2,000 个词用 “the” 是不是个好选择。鬼才知道。

有些奖励是显然的；比如强化“从‘Once upon a time,’ 开始一个童话小说”而不是用 “Cattywampus” 这个词，挺合理；但诸如“小说的完美长度是多少”“如何构造好支线故事”等等这些好小说的关键成分，却远难以被简单地判定为“好”或“坏”。

更糟糕的是，在许多 AI 训练场景里，最终的结果奖励也很粗糙。

比如，模型可能为了一个复杂数学题生成了非常长、上千词的 rollout，最后只得到一句“对”或“不对”的反馈。

这真是好的反馈吗？它能让下一次的 rollout 更可能更好吗？

鉴于我们给模型的反馈往往很一般，大多数时候，探索就变成了“统计覆盖”的问题：模型最终“撞对”答案，靠的是统计学，而不是被有效引导到更好的解法。

更糟的是，有时候环境反馈其实非常丰富，但我们忽略了它，只去看“对不对”，把其他更细的信号（比如“对了多少、错了多少”）全丢掉。

为什么？ 讽刺的是，因为我们不知道该拿这些富反馈怎么用（稍后详述）。

于是我们就得到一个最糟组合：奖励频率很差（模型大多数时候在“盲飞”），而且最终的结果奖励要么除了“对/错”之外几乎没信息量，要么我们干脆忽略了本来很丰富的信号。

幸运的是，我们也许已经找到了答案。它叫“来自富反馈的强化学习（Reinforcement Learning from Rich Feedback，RLRF）”。不过在理解它为何颠覆性之前，我们先看看当下 RL 是怎么训练模型的。

现状的问题

我们已知有两种应用 RL 的方式，区别在于如何施加奖励：一种使用一个额外模型作为“critic（评论者/评估器）”，另一种不使用。

用更强的模型做 critic 很好，但代价很高。因此，当下最流行的公开 RL 训练方法是 DeepSeek 提出的 GRPO（Group-Relative Policy Optimization，组相对策略优化），论文在此，它完全不使用 critic。

名字很花哨，其实方法很直白：我们按相对得分来判断哪些 rollout 更好。

大白话就是：

给定一个问题和标量解（标准答案），用模型生成多个 rollout；
对这些 rollout 各自打分；
再用分数给每个 rollout 的学习量加权（分越高的 rollout，对模型参数更新的贡献越大）。

这比用另一个模型当 critic 要便宜，但你也能立刻看到它的问题，核心就是奖励密度。

我们为整个 rollout 只得到一个奖励：最终结果的奖励，指明该 rollout 对或错。这带来两个问题：

在那些最终答对的 rollout 里，几百个预测中，到底哪些是“关键一步”，把模型带到了正确答案？最终答案正确并不等于推理过程可靠
。
在那些最终答错的 rollout 里，几百个预测中，难道就没有“好预测”吗？最终答案错误也不等于推理过程一无是处。

换言之，这种方法存在严重的监督问题：模型和工程师都对到底“学到了什么”不明不白；我们注定会降低一些好预测的权重，同时强化一些坏预测（只因为它们“碰巧”对了）。

更具体地说，在这种方法下，一个漂亮的推理链条如果在最后犯了个低级错误，会被降权；而一个回答“半径为 5cm 的圆的周长是多少”的简短解答如果写成了 “答案是 π*r²=31.42 cm”，只因最终数值“碰巧”对了，就会被上调权重，尽管公式完全错了。

所以，总结一下，理想的学习方法应当：

有高奖励频率（模型持续知道自己做得如何），
能利用“超越对/错”的富反馈，
在不太贵的前提下实现高奖励密度（比如不需要一个更聪明更大的模型来点评学生）。

出人意料地，这个答案可能一直就在我们眼皮底下。下面说说 SDPO 如何满足这些约束。

SDPO，一种令人兴奋的新方法

我总说，最好的研究是那种你一看就知道“这主意好极了”。这篇就是。

如前所述，我们过去的做法是：让 AI 大规模地“猜-验”，终有一刻会撞到与标准答案完全匹配的解，然后就去强化它。这样“也还行”。

说白了，你每天用的那些模型，就是这么训练出来的。

有趣的是，即便反馈相当一般，它们也能做到不错的表现。然而在像编程这样的场景里，奖励系统其实远不止“对/错”；它还会告诉你哪里错了（编译报错、规范不符等）。

然而，我们通常把这些信息全部丢弃，只告诉 AI “你错了”。

问题一眼就能发现；就像我们不会给“差不多对”的作业打零分一样，这里的想法是找到一种方法，把“完整的错误反馈”提供给模型（比如它“做了除以零”），并自然地引导它走向更好的方案。

不明显的难点在于：你打几分才合适？如何把这种具体错误转成数字——机器唯一能理解的形式？

也就是说，我们如何从下图左侧，走到右侧？

像所有好研究一样，答案其实有点显而易见：让模型在新增上下文下重试。

在 SDPO（Self-Distillation Policy Optimization，自蒸馏策略优化）中，研究者提出的流程是：

先生成一个 rollout（也就是 AI 尝试解题）；
这个 rollout 产出富反馈，告诉我们“哪里对了/错了”；
关键在这一步：我们不丢弃这些富反馈、不只看对错，而是把反馈回灌给同一个模型，再跑一遍；
同一个模型但带着更丰富的上下文，对整段 rollout 打分，扮演“critic（评论者）”。

这有什么好处？ 关键在于，虽然还是同一个模型，但它拿到了更好的上下文，所以对 rollout 的评分能基于之前模型“不知道的事”。

换句话说，借助接收的反馈，我们让模型“自评（as its own critic）”。你也许还没反应过来，但这改变了一切。

为什么这如此颠覆？ 困扰富反馈的根本问题并不是我们不想要它；而是我们不知道如何使用它。

标量奖励（scalar rewards）之所以易用，是因为它们是数字；数字能和标准答案容易比较，从而容易被数学地利用。

但像 “Please answer in Newton-seconds”（请用牛顿·秒作答）这种反馈，你怎么量化？打 7/10、8/10，还是 2/10？

研究者用了一个巧妙招数：不要把它当作可计算的奖励，而把它当作额外上下文（additional context）。直白讲，我们用这段新上下文，让模型在同一段 rollout 上再跑一遍。

换言之，还是同一个 rollout，但在新上下文下，模型对其中每步预测分配的概率都会改变，因为——上下文更好了。

这就像你解题时，别人给了你更多背景，于是你会“重新审视”自己每一步的尝试（“在这个新上下文下，我觉得这一步做得不错，但那一步不太好”）。

这也是为什么他们把方法称作 SDPO（Self-Distillation Policy Optimization）：让同一个模型把知识‘蒸馏’给自己。

至关重要的是，与以往方法不同，这个方法提供了稠密监督（dense supervision），也就是“老师”（critic）会对学生做的每一步预测逐一评估。

蓝色是老师标注为好的 token，红色为差的。相比之下，GRPO 是全有或全无：要么整段通过，要么整段不通过。

一下子，我们把一个原本虽重要、但昂贵（要么需要非常贵的大模型做 critic，要么需要极其漫长的试错，因为奖励太稀疏）的过程，变成了：

更便宜。
和“老师-学生（critic-student）”那套必须用更强更贵的模型当 critic 不同，这里每个 rollout 只需跑两遍模型，而且是同一个模型（不是更强的那个），并且计算负载更易并行化（下面会展开）。
更稠密。
我们把一个因为“反馈不可用”而拒绝使用富反馈的稀疏奖励系统，变成一个不仅能吃下富反馈、还对 rollout 中的每一步都提供监督的系统，而不是只在结尾“全票通过或全票否决”。

那如果环境给不出富反馈呢？这方法是不是就没用了？

完全不是。即便在那样的情形里，只要有一次 rollout 成功了（答对了），它就会立刻作为反馈，去帮助其他生成。

归根到底，思路始终不变：把一个上下文贫乏的模型，与一个虽然参数相同但拥有丰富上下文的模型比较——这个上下文要么来自环境富反馈，要么来自其他成功尝试。