大数跨境

所有 AI 会收敛成一个模型吗?答案可能很意外

所有 AI 会收敛成一个模型吗?答案可能很意外 AI大模型观察站
2026-03-31
2
导读:AI 技术不断演进,但是否会收敛到一个“终极算法”?本文从当前主流模型与新兴方法出发,分析这一可能性背后的逻辑与限制,探讨 AI 未来是走向统一范式,还是持续多路线竞争的格局。
来源:作者使用 AI 生成

一组研究者或许找到了目前最优的 AI 学习算法,解开了 AI 训练中一个长期未解的核心难题:

我们如何充分利用富反馈(rich feedback)?

这篇文章面向希望用直觉理解 AI 是如何被训练的读者,全程摒弃不必要的行话、数学和公式,只讲第一性原理(first principles),同时做到教材级准确,还会介绍一个将改变未来训练范式的新技术

如果这说的就是你,那这篇文章就是为你写的。


我们只会学那些能被验证的东西……而且我们并不擅长。

AI 只能从可验证(verifiable)的信号中学习。就像说“鸟会飞”一样,这是事实。

可这到底意味着什么?

模仿是最经典的训练方式

没有反馈、没有办法验证自己是否在进步,AI 就不知道如何改进——就像人类如果失去了感官,也很难学习现实世界。

机器目前还没我们这么幸运(至少现在还没有),所以我们让它们靠模仿我们来学习。

如果它们无法直接体验世界反馈,我们就让它们模仿那些能体验的人类。

多年来,大多数 AI 训练都是纯粹的模仿。我们收集了一定量的人类数据——这些数据承载了数百万年的进化积累,对于大语言模型(Large Language Models,LLMs)来说,还包含了上千年的书写传统——然后让 AI 去模仿。

学习过程本质上很直接:模型预测它“认为”正确的响应,我们把它和真实的标准答案对比,这个差异就成了学习信号。

以 LLM 为例,对序列 “What’s the capital of Egypt?”(“埃及的首都是哪座城市?”),模型会给所有候选分配概率,比如给 “Cairo” 分配 23%。这 23% 与应当给 “Cairo” 的 100% 之间的“缺口”就是预测误差;随着训练迭代,模型会逐步把正确答案的概率推高。

通过这种反复操练,而且是大量、我指的是非常大量的操练,AI 最终会在特定领域里成为还算像样的人类模仿者(对于 LLM,就是自然语言)。

尽管模仿法有明显的缺点(如你将看到的,有更优的学习方式),但它有一个关键优势:反馈密度(feedback density)

AI 学习不仅需要有反馈,还需要足够高的反馈频率。反馈越频繁,模型学得越快。

不过,当今的前沿模型,例如你日常使用的 GPT-5.4 或 Claude Opus 4.6,还会进行一个额外的学习阶段:强化学习(Reinforcement Learning,RL)

模仿训练能得到一个可以给出相当合理预测的 LLM。仍以 “What’s the capital of Egypt?” 为例,模型几乎肯定会回答一个城市名,而不是动物名。它也许没给出 “Cairo”,而是说了 “Alexandria”,但也不会答成“水豚”。

这当然不错,但模仿只能把你带到某个程度。它在压缩知识上很拿手;模型确实学到很多事实,但它并不擅长解题。就像听写能帮助孩子练字,却教不了他们多少数学。

要解决问题,我们需要探索(exploration)。我们需要模型通过试错接近答案。模型必须探索解题路径,才能真正把握背后的概念;就像孩子只有亲自做题,才会真正学会数学。

这就把我们带到了另一种重要的训练方法:探索

探索的黎明

为了克服上述局限,LLM 在此之后会使用所谓的强化学习(RL),本质上就是“体面的”试错学习

模型不再被给出完整可抄袭的解法,而只拿到问题本身。然后通过持续的探索、尝试失败、再尝试再失败,模型最终会达到正确答案,我们再对其进行“强化”;也就是激励模型重复那些把它带向正确答案的步骤。

不过,RL 需要三个非常重要的要素:

  1. 直觉(Intuition):
    我们不能让一个没有任何世界知识的模型来做这事。否则,探索就会沦为纯随机猜测,永远不收敛(比如你无论怎么试,也教不会一条狗写莎士比亚诗)。这就是为什么 RL 总是在模仿阶段之后进行。
  2. 可验证性(Verifiability):
    我们需要有办法评估产出的质量
  3. 奖励(Rewards):
    我们需要“引导”模型朝正确方向前进(即让模型对自己“往哪儿走”有点感觉)。如果你不给狗在做对把戏后发零食,它永远不会知道那些把戏是“好的”。

但如果做得好,可以说 RL 是“终极”的训练范式。只要满足以上三点,你就几乎能保证取得结果。

  • 第一条解释了为什么探索阶段我们用 LLM 而不是狗,因为它能做“有根据的猜测”。
  • 第二条保证了学习信号;没有反馈,就没有学习。
  • 第三条也许最棘手。奖励不仅决定模型学得多快,还决定它学到的先验是“正”的,还是会“跑偏”。

你最近有看到 AI “勒索”用户的新闻吗?嗯,出现这种现象的原因就是糟糕的奖励设计,这被称作奖励黑客(reward hacking)。不过这个话题留待改天再聊。

理解了这些,你就能明白为什么 RL 做得好会如此强大。如果猜测本就不差,迟早能猜对;我们“只需要”推动它更多地做“那些有效的事”。

因此,你应该一点也不惊讶:RL 是 AI 历史上一些最惊人突破的幕后推手——它造就了 AlphaGo 的超人围棋实力,也支撑了最近在数学、编程、智能体上的许多进展。

但它也有一个巨大的问题,在某种意义上直到今天都束缚着 RL 的真正力量:奖励的质量与密度

那我们即将要谈的这项研究,是如何解决这些限制的?


我的通讯用第一性原理、通俗易懂的话解释 AI,给那些对炒作过敏、对知识饥渴的人看。欢迎加入。

订阅 | TheWhiteBox by Nacho de Gregorio


让 RL 拥有高密度奖励

当我说 RL 的奖励很稀疏,我是认真的。模型可能会在“盲飞”状态下一口气做出 100 次预测,完全不知道自己是否在往正确方向上,直到最后才收到一个“提示”它这一路是不是对的奖励信号。

这种试错效率极低,因为每次尝试几乎不产出关于质量的什么信息。这就像玩“冷热(hot or cold)”的游戏:玩家靠近目标会被喊“热”,远离会被喊“冷”,但你不是每动一下就有反馈,而是每分钟才给一次信号。

可为什么不干脆给它所有需要的奖励呢? 事实证明,现实世界要复杂得多。

归因分配问题(credit assignment problem)

问题并不是我们不想给更密的反馈;而是很难做到

这就是“归因分配问题(credit assignment problem)”:对一次 rollout(从模型接收问题到生成解答的整段预测序列)里的许多预测来说,我们并不知道它到底是“好”还是“坏”

这就像写一篇 5,000 字的文章,然后纠结在第 2,000 个词用 “the” 是不是个好选择。鬼才知道。

有些奖励是显然的;比如强化“从‘Once upon a time,’ 开始一个童话小说”而不是用 “Cattywampus” 这个词,挺合理;但诸如“小说的完美长度是多少”“如何构造好支线故事”等等这些好小说的关键成分,却远难以被简单地判定为“好”或“坏”。

更糟糕的是,在许多 AI 训练场景里,最终的结果奖励也很粗糙

比如,模型可能为了一个复杂数学题生成了非常长、上千词的 rollout,最后只得到一句“对”或“不对”的反馈

这真是好的反馈吗?它能让下一次的 rollout 更可能更好吗?

鉴于我们给模型的反馈往往很一般,大多数时候,探索就变成了“统计覆盖”的问题:模型最终“撞对”答案,靠的是统计学,而不是被有效引导到更好的解法

更糟的是,有时候环境反馈其实非常丰富,但我们忽略了它,只去看“对不对”,把其他更细的信号(比如“对了多少、错了多少”)全丢掉。

为什么? 讽刺的是,因为我们不知道该拿这些富反馈怎么用(稍后详述)。

于是我们就得到一个最糟组合:奖励频率很差(模型大多数时候在“盲飞”),而且最终的结果奖励要么除了“对/错”之外几乎没信息量,要么我们干脆忽略了本来很丰富的信号。

幸运的是,我们也许已经找到了答案。它叫“来自富反馈的强化学习(Reinforcement Learning from Rich Feedback,RLRF)”。不过在理解它为何颠覆性之前,我们先看看当下 RL 是怎么训练模型的。

现状的问题

我们已知有两种应用 RL 的方式,区别在于如何施加奖励:一种使用一个额外模型作为“critic(评论者/评估器)”,另一种不使用。

用更强的模型做 critic 很好,但代价很高。因此,当下最流行的公开 RL 训练方法是 DeepSeek 提出的 GRPO(Group-Relative Policy Optimization,组相对策略优化),论文在此,它完全不使用 critic。

名字很花哨,其实方法很直白:我们按相对得分来判断哪些 rollout 更好。

大白话就是:

  1. 给定一个问题和标量解(标准答案),用模型生成多个 rollout;
  2. 对这些 rollout 各自打分;
  3. 再用分数给每个 rollout 的学习量加权(分越高的 rollout,对模型参数更新的贡献越大)。

这比用另一个模型当 critic 要便宜,但你也能立刻看到它的问题,核心就是奖励密度

我们为整个 rollout 只得到一个奖励:最终结果的奖励,指明该 rollout 对或错。这带来两个问题:

  • 在那些最终答对的 rollout 里,几百个预测中,到底哪些是“关键一步”,把模型带到了正确答案?最终答案正确并不等于推理过程可靠
  • 在那些最终答错的 rollout 里,几百个预测中,难道就没有“好预测”吗?最终答案错误也不等于推理过程一无是处。

换言之,这种方法存在严重的监督问题:模型和工程师都对到底“学到了什么”不明不白;我们注定会降低一些好预测的权重,同时强化一些坏预测(只因为它们“碰巧”对了)。

更具体地说,在这种方法下,一个漂亮的推理链条如果在最后犯了个低级错误,会被降权;而一个回答“半径为 5cm 的圆的周长是多少”的简短解答如果写成了 “答案是 π*r²=31.42 cm”只因最终数值“碰巧”对了,就会被上调权重,尽管公式完全错了

所以,总结一下,理想的学习方法应当:

  1. 有高奖励频率(模型持续知道自己做得如何),
  2. 能利用“超越对/错”的富反馈,
  3. 在不太贵的前提下实现高奖励密度(比如不需要一个更聪明更大的模型来点评学生)。

出人意料地,这个答案可能一直就在我们眼皮底下。下面说说 SDPO 如何满足这些约束。

SDPO,一种令人兴奋的新方法

我总说,最好的研究是那种你一看就知道“这主意好极了”。这篇就是

如前所述,我们过去的做法是:让 AI 大规模地“猜-验”,终有一刻会撞到与标准答案完全匹配的解,然后就去强化它。这样“也还行”。

说白了,你每天用的那些模型,就是这么训练出来的。

有趣的是,即便反馈相当一般,它们也能做到不错的表现。然而在像编程这样的场景里,奖励系统其实远不止“对/错”;它还会告诉你哪里错了(编译报错、规范不符等)。

如你所见,最后一行环境明确指出了错误(我们做了除以零)。来源

然而,我们通常把这些信息全部丢弃,只告诉 AI “你错了”。

问题一眼就能发现;就像我们不会给“差不多对”的作业打零分一样,这里的想法是找到一种方法,把“完整的错误反馈”提供给模型(比如它“做了除以零”),并自然地引导它走向更好的方案

不明显的难点在于:你打几分才合适?如何把这种具体错误转成数字——机器唯一能理解的形式?

也就是说,我们如何从下图左侧,走到右侧?

来源

像所有好研究一样,答案其实有点显而易见:让模型在新增上下文下重试。

在 SDPO(Self-Distillation Policy Optimization,自蒸馏策略优化)中,研究者提出的流程是

  1. 先生成一个 rollout(也就是 AI 尝试解题);
  2. 这个 rollout 产出富反馈,告诉我们“哪里对了/错了”;
  3. 关键在这一步:我们不丢弃这些富反馈、不只看对错,而是把反馈回灌给同一个模型,再跑一遍;
  4. 同一个模型但带着更丰富的上下文,对整段 rollout 打分,扮演“critic(评论者)”。

这有什么好处? 关键在于,虽然还是同一个模型,但它拿到了更好的上下文,所以对 rollout 的评分能基于之前模型“不知道的事”。

换句话说,借助接收的反馈,我们让模型“自评(as its own critic)”。你也许还没反应过来,但这改变了一切。

为什么这如此颠覆? 困扰富反馈的根本问题并不是我们不想要它;而是我们不知道如何使用它

标量奖励(scalar rewards)之所以易用,是因为它们是数字;数字能和标准答案容易比较,从而容易被数学地利用。

但像 “Please answer in Newton-seconds”(请用牛顿·秒作答) 这种反馈,你怎么量化?打 7/10、8/10,还是 2/10?

研究者用了一个巧妙招数:不要把它当作可计算的奖励,而把它当作额外上下文(additional context)。直白讲,我们用这段新上下文,让模型在同一段 rollout 上再跑一遍。

换言之,还是同一个 rollout,但在新上下文下,模型对其中每步预测分配的概率都会改变,因为——上下文更好了

这就像你解题时,别人给了你更多背景,于是你会“重新审视”自己每一步的尝试(“在这个新上下文下,我觉得这一步做得不错,但那一步不太好”)。

这也是为什么他们把方法称作 SDPO(Self-Distillation Policy Optimization):让同一个模型把知识‘蒸馏’给自己

至关重要的是,与以往方法不同,这个方法提供了稠密监督(dense supervision),也就是“老师”(critic)会对学生做的每一步预测逐一评估。

蓝色是老师标注为好的 token,红色为差的。相比之下,GRPO 是全有或全无:要么整段通过,要么整段不通过。

一下子,我们把一个原本虽重要、但昂贵(要么需要非常贵的大模型做 critic,要么需要极其漫长的试错,因为奖励太稀疏) 的过程,变成了:

  1. 更便宜。
     和“老师-学生(critic-student)”那套必须用更强更贵的模型当 critic 不同,这里每个 rollout 只需跑两遍模型,而且是同一个模型(不是更强的那个),并且计算负载更易并行化(下面会展开)。
  2. 更稠密。
     我们把一个因为“反馈不可用”而拒绝使用富反馈的稀疏奖励系统,变成一个不仅能吃下富反馈、还对 rollout 中的每一步都提供监督的系统,而不是只在结尾“全票通过或全票否决”。

那如果环境给不出富反馈呢?这方法是不是就没用了?

完全不是。即便在那样的情形里,只要有一次 rollout 成功了(答对了),它就会立刻作为反馈,去帮助其他生成

归根到底,思路始终不变:把一个上下文贫乏的模型,与一个虽然参数相同但拥有丰富上下文的模型比较——这个上下文要么来自环境富反馈,要么来自其他成功尝试。

来源:作者制作

看到这里,你也许仍会质疑“更便宜”这一点:这确实比用更聪明更贵的 critic 看起来省钱,但不还是比 GRPO(完全没 critic)算力开销大吗?

关键在于三点:并行化(parallelization)响应效率(response efficiency)更快收敛(faster convergence)

有个点如果你不是 AI 发烧友就比较难体会:当模型“知道自己要评什么”时,跑一个 LLM 会便宜很多

在推理(inference)阶段(比如让模型尝试解题),模型不知道下一个词会是什么。

在这种情况下,每预测一个词,都要等这个词出来后才能预测下一个。你不可能“一下子预测整段序列”;它天生是串行的,所以会更慢

而当模型“知道”自己要评估什么时,情况就不同了。比如在模仿学习里,我们知道要让模型模仿哪段文本,所以可以一次性把整段序列喂给它,然后同时评估每个词的概率。

这不好想象,于是我做了个小可视化来帮你理解:这 11 个词是同时被“评”的。

你能猜到,这要快得多。这也正是我们拿到富反馈后“再跑一遍模型”的方式:我们知道学生模型当初生成了什么;现在只是在更好的上下文下,让同一个模型给每个词的得分

这不仅更快,还能更充分地利用硬件(比如更高的 GPU 利用率),所以整个流程只比 GRPO 慢一点点,因为验证过程非常快。

来源

进一步支持“SDPO 更省”的论点在于,它还能让模型的回答更高效。由于得到的反馈更稠密,模型会少“唠嗑”,更快切中要点。

它不必生成冗长的内容去“摸索”正确答案;而是借助清晰的反馈更快收敛

来源

看到这里,你应该也不会惊讶:这个方案的可扩展性也明显优于 GRPO:

那么……这就是“那个方法”吗?


SDPO 就是答案吗?

从我读到的一切来看,它很可能会成为新的首选训练方法;更便宜、效果更好这有什么不好呢?

此外,它的验证过程是“GPU-pilled”的:天生适合并行的验证方式,能更好吃满 GPU。这一点常被爱好者忽视,但对那些每年烧掉数十亿美元算力的 AI 实验室至关重要。

它也是首次系统性地利用环境的富反馈,终于打破了这个行业长期受制于“稀疏可验证奖励”的枷锁——过去只能无限拉长训练、指望模型早点撞上关键先验;现在,实验室可以把精力放到设计能产出富反馈、且能被立即消化吸收的环境上。

对我而言,这项研究满足了好研究的全部要素:

  • 顺应激励(incentives-aware)
    (它推动了研究者真正关心的方向),
  • 常识可读(reads as common sense)
    (“这怎么可能不起作用呢?”的那种直觉),
  • 并且紧贴当前研究热点:RL。

最近我鲜少被论文打动;一切都像在重复。所以有些人可能注意到我写研究类内容变少了。但读到这篇,我就知道:就是它了。


【声明】内容源于网络
0
0
AI大模型观察站
专注于人工智能大模型的最新进展,涵盖Transformer架构、LLM训练优化、推理加速、多模态应用等核心技术领域。通过深度解析论文、开源项目和行业动态,揭示大模型技术的演进趋势,助力开发者、研究者和AI爱好者把握前沿创新。
内容 328
粉丝 0
AI大模型观察站 专注于人工智能大模型的最新进展,涵盖Transformer架构、LLM训练优化、推理加速、多模态应用等核心技术领域。通过深度解析论文、开源项目和行业动态,揭示大模型技术的演进趋势,助力开发者、研究者和AI爱好者把握前沿创新。
总阅读2.3k
粉丝0
内容328