大数跨境
0
0

RL推理的尽头,是熵坍缩?统一SFT与强化学习的新视角

RL推理的尽头,是熵坍缩?统一SFT与强化学习的新视角 极市平台
2025-08-08
1
↑ 点击蓝字 关注极市平台
作者丨紫气东来@知乎(已授权)
来源丨https://zhuanlan.zhihu.com/p/1917257135730964355
编辑丨极市平台

极市导读

 

本文以“熵缩”视角拆解推理 LLM 的能力天花板:论证 RL 只是放大预训练分布而非创造新推理,提出熵坍缩-探索困境的量化分析与 token 级干预方法,为突破当前 RLVR 极限指明方向。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

在 LLM 的预训练及微调阶段,scaling law 告诉了我们所能达到效果范围,其中蕴含了深刻的信息论原理,感兴趣的可以回看笔者之前的文章

https://zhuanlan.zhihu.com/p/687278237

在此原理的支配下,开发者则可以将精力主要关注于三个方面:清洗数据、增大模型、提高效率。那么对于主要基于 RL 的推理模型而言,是否也存在这样一个指导原则呢?本篇将以推理模型的能力边界为主题,主要围绕以下问题展开:

  • 基于 RL 的推理模型的表现与基座模型的关系
  • RL 中的“熵坍缩”问题:原因、实质及解决方法
  • 推理模型是否存在“能力边界”,以及如何拓展“能力边界”

一、RL 效果与基座模型的关系

随着 RL 热度的提高,近期众多工作研究了基座模型与 RL 训练效果的关系,相当多的工作提出共同的观点:模型的能力由预训练决定,RL 仅仅只是其中某些行为的“放大器”。那么,如果去认识和理解这一现象呢?如果该观点成立,其更深层次的原理是什么呢?

2.1 观察:基座模型决定论

关于基座模型与 RL 的关系首先来自基于实验的观察,为了理解这一过程,我们不妨在此列举部分工作的实验结果及其核心观点。

  • DeepSeek R1

DeepSeek R1 是比较早讨论到基座模型与 RL 的关系的文章,其中认为基座模型与 RL 对模型的边界能力同等重要,即“要超越智能的边界,可能仍需要更强大的基础模型和更大规模的强化学习”。

当然以上观点还是基于少量实验数据提出的,但仍然可看作类似观点之滥觞。

  • Echo Chamber

该研究者从头开始训练不同规模(150M和1B参数)的解码器语言模型,并使用完全开放的数据集混合进行预训练。使用PPO(Proximal Policy Optimization)、GRPO(Group Relative Policy Optimization)和Expert Iteration等RL算法对预训练模型进行微调。

通过大量实验,观察到如下表现:

  1. RL微调的收敛性:RL微调使模型输出迅速收敛到预训练数据中的一种特定分布格式,抑制其他分布。例如,模型可能迅速偏好TinyGSM风格的输出,即使这种格式在初始化时并非最常见。
  2. 性能提升:RL微调显著提高了模型在GSM8K测试集上的pass@1准确率,但降低了pass@64准确率,表明生成多样性减少。
  3. 规模依赖性:不同规模的模型在相同数据混合上训练后,会收敛到不同的输出分布。较小的模型倾向于输出更简单、类似代码的格式,而较大的模型倾向于自然语言输出。
  4. 正向迁移:在GSM8K上进行RL微调后,模型在未见过的评估数据集(如MATH-500和AIME)上也表现出性能提升,表明某些推理能力可以在任务间泛化。

由此可以得到以下RL 与基座模型关系的结论:

  1. RL微调的放大效应:RL微调不仅放大了预训练数据中的特定模式,还可能抑制其他模式,这取决于预训练数据的组成、RL算法的选择、超参数设置和模型规模。
  2. 模型规模的影响:模型规模对RL微调的效果有显著影响。较大模型在自然语言输出上表现更好,而较小模型可能更依赖代码风格的输出。
  3. 正向迁移的证据:RL微调不仅改善了模型在特定任务上的表现,还提升了模型在更广泛数学任务上的推理能力。
  • Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

为了评估模型的推理能力边界,作者提出了pass@k指标。该指标通过多次采样(k次)模型的输出,判断问题是否被解决(即至少有一个输出是正确的)。这种方法可以更准确地评估模型在大量尝试下的推理能力。在多个数学、编程和视觉推理基准测试上进行了广泛的实验,涵盖了多种LLM家族、模型大小和RL算法。实验使用了Qwen-2.5、LLaMA-3.1等模型,并采用了GRPO、PPO等多种RL算法。

实验发现,在数学、代码、视觉问题上,RLVR训练的模型在小k值(如k=1)时表现优于基础模型,但在大k值时,基础模型的pass@k分数与RL模型相当甚至更高。这表明基础模型在大量采样下能够解决RL模型解决的问题,且RL训练并未引入新的推理模式。

由此得到结论:RLVR在当前形式下不足以激励LLMs超越基础模型的推理能力。尽管RLVR可以提高模型在小k值时的性能,但它限制了模型的探索能力,导致在大k值时的覆盖范围缩小。即 RLVR 可能不足以推动LLMs的推理能力边界。未来可能需要新的训练范式来实现这一目标。

此外,该文章中还有更多信息值得关注,包括:

  1. 推理路径分析:观察困惑度(perplexity)可以发现与 RL 相关的 PPL 显著更低,即RLVR训练的模型生成的推理路径已经包含在基础模型的输出分布中。这表明RLVR训练并没有引入新的推理能力,而是通过偏向高奖励的路径来提高采样效率。
  2. 不同RL算法的效果:尽管不同的RL算法在性能上存在微小差异,但它们在提高采样效率方面并无本质区别。作者提出了采样效率差距(   )来量化RL算法的效率,发现现有方法与最优效率之间仍有较大差距。

当然,还有很多论文也讨论了该问题,笔者在此不再一一介绍,仅列举出来供读者参考:

  • Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs(https://arxiv.org/abs/2503.01307)
  • Rethinking Reflection in Pre-Training(https://arxiv.org/abs/2504.04022)
  • Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs(https://arxiv.org/abs/2506.14245)

2.2 实质:“熵坍缩”与模型专业化

“熵坍缩”:即在 RL 训练中策略熵在早期训练阶段急剧下降,导致策略模型过于自信,进而导致探索能力的减弱与策略性能的饱和。实际上,上一小节的 PPL 已经提现了这一点(PPL 与熵的计算仅仅差一个 exp),其表现如下图左所示,模型在特定领域的表现提升与其熵缩是同时发生的,甚至二者之间都可以通过公式近似拟合出来。

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

如果对 Token 熵进行模式分析,可以发现,在 CoT 推理中,大多数 token 的熵很低,而少数 token 的熵很高。这些高熵的 token 通常作为推理路径中的“分叉点”(forks),引导模型走向不同的推理路径。例如,高熵 token 常见于逻辑连接词(如“Thus”、“perhaps”等),而低熵 token 则多为单词后缀或数学表达式的组成部分。

在 CoT 推理中,高熵的少数 token 起到了关键作用,它们作为“分叉点”引导模型走向不同的推理路径。RLVR 训练主要保留了基础模型的熵模式,并且主要调整了高熵 token 的熵。通过仅对高熵 token 进行策略梯度更新,可以显著提高模型的推理性能,且这种方法在更大模型上效果更明显。

Beyond the 80/20 Rule: High-Entropy Minority TokensDrive Effective Reinforcement Learning for LLM Reasoning

另外也有工作研究了正负样本对 RL 的训练结果的影响,实验发现,仅使用负样本进行训练(NSR)在Pass@k的整个范围内都能显著提升模型性能,甚至在某些情况下超过了PPO和GRPO等常用强化学习算法。与NSR相反,仅使用正样本进行训练(PSR)虽然能提高Pass@1,但在较大的k值下性能下降,导致输出多样性降低。通过跟踪模型的熵,发现NSR在整个训练过程中保持了较高的熵,而PSR则迅速降低了熵。这表明NSR在训练过程中保持了模型的输出多样性。

通过分析可知,PSR通过增加正确响应的logit值,同时降低其他所有token的logit值,导致输出分布变得过于集中,减少了多样性。NSR通过降低错误响应的logit值,并将概率质量重新分配给其他候选token,这种重新分配是基于模型先验的,有助于保持多样性。NSR通过抑制错误响应和根据模型先验重新分配概率质量,有效地细化了模型的现有知识,而不是引入全新的行为。

The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning

通过以上一系列实验,至少可以发现以下共同的现象:

  1. 随着训练的进行,“熵坍缩”现象是普遍存在的,无法避免的;
  2. 不同 token 的熵表现不同,对结果的影响也不同;
  3. 通过对不同 token 的熵的干预,可以一定程度影响结果

以上过程是如何发生的?其底层的原理是什么?其与模型专业化训练过程的关系是什么?以下将试图进行更加深入的探讨。

二、熵缩:从 SFT 到 RL

上文讨论的“熵坍缩”现象都是发生在 RL 训练过程中的,目前尚未看到 SFT 中有类似提法,那么本节就由表及里,从 SFT 到 RL,探究“熵坍缩”的发生过程。

2.1 信息熵、策略熵与交叉熵损失

首先在笔者之前的文章中已经讨论过,对于一个确定的语言或者数据集,其信息熵是确定的,即在自然语言领域,令   ,熵可以表示为:

其中 

当序列长度无限大的情况下,香农将其定义为该语言的熵,即: 

根据这个定义,熵是使用无限数量的符号来计算的。在实践中,只能从有限的文本样本中近似经验熵来近似任何语言的熵。

在 LLM 中,我们可以根据定义来计算参数化模型输出的 token 熵,即索引  处的熵

其中,  表示由   参数化的LLM,  是输入查询,  表示先前生成的token。   是词表大小,   表示在时间步   的 pre-softmax logits,  是词汇表上相应的概率分布,  是解码温度。

在此基础上,我们可以进一步得到策略熵(即模型熵),策略模型在训练数据   上的平均 token 熵,即

其中输入提示   ,策略熵量化了策略对当前提示的不确定性水平。

细心的读者看到以上公式也许会联想到 SFT 中的交叉熵损失,即:

其中的关键区别在于移除了期望  ,并替换为真实的样本序列  。这体现了监督学习的本质:使用真实标签计算损失。

通过以上分析我们可知,SFT 中也存在“熵坍缩”现象,而且其“熵坍缩”现象的本质就是模型训练的过程(loss 下降),这也是模型在特定数据集上的专业化过程。

而与 SFT 不同的是,RL 存在探索的过程,其中会产生多个正负样本,因此其策略熵即是在多条样本期望上,其“熵坍缩”的过程也即逐步收敛到正样本上的过程。下面我们将尝试进一步论证以上推断。

2.2 RL 的熵缩机制

在论文The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models中比较严谨地证明了 RL “熵坍缩”的发生过程,在此仅展示其中核心观点。

Softmax 策略的熵差。假设策略   是一个表格形式的 softmax 策略,其中每个状态-动作对   都与一个独立的 logit 参数   相关联,在一级近似下,两个连续步骤中给定状态   的策略熵之差满足

这个引理表明,策略熵的变化约等于动作的对数概率与 logits 变化之间的负协方差。也就是说,当一个动作   在更新前从策略中获得了高概率,并且其对应的 logits 在更新后也在增加,那么它将降低策略熵。

策略梯度中策略 logits 的差异。上式中   是步骤 k 和步骤   之间输出 logits 的变化,可以证明,通过梯度回溯以学习率   进行更新,则连续两步之间的差异满足

结合以上公式,直观上可以看到,一个动作   同时获得高/低概率和高/低优势会降低熵,反之亦然。在早期阶段,策略在训练数据上表现出高协方差,暗示策略的置信度得到了良好校准,因此可以安全地利用高置信度的轨迹,增强信念并最小化熵,此阶段可理解为 SFT 的增强阶段,也即熵缩的主要过程。

2.3 RL 与 SFT 的联结

在传统认知中,RL 与 SFT 的区别主要体现在两个方面:

  • 负样本的利用
  • 样本的多样性

那么如果在 SFT 中增加负样本,同时可以无限增加样本的情况下,是否 SFT 就可以等价于 RL 呢?答案是肯定的。接下来我们看一下 Bridging Supervised Learning and Reinforcement Learning in Math Reasoning中的论证过程。

利用负样本。首先定义负策略

而最终的策略可以看作正负策略的叠加,即

其中   表示 LLM   在问题上的正确率。

根据以上关系,可以构建一个隐式负策略

考虑用于训练隐式负策略  的最大似然目标:

假设数据无限且模型容量无限,上式的最优解是

为了进一步利用正样本,可以对上式进行进一步修正,即

接下来论证 GRPO 和 NFT 在 on-policy 训练中是等价的。假设对于一个给定的问题,有  个正面答案和   个反面答案,仅考虑二元奖励,则 GRPO 的梯度

其中   分别是答案的归一化优势。

同样可以得到 NFT 的梯度,即

则可以推知GRPO 和 NFT 损失梯度在策略梯度训练中是等价的,即

总结一下以上讨论,RL 与 SFT 没有本质上的区别,其熵缩的过程即是模型训练的优化过程,也是模型专业化的过程,改过程是必须的、不可避免的,对于熵的过分放开可能反而会使模型训练的崩溃

三、“熵坍缩”的处理方法及其本质

3.1 探索-利用困境

事实上,关于熵的讨论即是在讨论 RL 的核心问题 —— 探索-利用困境(exploitation-exploration dilemma):

  • 如果任由熵缩而不加干预,则模型会快速收敛到某种模式,即利用过多,会导致模型能力比较局限;
  • 如果对熵干预过多,即使熵保持在一个高水平,即探索过多,可能会导致无法收敛,甚至训练崩溃

下面通过几个案例来说明以上情况:

控制策略熵的常用方法之一是应用熵损失,下图展示了添加熵损失的结果,熵损失对系数非常敏感,小系数对熵的影响较小(0.0001,0.001),而大系数会导致熵爆炸(0.01)。尽管将系数设置为0.005成功地稳定了策略熵,但它并不优于其他方法。

也可以通过调整策略模型和参考模型之间的 KL 惩罚来控制熵。尽管 KL 实现了稳定的熵值,但它未能改进策略,反而导致性能下降,因此当前很多工作就不再使用 KL 约束。

3.2 干预方法讨论

在前文中,我们讨论了“熵坍缩”的发生过程及其影响,那么在具体训练过程中,熵与哪些因素相关呢?该如何干预和影响熵呢?熵的改变对下游任务有多大影响呢?本节将以一些典型工作为例,讨论以上相关的内容。

3.2.1 Clip-Higher

DAPO 是较早讨论“熵坍缩”现象并进行干预的工作,其干预的方法也非常简单,即 Clip-Higher。Clip-Higher 通过解耦clip的上下限范围,增大clip上限,以允许更自由地增加低概率 token 的概率,从而鼓励探索。.此外,上限阈值仅影响具有正优势的 token。

3.2.2 Clip-Cov 与 KL-Cov

论文 The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models 中根据其提出的协方差理论,相应提出了基于此的 clip 方案。

策略熵动态与动作概率和优势之间的协方差密切相关。而在大部分模型中,一小部分 token 表现出极高的协方差,远超平均值(如下表)。也就是说,这些异常 token 在触发熵崩溃中起主导作用。为了减轻它们的不利影响,需要对其对策略损失的贡献施加约束。

Group
Top 0.02%
Top 0.2%
Top 2%
Top 20%
Top 50%
All
Mean value
5.654
3.112
1.385
0.351
0.152
0.003

假设有一批 N 个response, \pi_\theta⁢(y_i) 表示策略模型在给定其对应 prompt 的情况下,对 token y_i 的输出概率。根据定理 2,我们首先定义 log 概率和优势之间的 token 级别中心交叉乘积为协方差,即

在 Clip-Cov 策略中,从策略梯度更新中剪切一小部分高协方差 token,具体根据协方差值随机选择r⋅N个高协方差 token,即

其中   是索引的简称,  表示裁剪比例。   是协方差的两个预定义边界,分别。它们都设置得远高于平均协方差(>500×)。最后,具有选定索引的 token 将被从策略梯度中分离,策略梯度为

其中   是一个 response 中的第   个 token,每个   唯一对应 N 中的索引 

KL-Cov 策略更简单,区别在协方差的 top-k比例内进行排序和选择 token,即

这里的   表示将受到 KL 惩罚的 token 的比例并且   。最后对选定的 token 施加 KL 惩罚(当前策略与 rollout 策略之间的 KL 散度),策略损失计算如下:

实验显示,这两种方法能够在整个训练过程中保持相当高的熵水平。同时,策略模型的响应长度稳步增加,其在测试集上的表现始终优于基线。即模型在训练过程中能够更“自由”地探索,通过强化学习学习更好的策略。同时也比 clip-higher 方法更加稳定。

3.2.3 On-policy training

关于 On-policy training 的典型工作是 On-Policy RL with Optimal Reward Baseline,其放弃了 rollout 带来的样本效率,而采用完全的 on-policy 方式,同时其采用了优化的baseline,我们不妨来看一下其过程

在基于策略梯度的方法中,baseline 常被用以降低梯度估计的方差,即

其方差可以表示为

由于第二项(预期梯度的平方)与b无关,最小化Var⁢[g]等同于最小化第一项。通过对b求导并设其为零,我们可以推导出最优基线   :

求解可得

由于该式计算复杂,故假设:不同 token 的梯度近似正交,并且每个 token 的梯度范数遵循相同的分布。在此条件下,轨迹策略梯度的平方幅度与其长度成正比,即  ,则有

核心代码实现如下:

        score_tensor = torch.tensor(id2score[idx])
        len_tensor = torch.tensor(id2len[idx])
        id2bsl[idx] = (len_tensor * score_tensor).sum() / len_tensor.sum()
    for i in range(bsz):
        scores[i] = scores[i] - id2bsl[index[i]]

比较 on-policy 与 off-policy 的结果可以看到,虽然off-policy 策略训练在早期阶段实现了与精确on-policy策略训练相似甚至略高的训练奖励,但在数学推理任务上表现较差。这表明off-policy 学习可能存在潜在的过拟合问题。此外,on-policy 策略训练在整个训练过程中表现出显著更低的 KL 散度和高得多的熵,即使没有任何显式的 KL 或熵正则化,而 off-policy 策略训练包括一个额外的熵奖励。更低的 KL 散度意味着更低的对齐成本,更高的熵则表明更强的探索能力。

3.2.4 Token intervention

事实上 Clip-Cov 与 KL-Cov 就已经是 token-level 的干预了,只是由于其底层原理比较独立,因此单独讨论。本小节以 https://arxiv.org/pdf/2506.01939为例进行分析。

其同样发现,通过检查思维链 (CoT) 推理中的 token 熵模式,观察到只有一小部分 token 表现出高熵,并且这些 token 充当关键的 forks,引导模型走向不同的推理路径。具有最高 entropy 的 token 通常用于桥接两个连续推理部分之间的逻辑连接,而具有最低 entropy 的 token 倾向于完成句子的当前部分或完成一个单词的构建。

RLVR 主要改变高熵 token 的熵,而低熵 token 的熵保持相对稳定,变化极小。即低熵tokens对推理性能的贡献极小,高熵tokens的有效性可能在于它们增强探索的能力。

高熵少数 tokens(即 forking tokens)可能在解释为什么 RL 泛化而 SFT 记忆方面发挥关键作用。RL,特别是基于结果的奖励,对未见过的、基于规则的任务表现出很强的泛化能力,而监督微调 (SFT) 容易记忆训练数据,并且难以在训练分布之外进行泛化。另外如下图,高熵token的优势也只有在步数足够时才能显现出来,这可能高熵token 占比较小,由其对结果的正向影响也是吉光片羽,需要大量的训练才能激发。

3.2.5 塑形优势值

该方法的典型案例见 [2506.14758] Reasoning with Exploration: An Entropy Perspective。其核心点在于构造一个基于熵的优势项   ,并用其来修正优势值,即

其中 a 是缩放系数, k 控制裁剪阈值。关键在于,基于熵的项  在反向传播过程中与计算图分离,作为原始优势的一个固定偏移量。这调整了更新的大小,而不会改变梯度流。这种方法方法仅使用一行代码即可无缝集成到现有的 RL 训练流程中,如下:

这种方法与熵正则化看起来比较接近,但也有所不同,具体如下:

总结一下,本文从 RLVR 训练过程中的熵缩现象出发,深入讨论了其发生原因及干预手段,从此也可以看出 RLVR 当前已进入深水区,需要非常细节的研究和实践才能有所提升。这个过程,既是理解 RL 和 LLM 的过程,也是拓展其能力边界的过程。

参考资料

[1] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

[2] Rethinking Reflection in Pre-Training

[3] Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining

[4] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

[5] https://arxiv.org/abs/2503.01307

[6] Rethinking Reflection in Pre-Training

[7] Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

[8] The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning

[9] The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

[10] Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning

[11] On-Policy RL with Optimal Reward BaselineOn-Policy RL with Optimal Reward Baseline

[12] SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization

[13] Entropy在RL中扮演的角色 - 知乎

[14] [2506.14758] Reasoning with Exploration: An Entropy Perspective

绿树阴浓夏日长,楼台倒影入池塘。水精帘动微风起,满架蔷薇一院香。 —— 高骈《山亭夏日》


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k