

RL推理的尽头，是熵坍缩？统一SFT与强化学习的新视角

极市平台

2025-08-08

↑ 点击蓝字关注极市平台

作者丨紫气东来@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/1917257135730964355

编辑丨极市平台

极市导读

本文以“熵缩”视角拆解推理 LLM 的能力天花板：论证 RL 只是放大预训练分布而非创造新推理，提出熵坍缩-探索困境的量化分析与 token 级干预方法，为突破当前 RLVR 极限指明方向。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

在 LLM 的预训练及微调阶段，scaling law 告诉了我们所能达到效果范围，其中蕴含了深刻的信息论原理，感兴趣的可以回看笔者之前的文章

https://zhuanlan.zhihu.com/p/687278237

在此原理的支配下，开发者则可以将精力主要关注于三个方面：清洗数据、增大模型、提高效率。那么对于主要基于 RL 的推理模型而言，是否也存在这样一个指导原则呢？本篇将以推理模型的能力边界为主题，主要围绕以下问题展开：

基于 RL 的推理模型的表现与基座模型的关系
RL 中的“熵坍缩”问题：原因、实质及解决方法
推理模型是否存在“能力边界”，以及如何拓展“能力边界”

一、RL 效果与基座模型的关系

随着 RL 热度的提高，近期众多工作研究了基座模型与 RL 训练效果的关系，相当多的工作提出共同的观点：模型的能力由预训练决定，RL 仅仅只是其中某些行为的“放大器”。那么，如果去认识和理解这一现象呢？如果该观点成立，其更深层次的原理是什么呢？

2.1 观察：基座模型决定论

关于基座模型与 RL 的关系首先来自基于实验的观察，为了理解这一过程，我们不妨在此列举部分工作的实验结果及其核心观点。

DeepSeek R1

DeepSeek R1 是比较早讨论到基座模型与 RL 的关系的文章，其中认为基座模型与 RL 对模型的边界能力同等重要，即“要超越智能的边界，可能仍需要更强大的基础模型和更大规模的强化学习”。

当然以上观点还是基于少量实验数据提出的，但仍然可看作类似观点之滥觞。

Echo Chamber

该研究者从头开始训练不同规模（150M和1B参数）的解码器语言模型，并使用完全开放的数据集混合进行预训练。使用PPO（Proximal Policy Optimization）、GRPO（Group Relative Policy Optimization）和Expert Iteration等RL算法对预训练模型进行微调。

通过大量实验，观察到如下表现：

RL微调的收敛性：RL微调使模型输出迅速收敛到预训练数据中的一种特定分布格式，抑制其他分布。例如，模型可能迅速偏好TinyGSM风格的输出，即使这种格式在初始化时并非最常见。
性能提升：RL微调显著提高了模型在GSM8K测试集上的pass@1准确率，但降低了pass@64准确率，表明生成多样性减少。
规模依赖性：不同规模的模型在相同数据混合上训练后，会收敛到不同的输出分布。较小的模型倾向于输出更简单、类似代码的格式，而较大的模型倾向于自然语言输出。
正向迁移：在GSM8K上进行RL微调后，模型在未见过的评估数据集（如MATH-500和AIME）上也表现出性能提升，表明某些推理能力可以在任务间泛化。

由此可以得到以下RL 与基座模型关系的结论：

RL微调的放大效应：RL微调不仅放大了预训练数据中的特定模式，还可能抑制其他模式，这取决于预训练数据的组成、RL算法的选择、超参数设置和模型规模。
模型规模的影响：模型规模对RL微调的效果有显著影响。较大模型在自然语言输出上表现更好，而较小模型可能更依赖代码风格的输出。
正向迁移的证据：RL微调不仅改善了模型在特定任务上的表现，还提升了模型在更广泛数学任务上的推理能力。

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

为了评估模型的推理能力边界，作者提出了pass@k指标。该指标通过多次采样（k次）模型的输出，判断问题是否被解决（即至少有一个输出是正确的）。这种方法可以更准确地评估模型在大量尝试下的推理能力。在多个数学、编程和视觉推理基准测试上进行了广泛的实验，涵盖了多种LLM家族、模型大小和RL算法。实验使用了Qwen-2.5、LLaMA-3.1等模型，并采用了GRPO、PPO等多种RL算法。

实验发现，在数学、代码、视觉问题上，RLVR训练的模型在小k值（如k=1）时表现优于基础模型，但在大k值时，基础模型的pass@k分数与RL模型相当甚至更高。这表明基础模型在大量采样下能够解决RL模型解决的问题，且RL训练并未引入新的推理模式。

由此得到结论：RLVR在当前形式下不足以激励LLMs超越基础模型的推理能力。尽管RLVR可以提高模型在小k值时的性能，但它限制了模型的探索能力，导致在大k值时的覆盖范围缩小。即 RLVR 可能不足以推动LLMs的推理能力边界。未来可能需要新的训练范式来实现这一目标。

此外，该文章中还有更多信息值得关注，包括：

推理路径分析：观察困惑度（perplexity）可以发现与 RL 相关的 PPL 显著更低，即RLVR训练的模型生成的推理路径已经包含在基础模型的输出分布中。这表明RLVR训练并没有引入新的推理能力，而是通过偏向高奖励的路径来提高采样效率。
不同RL算法的效果：尽管不同的RL算法在性能上存在微小差异，但它们在提高采样效率方面并无本质区别。作者提出了采样效率差距（）来量化RL算法的效率，发现现有方法与最优效率之间仍有较大差距。

当然，还有很多论文也讨论了该问题，笔者在此不再一一介绍，仅列举出来供读者参考：

Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs(https://arxiv.org/abs/2503.01307)
Rethinking Reflection in Pre-Training(https://arxiv.org/abs/2504.04022)
Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs(https://arxiv.org/abs/2506.14245)

2.2 实质：“熵坍缩”与模型专业化

“熵坍缩”：即在 RL 训练中策略熵在早期训练阶段急剧下降，导致策略模型过于自信，进而导致探索能力的减弱与策略性能的饱和。实际上，上一小节的 PPL 已经提现了这一点（PPL 与熵的计算仅仅差一个 exp），其表现如下图左所示，模型在特定领域的表现提升与其熵缩是同时发生的，甚至二者之间都可以通过公式近似拟合出来。

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

如果对 Token 熵进行模式分析，可以发现，在 CoT 推理中，大多数 token 的熵很低，而少数 token 的熵很高。这些高熵的 token 通常作为推理路径中的“分叉点”（forks），引导模型走向不同的推理路径。例如，高熵 token 常见于逻辑连接词（如“Thus”、“perhaps”等），而低熵 token 则多为单词后缀或数学表达式的组成部分。

在 CoT 推理中，高熵的少数 token 起到了关键作用，它们作为“分叉点”引导模型走向不同的推理路径。RLVR 训练主要保留了基础模型的熵模式，并且主要调整了高熵 token 的熵。通过仅对高熵 token 进行策略梯度更新，可以显著提高模型的推理性能，且这种方法在更大模型上效果更明显。

Beyond the 80/20 Rule: High-Entropy Minority TokensDrive Effective Reinforcement Learning for LLM Reasoning

另外也有工作研究了正负样本对 RL 的训练结果的影响，实验发现，仅使用负样本进行训练（NSR）在Pass@k的整个范围内都能显著提升模型性能，甚至在某些情况下超过了PPO和GRPO等常用强化学习算法。与NSR相反，仅使用正样本进行训练（PSR）虽然能提高Pass@1，但在较大的k值下性能下降，导致输出多样性降低。通过跟踪模型的熵，发现NSR在整个训练过程中保持了较高的熵，而PSR则迅速降低了熵。这表明NSR在训练过程中保持了模型的输出多样性。

通过分析可知，PSR通过增加正确响应的logit值，同时降低其他所有token的logit值，导致输出分布变得过于集中，减少了多样性。NSR通过降低错误响应的logit值，并将概率质量重新分配给其他候选token，这种重新分配是基于模型先验的，有助于保持多样性。NSR通过抑制错误响应和根据模型先验重新分配概率质量，有效地细化了模型的现有知识，而不是引入全新的行为。

The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning

通过以上一系列实验，至少可以发现以下共同的现象：

随着训练的进行，“熵坍缩”现象是普遍存在的，无法避免的；
不同 token 的熵表现不同，对结果的影响也不同；
通过对不同 token 的熵的干预，可以一定程度影响结果

以上过程是如何发生的？其底层的原理是什么？其与模型专业化训练过程的关系是什么？以下将试图进行更加深入的探讨。

二、熵缩：从 SFT 到 RL

上文讨论的“熵坍缩”现象都是发生在 RL 训练过程中的，目前尚未看到 SFT 中有类似提法，那么本节就由表及里，从 SFT 到 RL，探究“熵坍缩”的发生过程。

2.1 信息熵、策略熵与交叉熵损失

首先在笔者之前的文章中已经讨论过，对于一个确定的语言或者数据集，其信息熵是确定的，即在自然语言领域，令，熵可以表示为：

其中

当序列长度无限大的情况下，香农将其定义为该语言的熵，即：

根据这个定义，熵是使用无限数量的符号来计算的。在实践中，只能从有限的文本样本中近似经验熵来近似任何语言的熵。

在 LLM 中，我们可以根据定义来计算参数化模型输出的 token 熵，即索引处的熵

其中，表示由参数化的LLM，是输入查询，表示先前生成的token。是词表大小，表示在时间步的 pre－softmax logits，是词汇表上相应的概率分布，是解码温度。

在此基础上，我们可以进一步得到策略熵（即模型熵），策略模型在训练数据上的平均 token 熵，即

其中输入提示，策略熵量化了策略对当前提示的不确定性水平。

细心的读者看到以上公式也许会联想到 SFT 中的交叉熵损失，即：

其中的关键区别在于移除了期望，并替换为真实的样本序列。这体现了监督学习的本质：使用真实标签计算损失。

通过以上分析我们可知，SFT 中也存在“熵坍缩”现象，而且其“熵坍缩”现象的本质就是模型训练的过程（loss 下降），这也是模型在特定数据集上的专业化过程。

而与 SFT 不同的是，RL 存在探索的过程，其中会产生多个正负样本，因此其策略熵即是在多条样本期望上，其“熵坍缩”的过程也即逐步收敛到正样本上的过程。下面我们将尝试进一步论证以上推断。

2.2 RL 的熵缩机制

在论文The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models中比较严谨地证明了 RL “熵坍缩”的发生过程，在此仅展示其中核心观点。

Softmax 策略的熵差。假设策略是一个表格形式的 softmax 策略，其中每个状态－动作对都与一个独立的 logit 参数相关联，在一级近似下，两个连续步骤中给定状态的策略熵之差满足

这个引理表明，策略熵的变化约等于动作的对数概率与 logits 变化之间的负协方差。也就是说，当一个动作在更新前从策略中获得了高概率，并且其对应的 logits 在更新后也在增加，那么它将降低策略熵。

策略梯度中策略 logits 的差异。上式中是步骤 k 和步骤之间输出 logits 的变化，可以证明，通过梯度回溯以学习率进行更新，则连续两步之间的差异满足

结合以上公式，直观上可以看到，一个动作同时获得高/低概率和高/低优势会降低熵，反之亦然。在早期阶段，策略在训练数据上表现出高协方差，暗示策略的置信度得到了良好校准，因此可以安全地利用高置信度的轨迹，增强信念并最小化熵，此阶段可理解为 SFT 的增强阶段，也即熵缩的主要过程。

2.3 RL 与 SFT 的联结

在传统认知中，RL 与 SFT 的区别主要体现在两个方面：

负样本的利用
样本的多样性

那么如果在 SFT 中增加负样本，同时可以无限增加样本的情况下，是否 SFT 就可以等价于 RL 呢？答案是肯定的。接下来我们看一下 Bridging Supervised Learning and Reinforcement Learning in Math Reasoning中的论证过程。

利用负样本。首先定义负策略

而最终的策略可以看作正负策略的叠加，即

其中表示 LLM 在问题上的正确率。

根据以上关系，可以构建一个隐式负策略

考虑用于训练隐式负策略的最大似然目标：

假设数据无限且模型容量无限，上式的最优解是

为了进一步利用正样本，可以对上式进行进一步修正，即

接下来论证 GRPO 和 NFT 在 on－policy 训练中是等价的。假设对于一个给定的问题，有个正面答案和个反面答案，仅考虑二元奖励，则 GRPO 的梯度

其中分别是答案的归一化优势。

同样可以得到 NFT 的梯度，即

则可以推知GRPO 和 NFT 损失梯度在策略梯度训练中是等价的，即

总结一下以上讨论，RL 与 SFT 没有本质上的区别，其熵缩的过程即是模型训练的优化过程，也是模型专业化的过程，改过程是必须的、不可避免的，对于熵的过分放开可能反而会使模型训练的崩溃。

三、“熵坍缩”的处理方法及其本质

3.1 探索-利用困境

事实上，关于熵的讨论即是在讨论 RL 的核心问题 —— 探索-利用困境（exploitation-exploration dilemma）：

如果任由熵缩而不加干预，则模型会快速收敛到某种模式，即利用过多，会导致模型能力比较局限；
如果对熵干预过多，即使熵保持在一个高水平，即探索过多，可能会导致无法收敛，甚至训练崩溃

下面通过几个案例来说明以上情况：

控制策略熵的常用方法之一是应用熵损失，下图展示了添加熵损失的结果，熵损失对系数非常敏感，小系数对熵的影响较小（0.0001,0.001），而大系数会导致熵爆炸（0.01）。尽管将系数设置为0.005成功地稳定了策略熵，但它并不优于其他方法。

也可以通过调整策略模型和参考模型之间的 KL 惩罚来控制熵。尽管 KL 实现了稳定的熵值，但它未能改进策略，反而导致性能下降，因此当前很多工作就不再使用 KL 约束。

3.2 干预方法讨论

在前文中，我们讨论了“熵坍缩”的发生过程及其影响，那么在具体训练过程中，熵与哪些因素相关呢？该如何干预和影响熵呢？熵的改变对下游任务有多大影响呢？本节将以一些典型工作为例，讨论以上相关的内容。

3.2.1 Clip-Higher

DAPO 是较早讨论“熵坍缩”现象并进行干预的工作，其干预的方法也非常简单，即 Clip-Higher。Clip-Higher 通过解耦clip的上下限范围，增大clip上限，以允许更自由地增加低概率 token 的概率，从而鼓励探索。.此外，上限阈值仅影响具有正优势的 token。

3.2.2 Clip-Cov 与 KL-Cov

论文 The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models 中根据其提出的协方差理论，相应提出了基于此的 clip 方案。

策略熵动态与动作概率和优势之间的协方差密切相关。而在大部分模型中，一小部分 token 表现出极高的协方差，远超平均值(如下表)。也就是说，这些异常 token 在触发熵崩溃中起主导作用。为了减轻它们的不利影响，需要对其对策略损失的贡献施加约束。

Group	Top 0.02%	Top 0.2%	Top 2%	Top 20%	Top 50%	All
Mean value	5.654	3.112	1.385	0.351	0.152	0.003

假设有一批 N 个response， \pi_\theta⁢(y_i) 表示策略模型在给定其对应 prompt 的情况下，对 token y_i 的输出概率。根据定理 2，我们首先定义 log 概率和优势之间的 token 级别中心交叉乘积为协方差，即

在 Clip-Cov 策略中，从策略梯度更新中剪切一小部分高协方差 token，具体根据协方差值随机选择r⋅N个高协方差 token，即

其中是索引的简称，表示裁剪比例。是协方差的两个预定义边界，分别。它们都设置得远高于平均协方差（>500×）。最后，具有选定索引的 token 将被从策略梯度中分离，策略梯度为

其中是一个 response 中的第个 token，每个唯一对应 N 中的索引。

KL-Cov 策略更简单，区别在协方差的 top-k比例内进行排序和选择 token，即

这里的表示将受到 KL 惩罚的 token 的比例并且。最后对选定的 token 施加 KL 惩罚（当前策略与 rollout 策略之间的 KL 散度），策略损失计算如下：

实验显示，这两种方法能够在整个训练过程中保持相当高的熵水平。同时，策略模型的响应长度稳步增加，其在测试集上的表现始终优于基线。即模型在训练过程中能够更“自由”地探索，通过强化学习学习更好的策略。同时也比 clip-higher 方法更加稳定。

3.2.3 On-policy training

关于 On-policy training 的典型工作是 On-Policy RL with Optimal Reward Baseline，其放弃了 rollout 带来的样本效率，而采用完全的 on-policy 方式，同时其采用了优化的baseline，我们不妨来看一下其过程

在基于策略梯度的方法中，baseline 常被用以降低梯度估计的方差，即

其方差可以表示为

由于第二项（预期梯度的平方）与b无关，最小化Var⁢[g]等同于最小化第一项。通过对b求导并设其为零，我们可以推导出最优基线：

求解可得

由于该式计算复杂，故假设：不同 token 的梯度近似正交，并且每个 token 的梯度范数遵循相同的分布。在此条件下，轨迹策略梯度的平方幅度与其长度成正比，即，则有

核心代码实现如下：

        score_tensor = torch.tensor(id2score[idx])
        len_tensor = torch.tensor(id2len[idx])
        id2bsl[idx] = (len_tensor * score_tensor).sum() / len_tensor.sum()
    for i in range(bsz):
        scores[i] = scores[i] - id2bsl[index[i]]

比较 on-policy 与 off-policy 的结果可以看到，虽然off-policy 策略训练在早期阶段实现了与精确on-policy策略训练相似甚至略高的训练奖励，但在数学推理任务上表现较差。这表明off-policy 学习可能存在潜在的过拟合问题。此外，on-policy 策略训练在整个训练过程中表现出显著更低的 KL 散度和高得多的熵，即使没有任何显式的 KL 或熵正则化，而 off-policy 策略训练包括一个额外的熵奖励。更低的 KL 散度意味着更低的对齐成本，更高的熵则表明更强的探索能力。

3.2.4 Token intervention

事实上 Clip-Cov 与 KL-Cov 就已经是 token-level 的干预了，只是由于其底层原理比较独立，因此单独讨论。本小节以 https://arxiv.org/pdf/2506.01939为例进行分析。

其同样发现，通过检查思维链 (CoT) 推理中的 token 熵模式，观察到只有一小部分 token 表现出高熵，并且这些 token 充当关键的 forks，引导模型走向不同的推理路径。具有最高 entropy 的 token 通常用于桥接两个连续推理部分之间的逻辑连接，而具有最低 entropy 的 token 倾向于完成句子的当前部分或完成一个单词的构建。

RLVR 主要改变高熵 token 的熵，而低熵 token 的熵保持相对稳定，变化极小。即低熵tokens对推理性能的贡献极小，高熵tokens的有效性可能在于它们增强探索的能力。

高熵少数 tokens（即 forking tokens）可能在解释为什么 RL 泛化而 SFT 记忆方面发挥关键作用。RL，特别是基于结果的奖励，对未见过的、基于规则的任务表现出很强的泛化能力，而监督微调 (SFT) 容易记忆训练数据，并且难以在训练分布之外进行泛化。另外如下图，高熵token的优势也只有在步数足够时才能显现出来，这可能高熵token 占比较小，由其对结果的正向影响也是吉光片羽，需要大量的训练才能激发。

3.2.5 塑形优势值

该方法的典型案例见 [2506.14758] Reasoning with Exploration: An Entropy Perspective。其核心点在于构造一个基于熵的优势项，并用其来修正优势值，即

其中 a 是缩放系数， k 控制裁剪阈值。关键在于，基于熵的项在反向传播过程中与计算图分离，作为原始优势的一个固定偏移量。这调整了更新的大小，而不会改变梯度流。这种方法方法仅使用一行代码即可无缝集成到现有的 RL 训练流程中，如下：

这种方法与熵正则化看起来比较接近，但也有所不同，具体如下：

总结一下，本文从 RLVR 训练过程中的熵缩现象出发，深入讨论了其发生原因及干预手段，从此也可以看出 RLVR 当前已进入深水区，需要非常细节的研究和实践才能有所提升。这个过程，既是理解 RL 和 LLM 的过程，也是拓展其能力边界的过程。

参考资料

[1] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

[2] Rethinking Reflection in Pre-Training

[3] Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining

[4] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

[5] https://arxiv.org/abs/2503.01307

[6] Rethinking Reflection in Pre-Training

[7] Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

[8] The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning

[9] The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

[10] Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning

[11] On-Policy RL with Optimal Reward BaselineOn-Policy RL with Optimal Reward Baseline

[12] SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization

[13] Entropy在RL中扮演的角色 - 知乎

[14] [2506.14758] Reasoning with Exploration: An Entropy Perspective

绿树阴浓夏日长，楼台倒影入池塘。水精帘动微风起，满架蔷薇一院香。 —— 高骈《山亭夏日》

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

内容 8155

粉丝 0

极市平台为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

总阅读919

粉丝0

内容8.2k