

无需标注！大语言模型的“内生奖励”机制：强化学习的新突破

极市平台

2025-09-17

↑ 点击蓝字关注极市平台

作者丨紫气东来@知乎

来源丨https://zhuanlan.zhihu.com/p/1924064976684966893

编辑丨极市平台

极市导读

本文用“逆强化学习”视角拆解大模型奖励：把 logits 直接变成 Q 函数，让模型能够自我评估并给予奖励，无需依赖人类标注，这种方法不仅在数学推理等任务上取得了与传统强化学习人类反馈（RLHF）相当甚至更好的效果，显著降低了奖励模型（RM）标注的成本，使强化学习能够更广泛地应用于开放任务。>>加入极市CV技术交流群，走在计算机视觉的最前沿

众所周知，在强化学习训练中的关键环节就是奖励信号的获取，准确的奖励信号对于训练的效果至关重要。在经典RL 中，奖励信号可以看作环境的一部分 —— 即行动后环境的真实反馈，而在 RL 训练 LLM 中，奖励值的来源主要有两种方式：

批判式：即 RLHF 中的 RM，该方式给出的是一个连续的标量值，但是由于 OOD 的问题，在一些样本上可能结果并不准确；
验证式：即 RLVR 中的 Verifier, 通过与预设的答案或规则相比较，给出一个二元值，这种方式仅适用于有标准答案的场景，而在开放问题中则不太适用

而无论是以上的哪种情况，其奖励值都是旁证式的、外在的，那么在 LLM 与上下文构成的环境中，是否存在内在的奖励呢？即谜底是否存在在谜面上呢？本文将围绕该问题展开讨论，具体问题包括：

为什么会有内在奖励，其底层逻辑和原理是什么？
内在奖励的形式有哪些，受哪些因素影响？
内在奖励的准确度如何，与外在奖励相比怎样？

01 隐式奖励角度

在 LLM 后训练领域主要存在两种方法论途径：

第一种途径是SFT，通过专家演示学习，或模仿学习，使用正样本来训练模型。
第二种途径侧重于从环境信号中学习，主要通过强化学习方法 (PPO, GRPO 等)

在两种路径之间，还有一种特殊的方法 DPO，一方面相较于 SFT，DPO 增加了负样本和隐式奖励学习；另一方面相较于 RL，DPO 的训练数据又是完全 off-policy 的，且省略了显式的奖励信号的训练过程, 下面我们尝试一探究竟。

1.1 DPO 及其隐式奖励

事实上，最早提出隐式奖励的工作就是 DPO 了，接下来我们还是不厌其烦地梳理一下其中的核心过程及要点。

RLHF 的损失可表示为：

提取常数并应用恒等变换，有：

这样的话实际上构造出来了一个新的分布，即：

其中是一个归一化常数，确保是一个合适的概率分布（即概率之和为 1 ）：

虽然这个针对的解决方案本身是不可解的，但它可以用来将奖励表示为最优策略的函数，即得到最优策略后就可以反解出奖励模型，该解只需要对上述公式稍加变换即可：

这样，从定义整体对齐目标，到推导最优策略，最终将奖励模型与对齐模型连接起来，而不需要直接训练奖励模型。

1.2 理解隐式奖励

上文中，我们得到了奖励与最优模型的基本关系，在此基础上有很多工作进行了更多细化，在此不加证明地介绍引文［8］中的结论，即

其中代表 LLM 的输入输出对的奖励，是最优策略，是最优策略的价值函数。

初始奖励可以被视为，对所有适用，在此假设下，初始策略是相对于初始奖励的最优策略。稍微对上式进行变化可得到 SFT 形式的目标，即：

由此可知，SFT 过程沿着最优策略－奖励子空间进行搜索，试图对专家演示中隐含的奖励进行建模。在优化过程中，模型迭代的过程，也即策略－奖励的最优子空间的搜索过程。

采用该方案进行 RL 训练的典型案例即 PRIME，即通过以下方式获得过程奖励：

这样的好处是显而易见的，即可以通过收集 response－level 数据并训练一个 ORM 来简单地获得 PRMs，而无需高成本的数据标注。

值得一提的是 ORM 的损失函数，与正常的 ORM 训练一样，唯一的不同是将替换为，即

在训练过程中，策略模型和 PRM 都使用 SFT 模型进行初始化。在每个 RL 迭代中，策略模型首先生成 rollouts。然后，隐式 PRM 和结果验证器对 rollouts 进行评分，隐式 PRM 在 rollouts 上使用结果奖励进行更新。最后，结果奖励和过程奖励被结合并用于更新策略模型。

总结一下，此类隐式奖励是通过策略模型或者 impolicity PRM 与 SFT 相比较产生的，其奖励的是相比 SFT 获得更高分数的 token，换句话说，该方式会加强 SFT 中的行为，使得在最终模型中的概率分布更加集中。

02 逆强化学习角度

在经典的使用 RL 训练 LLM 的流程中，其过程是：SFT -> RM (verifier) -> PPO (GRPO) , 当缺少 rule-based verifier 时，该流程关键依赖于在人类偏好上训练的奖励模型（RM）来评分模型输出，最终对齐的 LLM 的质量基本上由该 RM 的质量决定。而训练 RM 需要构建大规模、高质量的人类偏好数据集，这是缓慢、昂贵且难以扩展的。

那么如果不去构造偏好数据集是否还可以得到准确的奖励信号呢？在上节中，我们提供了一种基于DPO 方式的隐式奖励，本节中我们将尝试通过另一个角度，即逆强化学习的方式来审视这一过程。

2.1 逆强化学习原理与 LLM 奖励信号建模

RL 是给定交互环境与奖励函数后求解一个最优策略使得期望累积奖励最大化。而逆强化学习（Inverse Reinforcement Learning，IRL）则相反：假设我们有一批采集于专家策略（可看作最佳策略）的离线轨迹数据，希望找到一个奖励函数来解释数据中的行为，即认为专家策略的生成是通过一个内在奖励函数得到的。