极市导读
本文用“逆强化学习”视角拆解大模型奖励:把 logits 直接变成 Q 函数,让模型能够自我评估并给予奖励,无需依赖人类标注,这种方法不仅在数学推理等任务上取得了与传统强化学习人类反馈(RLHF)相当甚至更好的效果,显著降低了奖励模型(RM)标注的成本,使强化学习能够更广泛地应用于开放任务。>>加入极市CV技术交流群,走在计算机视觉的最前沿
众所周知,在强化学习训练中的关键环节就是奖励信号的获取,准确的奖励信号对于训练的效果至关重要。在经典RL 中,奖励信号可以看作环境的一部分 —— 即行动后环境的真实反馈,而在 RL 训练 LLM 中,奖励值的来源主要有两种方式:
-
批判式:即 RLHF 中的 RM,该方式给出的是一个连续的标量值,但是由于 OOD 的问题,在一些样本上可能结果并不准确; -
验证式:即 RLVR 中的 Verifier, 通过与预设的答案或规则相比较,给出一个二元值,这种方式仅适用于有标准答案的场景,而在开放问题中则不太适用
而无论是以上的哪种情况,其奖励值都是旁证式的、外在的,那么在 LLM 与上下文构成的环境中,是否存在内在的奖励呢?即谜底是否存在在谜面上呢?本文将围绕该问题展开讨论,具体问题包括:
-
为什么会有内在奖励,其底层逻辑和原理是什么? -
内在奖励的形式有哪些,受哪些因素影响? -
内在奖励的准确度如何,与外在奖励相比怎样?
01 隐式奖励角度
在 LLM 后训练领域主要存在两种方法论途径:
-
第一种途径是SFT,通过专家演示学习,或模仿学习, 使用正样本来训练模型。 -
第二种途径侧重于从环境信号中学习,主要通过强化学习方法 (PPO, GRPO 等)
在两种路径之间,还有一种特殊的方法 DPO,一方面相较于 SFT,DPO 增加了负样本和隐式奖励学习;另一方面相较于 RL,DPO 的训练数据又是完全 off-policy 的, 且省略了显式的奖励信号的训练过程, 下面我们尝试一探究竟。
1.1 DPO 及其隐式奖励
事实上,最早提出隐式奖励的工作就是 DPO 了,接下来我们还是不厌其烦地梳理一下其中的核心过程及要点。
RLHF 的损失可表示为:
提取常数 并应用恒等变换,有:
这样的话实际上构造出来了一个新的分布,即:
其中 是一个归一化常数,确保 是一个合适的概率分布(即概率之和为 1 ):
虽然这个针对 的解决方案本身是不可解的,但它可以用来将奖励表示为最优策略的函数,即得到最优策略后就可以反解出奖励模型,该解只需要对上述公式稍加变换即可:
这样,从定义整体对齐目标,到推导最优策略,最终将奖励模型与对齐模型连接起来,而不需要直接训练奖励模型。
1.2 理解隐式奖励
上文中,我们得到了奖励与最优模型的基本关系,在此基础上有很多工作进行了更多细化,在此不加证明地介绍引文[8]中的结论,即
其中 代表 LLM 的输入输出对 的奖励, 是最优策略, 是最优策略的价值函数。
初始奖励 可以被视为 ,对所有 适用,在此假设下,初始策略 是相对于初始奖励的最优策略。稍微对上式进行变化可得到 SFT 形式的目标,即:
由此可知,SFT 过程沿着最优策略-奖励子空间进行搜索,试图对专家演示中隐含的奖励进行建模。在优化过程中,模型迭代的过程,也即策略-奖励的最优子空间的搜索过程。
采用该方案进行 RL 训练的典型案例即 PRIME,即通过以下方式获得过程奖励:
这样的好处是显而易见的,即可以通过收集 response-level 数据并训练一个 ORM 来简单地获得 PRMs,而无需高成本的数据标注。
值得一提的是 ORM 的损失函数,与正常的 ORM 训练一样,唯一的不同是将
在训练过程中,策略模型和 PRM 都使用 SFT 模型进行初始化。在每个 RL 迭代中,策略模型首先生成 rollouts。然后,隐式 PRM 和结果验证器对 rollouts 进行评分,隐式 PRM 在 rollouts 上使用结果奖励进行更新。最后,结果奖励
总结一下,此类隐式奖励是通过 策略模型或者 impolicity PRM 与 SFT 相比较产生的,其奖励的是相比 SFT 获得更高分数的 token,换句话说,该方式会加强 SFT 中的行为,使得在最终模型中的概率分布更加集中。
02 逆强化学习角度
在经典的使用 RL 训练 LLM 的流程中,其过程是:SFT -> RM (verifier) -> PPO (GRPO) , 当缺少 rule-based verifier 时,该流程关键依赖于在人类偏好上训练的奖励模型(RM)来评分模型输出,最终对齐的 LLM 的质量基本上由该 RM 的质量决定。而训练 RM 需要构建大规模、高质量的人类偏好数据集,这是缓慢、昂贵且难以扩展的。
那么如果不去构造偏好数据集是否还可以得到准确的奖励信号呢?在上节中,我们提供了一种基于DPO 方式的隐式奖励,本节中我们将尝试通过另一个角度,即逆强化学习的方式来审视这一过程。
2.1 逆强化学习原理与 LLM 奖励信号建模
RL 是给定交互环境与奖励函数
求解IRL的核心在于建立从奖励函数
-
一种是直接概率建模,即通过线性规划来直接建模\pi_E在r_E下的MDP的在最优性, 典型方法即最大熵逆强化学习; -
一种则是最大边际算法, 即最大化\pi_E的值函数与其他策略的值函数的差距来建立最优性, 典型方法即最大边际逆强化学习。
2.1.1 最大熵逆强化学习
通过寻求一个既能够合理解释专家演示结果,同时对数据中未明确体现的行为保持最大程度中立态度的奖励函数,从而解决了多种奖励函数均可解释同一行为所导致的模糊性问题。这导致了一个极小极大优化问题:
其中,期望
接下来尝试求解以上问题。一种方法是inverse soft Q-learning,即寻找一个能够最好地解释静态数据集
一旦我们找到最大化该目标的最佳
那么
公式(2)中的目标函数可以通过变换,表示为一个最大似然问题:
其中策略

