大数跨境
0
0

无需标注!大语言模型的“内生奖励”机制:强化学习的新突破

无需标注!大语言模型的“内生奖励”机制:强化学习的新突破 极市平台
2025-09-17
1
↑ 点击蓝字 关注极市平台
作者丨紫气东来@知乎
来源丨https://zhuanlan.zhihu.com/p/1924064976684966893
编辑丨极市平台

极市导读

 

本文用“逆强化学习”视角拆解大模型奖励:把 logits 直接变成 Q 函数,让模型能够自我评估并给予奖励,无需依赖人类标注,这种方法不仅在数学推理等任务上取得了与传统强化学习人类反馈(RLHF)相当甚至更好的效果,显著降低了奖励模型(RM)标注的成本,使强化学习能够更广泛地应用于开放任务。>>加入极市CV技术交流群,走在计算机视觉的最前沿

众所周知,在强化学习训练中的关键环节就是奖励信号的获取,准确的奖励信号对于训练的效果至关重要。在经典RL 中,奖励信号可以看作环境的一部分 —— 即行动后环境的真实反馈,而在 RL 训练 LLM 中,奖励值的来源主要有两种方式:

  • 批判式:即 RLHF 中的 RM,该方式给出的是一个连续的标量值,但是由于 OOD 的问题,在一些样本上可能结果并不准确;
  • 验证式:即 RLVR 中的 Verifier, 通过与预设的答案或规则相比较,给出一个二元值,这种方式仅适用于有标准答案的场景,而在开放问题中则不太适用

而无论是以上的哪种情况,其奖励值都是旁证式的、外在的,那么在 LLM 与上下文构成的环境中,是否存在内在的奖励呢?即谜底是否存在在谜面上呢?本文将围绕该问题展开讨论,具体问题包括:

  • 为什么会有内在奖励,其底层逻辑和原理是什么?
  • 内在奖励的形式有哪些,受哪些因素影响?
  • 内在奖励的准确度如何,与外在奖励相比怎样?

01 隐式奖励角度

在 LLM 后训练领域主要存在两种方法论途径:

  • 第一种途径是SFT,通过专家演示学习,或模仿学习, 使用正样本来训练模型。
  • 第二种途径侧重于从环境信号中学习,主要通过强化学习方法 (PPO, GRPO 等)

在两种路径之间,还有一种特殊的方法 DPO,一方面相较于 SFT,DPO 增加了负样本和隐式奖励学习;另一方面相较于 RL,DPO 的训练数据又是完全 off-policy 的, 且省略了显式的奖励信号的训练过程, 下面我们尝试一探究竟。

1.1 DPO 及其隐式奖励

事实上,最早提出隐式奖励的工作就是 DPO 了,接下来我们还是不厌其烦地梳理一下其中的核心过程及要点。

RLHF 的损失可表示为:

提取常数   并应用恒等变换,有:

这样的话实际上构造出来了一个新的分布,即:

其中   是一个归一化常数,确保   是一个合适的概率分布(即概率之和为 1 ):

虽然这个针对   的解决方案本身是不可解的,但它可以用来将奖励表示为最优策略的函数,即得到最优策略后就可以反解出奖励模型,该解只需要对上述公式稍加变换即可:

这样,从定义整体对齐目标,到推导最优策略,最终将奖励模型与对齐模型连接起来,而不需要直接训练奖励模型。

1.2 理解隐式奖励

上文中,我们得到了奖励与最优模型的基本关系,在此基础上有很多工作进行了更多细化,在此不加证明地介绍引文[8]中的结论,即

其中   代表 LLM 的输入输出对   的奖励,  是最优策略,  是最优策略的价值函数。

初始奖励   可以被视为   ,对所有   适用,在此假设下,初始策略   是相对于初始奖励的最优策略。稍微对上式进行变化可得到 SFT 形式的目标,即:

由此可知,SFT 过程沿着最优策略-奖励子空间进行搜索,试图对专家演示中隐含的奖励进行建模。在优化过程中,模型迭代的过程,也即策略-奖励的最优子空间的搜索过程。

采用该方案进行 RL 训练的典型案例即 PRIME,即通过以下方式获得过程奖励:

这样的好处是显而易见的,即可以通过收集 response-level 数据并训练一个 ORM 来简单地获得 PRMs,而无需高成本的数据标注。

值得一提的是 ORM 的损失函数,与正常的 ORM 训练一样,唯一的不同是将   替换为   ,即

在训练过程中,策略模型和 PRM 都使用 SFT 模型进行初始化。在每个 RL 迭代中,策略模型首先生成 rollouts。然后,隐式 PRM 和结果验证器对 rollouts 进行评分,隐式 PRM 在 rollouts 上使用结果奖励进行更新。最后,结果奖励   和过程奖励   被结合并用于更新策略模型。

总结一下,此类隐式奖励是通过 策略模型或者 impolicity PRM 与 SFT 相比较产生的,其奖励的是相比 SFT 获得更高分数的 token,换句话说,该方式会加强 SFT 中的行为,使得在最终模型中的概率分布更加集中

02 逆强化学习角度

在经典的使用 RL 训练 LLM 的流程中,其过程是:SFT -> RM (verifier) -> PPO (GRPO) , 当缺少 rule-based verifier 时,该流程关键依赖于在人类偏好上训练的奖励模型(RM)来评分模型输出,最终对齐的 LLM 的质量基本上由该 RM 的质量决定。而训练 RM 需要构建大规模、高质量的人类偏好数据集,这是缓慢、昂贵且难以扩展的。

那么如果不去构造偏好数据集是否还可以得到准确的奖励信号呢?在上节中,我们提供了一种基于DPO 方式的隐式奖励,本节中我们将尝试通过另一个角度,即逆强化学习的方式来审视这一过程。

2.1 逆强化学习原理与 LLM 奖励信号建模

RL 是给定交互环境与奖励函数   后求解一个最优策略   使得期望累积奖励最大化。而逆强化学习(Inverse Reinforcement Learning,IRL)则相反:假设我们有一批采集于专家策略  (可看作最佳策略)的离线轨迹数据   ,希望找到一个奖励函数   来解释数据中的行为,即认为专家策略   的生成是通过一个内在奖励函数   得到的。

求解IRL的核心在于建立从奖励函数   到专家策略   的映射,从而通过专家数据求解反问题来恢复   。典型的求解方法有两种:

  • 一种是直接概率建模,即通过线性规划来直接建模\pi_E在r_E下的MDP的在最优性, 典型方法即最大熵逆强化学习;
  • 一种则是最大边际算法, 即最大化\pi_E的值函数与其他策略的值函数的差距来建立最优性, 典型方法即最大边际逆强化学习。

2.1.1 最大熵逆强化学习

通过寻求一个既能够合理解释专家演示结果,同时对数据中未明确体现的行为保持最大程度中立态度的奖励函数,从而解决了多种奖励函数均可解释同一行为所导致的模糊性问题。这导致了一个极小极大优化问题:

其中,期望   是基于专家策略  (由数据集   近似)的轨迹分布计算的,而期望   是基于学习到的策略   生成的轨迹分布计算的。此外  表示   的熵,  是正则化系数。目标是在相同的奖励   下,寻找一个奖励函数   ,使得专家的预期回报与最优策略   的熵正则化回报之间的差距最大化。

接下来尝试求解以上问题。一种方法是inverse soft Q-learning,即寻找一个能够最好地解释静态数据集   中专家数据的 Q 函数。目标是解决以下优化问题:

一旦我们找到最大化该目标的最佳   函数   ,则可以通过逆软贝尔曼算子恢复相应的理想奖励函数   :

那么   该如何求解呢?事实上,它已经体现在任何使用标准下一个词预测目标训练的语言模型的 logits 中。

公式(2)中的目标函数可以通过变换,表示为一个最大似然问题:

其中策略 

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k