大数跨境
0
0

让大模型不再过度思考!上海AI Lab后训练新范式重塑CoT,推理又快又好

让大模型不再过度思考!上海AI Lab后训练新范式重塑CoT,推理又快又好 量子位
2025-12-21
1
导读:长思考中反复横跳?简明扼要的推理才是好推理
RePro团队 投稿 量子位 | 公众号 QbitAI

近年来,随着o1、DeepSeek-R1等模型的发展,长思维链(Long Chain-of-Thought, Long CoT)已成为提升大语言模型复杂推理能力的关键手段。然而,“长思考”常伴随“过度思考”问题:模型可能生成大量冗余Token,在错误路径上反复横跳(Backtracking),导致算力浪费与推理延迟。

如何在保障深度推理的同时提升思维效率?上海人工智能实验室研究团队提出一种全新的后训练范式——RePro(Rectifying Process-level Reward),从优化视角重构大模型的推理过程。

核心观察:推理即优化

RePro将模型的推理轨迹视为在损失曲面上寻找最优解的过程:

  • 每个推理步骤相当于一次梯度更新
  • 目标是最大化生成正确答案的概率。

在此框架下:

  • 有效推理:每步显著提升对正确答案的信心(Loss持续下降);
  • 稳定收敛:推理方向明确,无震荡或反复。

反之,“过度思考”表现为:

  • 陷入鞍点:生成大量Token但对答案概率贡献极小;
  • 梯度震荡:信心波动剧烈,逻辑混乱。

RePro的三大“矫正”机制

1. 代理目标函数J

RePro设计了一个可计算的代理目标函数,用于量化模型当前对正确答案的置信度:

定义为模型在当前推理上下文中,生成正确答案各token的平均对数概率

直觉解释

  1. 初始阶段,模型直接猜测成功率低,J̃较小;
  2. 随着推理推进,排除错误选项,J̃应稳步上升;
  3. 得出结论时,J̃达到峰值。

实验表明:正确推理路径上的J̃平稳上升,而无效路径则呈现震荡或停滞。

2. 双重评分机制:优化强度+稳定性

基于J̃的变化趋势,RePro将其分解为两个维度进行评估,构建过程奖励信号。

Magnitude Score(强度评分):衡量推理带来的置信度提升幅度

通过比较当前J̃与基线值J̅(未推理时的置信度)计算增益Δ,并使用tanh归一化至(0,1]区间,防止异常梯度影响训练稳定性。

Stability Score(稳定性评分):衡量推理路径是否平滑

采用Kendall’s Tau相关系数,评估J̃序列与时间步之间的秩相关性:

  • 高稳定性(接近1):每步J̃递增,推理连贯;
  • 低稳定性(≤0):波动大,存在逻辑倒退。

最终过程评分S由强度与稳定性加权构成,作为强化学习中的过程奖励依据。

3. 流程级奖励整合进RL训练

为降低计算开销,RePro采用熵值筛选策略,仅对关键段落施加干预:

  • 分段:按逻辑断点(如\n\n)切分推理链;
  • 熵计算:计算每段首Token的熵ℋ(ci,(0));
  • Top-k筛选:选择熵最高的k个段落进行奖励计算。

该策略聚焦模型最不确定的环节,避免在高自信区域过度干预,实现高效精准引导。

通过计算过程评分增量ΔS,作为“过程级奖励”,结合最终结果反馈,输入RL优势函数。

实验:不只更准,而且更“省”

RePro在数学、科学、编程等多个任务上验证效果,涵盖:

  • AIME24 / AIME25 / MATH500(数学推理)
  • GPQA-Diamond(科学问答)
  • MBPP / LiveCodeBench(代码生成)

测试模型包括:
DeepSeek-R1-Distill-Qwen-1.5B、Qwen3-1.7B/8B、Hunyuan-Instruct等。

在多种RL算法(PPO、GRPO等)下,RePro均带来稳定性能提升:

模型架构

RL算法

AIME24(Pass@1)

AIME25(Pass@1)

MATH500(Pass@1)

DeepSeek-R1-Distill-1.5B

Original

30.6%

24.8%

84.4%

PPO

34.8%

24.4%

86.9%

PPO+REPRO

36.3%(+1.5)

27.7%(+3.3)

87.7%(+0.8)

GRPO

32.9%

25.3%

86.0%

GRPO+REPRO

36.0%(+3.1)

26.5%(+1.2)

87.1%(+1.1)

Qwen3-1.7B

Original

46.8%

36.1%

93.0%

GRPO

47.3%

34.8%

93.4%

GRPO+REPRO

49.8%(+2.5)

37.9%(+3.1)

94.1%(+0.7)

在其他领域同样表现优异,体现良好泛化能力:

领域

基准测试

基线(GRPO)

GRPO+REPRO

绝对提升

科学推理

GPQA-Diamond

34.5%

37.0%

+2.5%

代码推理

MBPP

62.5%

65.4%

+2.9%

代码推理

LiveCodeBench

15.2%

18.4%

+3.2%

推理token数量显著减少

训练过程中,RePro模型生成的平均token数稳步下降,说明其学会用更简洁路径得出准确答案。

回溯行为(Backtracking)减少

模型“反复检查”或“思路绕圈”的现象明显减少,推理更加连贯高效。

简明扼要的推理才是好推理

RePro证明:更优的推理不等于更长的思维链,而是更高效的优化路径。通过引入“优化视角”到后训练阶段,RePro为解决Long CoT效率瓶颈提供了通用且优雅的方案——让大模型不仅“算得对”,更能“算得漂亮”。


论文:https://arxiv.org/abs/2512.01925
Github:https://github.com/open-compass/RePro

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14496
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读91.8k
粉丝0
内容14.5k