RePro团队 投稿 量子位 | 公众号 QbitAI
近年来,随着o1、DeepSeek-R1等模型的发展,长思维链(Long Chain-of-Thought, Long CoT)已成为提升大语言模型复杂推理能力的关键手段。然而,“长思考”常伴随“过度思考”问题:模型可能生成大量冗余Token,在错误路径上反复横跳(Backtracking),导致算力浪费与推理延迟。
如何在保障深度推理的同时提升思维效率?上海人工智能实验室研究团队提出一种全新的后训练范式——RePro(Rectifying Process-level Reward),从优化视角重构大模型的推理过程。
核心观察:推理即优化
RePro将模型的推理轨迹视为在损失曲面上寻找最优解的过程:
- 每个推理步骤相当于一次梯度更新;
- 目标是最大化生成正确答案的概率。
在此框架下:
- 有效推理:每步显著提升对正确答案的信心(Loss持续下降);
- 稳定收敛:推理方向明确,无震荡或反复。
反之,“过度思考”表现为:
- 陷入鞍点:生成大量Token但对答案概率贡献极小;
- 梯度震荡:信心波动剧烈,逻辑混乱。
RePro的三大“矫正”机制
1. 代理目标函数J
RePro设计了一个可计算的代理目标函数J̃,用于量化模型当前对正确答案的置信度:
定义为模型在当前推理上下文中,生成正确答案各token的平均对数概率。

直觉解释:
- 初始阶段,模型直接猜测成功率低,J̃较小;
- 随着推理推进,排除错误选项,J̃应稳步上升;
- 得出结论时,J̃达到峰值。
实验表明:正确推理路径上的J̃平稳上升,而无效路径则呈现震荡或停滞。

2. 双重评分机制:优化强度+稳定性
基于J̃的变化趋势,RePro将其分解为两个维度进行评估,构建过程奖励信号。
Magnitude Score(强度评分):衡量推理带来的置信度提升幅度
通过比较当前J̃与基线值J̅(未推理时的置信度)计算增益Δ,并使用tanh归一化至(0,1]区间,防止异常梯度影响训练稳定性。
Stability Score(稳定性评分):衡量推理路径是否平滑
采用Kendall’s Tau相关系数,评估J̃序列与时间步之间的秩相关性:
- 高稳定性(接近1):每步J̃递增,推理连贯;
- 低稳定性(≤0):波动大,存在逻辑倒退。
最终过程评分S由强度与稳定性加权构成,作为强化学习中的过程奖励依据。
3. 流程级奖励整合进RL训练
为降低计算开销,RePro采用熵值筛选策略,仅对关键段落施加干预:
- 分段:按逻辑断点(如\n\n)切分推理链;
- 熵计算:计算每段首Token的熵ℋ(ci,(0));
- Top-k筛选:选择熵最高的k个段落进行奖励计算。
该策略聚焦模型最不确定的环节,避免在高自信区域过度干预,实现高效精准引导。
通过计算过程评分增量ΔS,作为“过程级奖励”,结合最终结果反馈,输入RL优势函数。

实验:不只更准,而且更“省”
RePro在数学、科学、编程等多个任务上验证效果,涵盖:
- AIME24 / AIME25 / MATH500(数学推理)
- GPQA-Diamond(科学问答)
- MBPP / LiveCodeBench(代码生成)
测试模型包括:
DeepSeek-R1-Distill-Qwen-1.5B、Qwen3-1.7B/8B、Hunyuan-Instruct等。
在多种RL算法(PPO、GRPO等)下,RePro均带来稳定性能提升:
模型架构 |
RL算法 |
AIME24(Pass@1) |
AIME25(Pass@1) |
MATH500(Pass@1) |
DeepSeek-R1-Distill-1.5B |
Original |
30.6% |
24.8% |
84.4% |
PPO |
34.8% |
24.4% |
86.9% |
|
PPO+REPRO |
36.3%(+1.5) |
27.7%(+3.3) |
87.7%(+0.8) |
|
GRPO |
32.9% |
25.3% |
86.0% |
|
GRPO+REPRO |
36.0%(+3.1) |
26.5%(+1.2) |
87.1%(+1.1) |
|
Qwen3-1.7B |
Original |
46.8% |
36.1% |
93.0% |
GRPO |
47.3% |
34.8% |
93.4% |
|
GRPO+REPRO |
49.8%(+2.5) |
37.9%(+3.1) |
94.1%(+0.7) |
在其他领域同样表现优异,体现良好泛化能力:
领域 |
基准测试 |
基线(GRPO) |
GRPO+REPRO |
绝对提升 |
科学推理 |
GPQA-Diamond |
34.5% |
37.0% |
+2.5% |
代码推理 |
MBPP |
62.5% |
65.4% |
+2.9% |
代码推理 |
LiveCodeBench |
15.2% |
18.4% |
+3.2% |
推理token数量显著减少
训练过程中,RePro模型生成的平均token数稳步下降,说明其学会用更简洁路径得出准确答案。

回溯行为(Backtracking)减少
模型“反复检查”或“思路绕圈”的现象明显减少,推理更加连贯高效。

简明扼要的推理才是好推理
RePro证明:更优的推理不等于更长的思维链,而是更高效的优化路径。通过引入“优化视角”到后训练阶段,RePro为解决Long CoT效率瓶颈提供了通用且优雅的方案——让大模型不仅“算得对”,更能“算得漂亮”。
论文:https://arxiv.org/abs/2512.01925
Github:https://github.com/open-compass/RePro

