

让大模型不再过度思考！上海AI Lab后训练新范式重塑CoT，推理又快又好

量子位

2025-12-21

导读：长思考中反复横跳？简明扼要的推理才是好推理

RePro团队投稿量子位 | 公众号 QbitAI

近年来，随着o1、DeepSeek-R1等模型的发展，长思维链（Long Chain-of-Thought, Long CoT）已成为提升大语言模型复杂推理能力的关键手段。然而，“长思考”常伴随“过度思考”问题：模型可能生成大量冗余Token，在错误路径上反复横跳（Backtracking），导致算力浪费与推理延迟。

如何在保障深度推理的同时提升思维效率？上海人工智能实验室研究团队提出一种全新的后训练范式——RePro（Rectifying Process-level Reward），从优化视角重构大模型的推理过程。

核心观察：推理即优化

RePro将模型的推理轨迹视为在损失曲面上寻找最优解的过程：

每个推理步骤相当于一次梯度更新；
目标是最大化生成正确答案的概率。

在此框架下：

有效推理：每步显著提升对正确答案的信心（Loss持续下降）；
稳定收敛：推理方向明确，无震荡或反复。

反之，“过度思考”表现为：

陷入鞍点：生成大量Token但对答案概率贡献极小；
梯度震荡：信心波动剧烈，逻辑混乱。

RePro的三大“矫正”机制

1. 代理目标函数J

RePro设计了一个可计算的代理目标函数J̃，用于量化模型当前对正确答案的置信度：

定义为模型在当前推理上下文中，生成正确答案各token的平均对数概率。

直觉解释：

初始阶段，模型直接猜测成功率低，J̃较小；

随着推理推进，排除错误选项，J̃应稳步上升；

得出结论时，J̃达到峰值。

实验表明：正确推理路径上的J̃平稳上升，而无效路径则呈现震荡或停滞。

2. 双重评分机制：优化强度+稳定性

基于J̃的变化趋势，RePro将其分解为两个维度进行评估，构建过程奖励信号。

Magnitude Score（强度评分）：衡量推理带来的置信度提升幅度

通过比较当前J̃与基线值J̅（未推理时的置信度）计算增益Δ，并使用tanh归一化至(0,1]区间，防止异常梯度影响训练稳定性。

Stability Score（稳定性评分）：衡量推理路径是否平滑

采用Kendall’s Tau相关系数，评估J̃序列与时间步之间的秩相关性：

高稳定性（接近1）：每步J̃递增，推理连贯；
低稳定性（≤0）：波动大，存在逻辑倒退。

最终过程评分S由强度与稳定性加权构成，作为强化学习中的过程奖励依据。

3. 流程级奖励整合进RL训练

为降低计算开销，RePro采用熵值筛选策略，仅对关键段落施加干预：

分段：按逻辑断点（如\n\n）切分推理链；
熵计算：计算每段首Token的熵ℋ(c_i,(0))；
Top-k筛选：选择熵最高的k个段落进行奖励计算。

该策略聚焦模型最不确定的环节，避免在高自信区域过度干预，实现高效精准引导。

通过计算过程评分增量ΔS，作为“过程级奖励”，结合最终结果反馈，输入RL优势函数。

实验：不只更准，而且更“省”

RePro在数学、科学、编程等多个任务上验证效果，涵盖：

AIME24 / AIME25 / MATH500（数学推理）
GPQA-Diamond（科学问答）
MBPP / LiveCodeBench（代码生成）

测试模型包括：
DeepSeek-R1-Distill-Qwen-1.5B、Qwen3-1.7B/8B、Hunyuan-Instruct等。

在多种RL算法（PPO、GRPO等）下，RePro均带来稳定性能提升：

模型架构	RL算法	AIME24(Pass@1)	AIME25(Pass@1)	MATH500(Pass@1)
DeepSeek-R1-Distill-1.5B	Original	30.6%	24.8%	84.4%
PPO	34.8%	24.4%	86.9%
PPO+REPRO	36.3%(+1.5)	27.7%(+3.3)	87.7%(+0.8)
GRPO	32.9%	25.3%	86.0%
GRPO+REPRO	36.0%(+3.1)	26.5%(+1.2)	87.1%(+1.1)
Qwen3-1.7B	Original	46.8%	36.1%	93.0%
GRPO	47.3%	34.8%	93.4%
GRPO+REPRO	49.8%(+2.5)	37.9%(+3.1)	94.1%(+0.7)

在其他领域同样表现优异，体现良好泛化能力：

领域	基准测试	基线(GRPO)	GRPO+REPRO	绝对提升
科学推理	GPQA-Diamond	34.5%	37.0%	+2.5%
代码推理	MBPP	62.5%	65.4%	+2.9%
代码推理	LiveCodeBench	15.2%	18.4%	+3.2%

推理token数量显著减少

训练过程中，RePro模型生成的平均token数稳步下降，说明其学会用更简洁路径得出准确答案。

回溯行为（Backtracking）减少

模型“反复检查”或“思路绕圈”的现象明显减少，推理更加连贯高效。

简明扼要的推理才是好推理

RePro证明：更优的推理不等于更长的思维链，而是更高效的优化路径。通过引入“优化视角”到后训练阶段，RePro为解决Long CoT效率瓶颈提供了通用且优雅的方案——让大模型不仅“算得对”，更能“算得漂亮”。

论文：https://arxiv.org/abs/2512.01925
Github：https://github.com/open-compass/RePro

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 14496

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读91.8k

粉丝0

内容14.5k