题目:Towards a Unified View of Large Language Model Post-Training
论文地址:https://arxiv.org/pdf/2509.04419
代码地址:https://github.com/TsinghuaC3I/Unify-Post-Training
创新点
-
提出统一策略梯度估计器(UPGE),将监督微调(SFT)与强化学习(RL)的梯度计算统一于同一框架,揭示二者实为同一优化目标的不同表现形式。
-
设计混合后训练算法HPT,基于模型实时性能反馈动态调整SFT与RL的训练比例,在探索与利用之间实现自适应平衡。
方法
研究提出统一视角理解大语言模型(LLM)后训练,并据此构建混合后训练算法(HPT)。核心在于推导出统一策略梯度估计器(UPGE),将SFT与RL的梯度统一建模。该框架分解为四个关键组件:稳定化掩码、参考策略分母、优势估计和似然梯度,系统揭示不同后训练方法的共性与差异。
统一策略梯度估计器的说明
图示展示了UPGE的结构及其四个组成部分如何协同工作,实现SFT与RL机制的统一建模。该框架为理解后训练方法提供了理论基础,并支持通过动态调节组件组合提升训练效率。
HPT与其他基线方法在Qwen2.5-Math-7B上的Pass@k性能对比
HPT在AIME 2024、AIME 2025和AMC等多个数学推理任务中均取得最优Pass@k性能,尤其在较大k值下优势显著,表明其具备更强的多解探索能力,能有效提升正确答案覆盖率。
SFT→GRPO在Qwen2.5-Math-1.5B上的训练动态可视化
训练初期,模型对简单问题(如Level 3)快速掌握,准确率迅速上升;而对复杂问题(如Level 5)学习缓慢且错误较多,反映出GRPO在高频rollout错误场景下的学习瓶颈。
实验
实验结果显示,HPT在多个数学推理基准(AIME、AMC、MATH-500等)及分布外任务(ARC-c、GPQA)上均优于现有方法。HPT通过动态融合SFT与RL,兼顾模型基础能力提升与推理优化,展现出卓越的泛化性与适应性,验证了其作为高效后训练方案的有效性。
-- END --

