点击蓝字
关注我们
在大型语言模型不断突破能力边界的背景下,如何让“小模型”也具备强大的多步推理能力,一直是业界的重要挑战。最近,Google Cloud 与 UCLA 的研究团队提出了一种新的训练范式——Supervised Reinforcement Learning(SRL)监督强化学习框架,它以一种全新的方式重塑模型推理能力的学习路径,让更小、更便宜的开源模型也能胜任原本只有大模型才能解决的复杂任务。
🔍 为什么传统推理训练方法遇到了瓶颈?
在当前的推理训练方法中,最主流的技术是基于可验证奖励的强化学习(RLVR)。这种方法通过问题的最终答案是否正确来给模型奖励,从而让模型不断优化自己的推理策略。然而,这种“最终结果导向”的训练方式存在明显的弱点:当问题本身非常复杂,模型在有限次数的尝试(每次尝试称为一次“rollout”,即模型尝试一步步解决问题的完整过程)中很难找到正确答案时,它几乎无法获得任何有效反馈。尤其在长链条推理任务中,模型可能已经做对了大部分步骤,但只因最后一步出错就被整体判定为失败。这种粗粒度的反馈机制严重限制了模型学习复杂推理路径的能力。
另一条路线是监督微调(SFT),即让模型学习由专家写出的完整推理过程。但它容易导致模型“模仿轨迹”,只会按训练数据的模板思考,缺乏真正的泛化能力。而且高质量专家推理数据稀缺、昂贵,进一步限制了其应用。这些问题让小参数量模型在复杂推理任务中迟迟无法突破。
🧠 SRL:介于“模仿”与“强化学习”之间的新路径
SRL 的核心贡献在于: 把推理视为一系列“可学习的动作”,并在每一步提供学习信号。它的做法不是让模型盲目模仿专家的完整思考过程,也不是只奖励最终答案,而是将专家示例拆分为一系列关键动作,让模型按步骤学习如何决策。
无论是数学题中的代数变换,还是开发任务中的一次代码操作,都可以抽象为一个“动作”。在训练中:
-
模型会先生成自己的“内在思考”(inner monologue) -
再选择要执行的动作 -
SRL 会奖励这个动作是否与专家的“关键动作”一致
这种细粒度、逐步的反馈机制让模型即使没有得到正确答案,也能在每一步的决策中不断改进,彻底解决了 RLVR 中的稀疏奖励问题。Google 的研究人员指出,SRL 更像现实世界的问题解决方式:不是要求每一步都完全模仿专家,而是学习“好推理的基本骨架”。
⚡ SRL 的表现:数学推理、工程代理任务全面提升
研究团队在多项高难度任务上检验了 SRL 的能力,结果显示它不仅让模型更擅长复杂推理,也能迁移到软件工程代理等完全不同的场景中。
在数学任务中,研究人员让 Qwen2.5-7B-Instruct 学习 1000 道具有挑战性的数学题,并与 SFT 和 RLVR 方法对比。SRL 带来了平均 3% 的性能提升,在数学推理基准上领先其他训练策略。
更令人关注的是它在“工程代理任务”中的表现。研究人员使用 5000 条专家轨迹训练一个代码专用模型 Qwen2.5-Coder-7B-Instruct,并在 SWE-Gym 环境中测试其完成真实开发任务的能力。SRL 将任务解决率提升至 14.8%,相较 SFT 模型提升 74%,展现了其在真实软件开发自动化中的巨大潜力。
这些结果表明: SRL 学到的不是模板化推理,而是能够迁移到不同领域的通用推理能力。
📈 新趋势:SRL + RLVR 可能成为下一代推理训练范式
论文最强的结果来自组合策略:先用 SRL 训练基本推理能力,再用 RLVR 进行结果导向优化。这种“课程式训练”方案带来了 3.7% 的额外平均提升,暗示了一种更具潜力的新范式:
先教模型如何一步步思考,再教它如何得出最优答案。
这不仅让推理更稳定,更让整体行为更可解释、更可靠——尤其适用于高风险场景,如自动化科学研究、企业流程决策、供应链优化等。
研究者也指出,未来的挑战仍然在于:如何更低成本地生成大量高质量专家轨迹,同时减少 RLVR 的工程复杂度。但他们对自动化生成与筛选轨迹的方向非常乐观,并认为这是通向下一阶段的重要路径。
本文插图来自原论文
论文标题:
Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
论文链接:
https://arxiv.org/abs/2510.25992

