

🧩 Google 全新 SRL 训练框架解析：让小模型也能掌握复杂推理能力

BitaHub社区

2025-11-21

导读：Google SRL框架通过拆分专家推理为关键动作序列，提供细粒度奖励，解决传统训练稀疏反馈问题。7B模型数学推理提升3%，代码开发任务解决率提升74%达14.8%，SRL+RLVR组合额外获3.7%

点击蓝字

关注我们

在大型语言模型不断突破能力边界的背景下，如何让“小模型”也具备强大的多步推理能力，一直是业界的重要挑战。最近，Google Cloud 与 UCLA 的研究团队提出了一种新的训练范式——Supervised Reinforcement Learning（SRL）监督强化学习框架，它以一种全新的方式重塑模型推理能力的学习路径，让更小、更便宜的开源模型也能胜任原本只有大模型才能解决的复杂任务。

🔍 为什么传统推理训练方法遇到了瓶颈？

在当前的推理训练方法中，最主流的技术是基于可验证奖励的强化学习（RLVR）。这种方法通过问题的最终答案是否正确来给模型奖励，从而让模型不断优化自己的推理策略。然而，这种“最终结果导向”的训练方式存在明显的弱点：当问题本身非常复杂，模型在有限次数的尝试（每次尝试称为一次“rollout”，即模型尝试一步步解决问题的完整过程）中很难找到正确答案时，它几乎无法获得任何有效反馈。尤其在长链条推理任务中，模型可能已经做对了大部分步骤，但只因最后一步出错就被整体判定为失败。这种粗粒度的反馈机制严重限制了模型学习复杂推理路径的能力。

另一条路线是监督微调（SFT），即让模型学习由专家写出的完整推理过程。但它容易导致模型“模仿轨迹”，只会按训练数据的模板思考，缺乏真正的泛化能力。而且高质量专家推理数据稀缺、昂贵，进一步限制了其应用。这些问题让小参数量模型在复杂推理任务中迟迟无法突破。

🧠 SRL：介于“模仿”与“强化学习”之间的新路径

SRL 的核心贡献在于： 把推理视为一系列“可学习的动作”，并在每一步提供学习信号。它的做法不是让模型盲目模仿专家的完整思考过程，也不是只奖励最终答案，而是将专家示例拆分为一系列关键动作，让模型按步骤学习如何决策。

无论是数学题中的代数变换，还是开发任务中的一次代码操作，都可以抽象为一个“动作”。在训练中：

模型会先生成自己的“内在思考”（inner monologue）
再选择要执行的动作
SRL 会奖励这个动作是否与专家的“关键动作”一致

这种细粒度、逐步的反馈机制让模型即使没有得到正确答案，也能在每一步的决策中不断改进，彻底解决了 RLVR 中的稀疏奖励问题。Google 的研究人员指出，SRL 更像现实世界的问题解决方式：不是要求每一步都完全模仿专家，而是学习“好推理的基本骨架”。

⚡ SRL 的表现：数学推理、工程代理任务全面提升

研究团队在多项高难度任务上检验了 SRL 的能力，结果显示它不仅让模型更擅长复杂推理，也能迁移到软件工程代理等完全不同的场景中。

在数学任务中，研究人员让 Qwen2.5-7B-Instruct 学习 1000 道具有挑战性的数学题，并与 SFT 和 RLVR 方法对比。SRL 带来了平均 3% 的性能提升，在数学推理基准上领先其他训练策略。

更令人关注的是它在“工程代理任务”中的表现。研究人员使用 5000 条专家轨迹训练一个代码专用模型 Qwen2.5-Coder-7B-Instruct，并在 SWE-Gym 环境中测试其完成真实开发任务的能力。SRL 将任务解决率提升至 14.8%，相较 SFT 模型提升 74%，展现了其在真实软件开发自动化中的巨大潜力。

这些结果表明： SRL 学到的不是模板化推理，而是能够迁移到不同领域的通用推理能力。

📈 新趋势：SRL + RLVR 可能成为下一代推理训练范式

论文最强的结果来自组合策略：先用 SRL 训练基本推理能力，再用 RLVR 进行结果导向优化。这种“课程式训练”方案带来了 3.7% 的额外平均提升，暗示了一种更具潜力的新范式：

先教模型如何一步步思考，再教它如何得出最优答案。

这不仅让推理更稳定，更让整体行为更可解释、更可靠——尤其适用于高风险场景，如自动化科学研究、企业流程决策、供应链优化等。

研究者也指出，未来的挑战仍然在于：如何更低成本地生成大量高质量专家轨迹，同时减少 RLVR 的工程复杂度。但他们对自动化生成与筛选轨迹的方向非常乐观，并认为这是通向下一阶段的重要路径。

本文插图来自原论文

论文标题：

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

论文链接：

https://arxiv.org/abs/2510.25992

【声明】内容源于网络

BitaHub社区

BitaHub是一个开放的AI和深度学习社区，为广大开发者提供先进的、有竞争力的GPU算力资源及数据集、模型资源，同时提供了一个全流程的AI开发平台，包括模型训练、推理、数据集管理。

内容 50

粉丝 0

BitaHub社区 BitaHub是一个开放的AI和深度学习社区，为广大开发者提供先进的、有竞争力的GPU算力资源及数据集、模型资源，同时提供了一个全流程的AI开发平台，包括模型训练、推理、数据集管理。

总阅读34

粉丝0

内容50