完美不是在没有什么可添加的时候,而是在没有什么可以去掉的时候。
——法国作家安托万·德·圣-埃克苏佩里
清华大学、伊利诺伊大学与上海AI实验室联合提出JustRL架构,在DeepSeek-R1-Distill-Qwen-1.5B与OpenMath-Nemotron-1.5B两个1.5B级推理模型上刷新性能纪录:单阶段训练、固定超参数,计算量仅为同类复杂方法的50%。
复杂性陷阱与极简主义的回归
小模型常用蒸馏技术提升性能,但其能力上限受限于教师模型。强化学习(RL)本是突破瓶颈的关键路径,却长期因训练不稳定被弃用。
过去一年,社区为稳定小模型RL训练,普遍采用多阶段管道、动态超参数调度、自适应温度控制、精细响应长度惩罚及多重数据过滤等复杂策略。
技术堆叠带来根本性质疑:这些复杂性是否真正必要?不同组合效果不一,难以归因;所谓“奖励崩塌”“熵漂移”等现象,往往源于复杂基线自身缺陷,而非RL本质问题。
JustRL直面这一现状,回归RL最基础要素——移除所有花哨技巧,在两个主流1.5B模型上验证了极简方案的有效性与鲁棒性。
抛弃繁复后的极简配方
JustRL恪守“如无必要,勿增实体”原则,仅保留GRPO(群组相对策略优化)核心算法与二元结果奖励信号,奖励判定依赖轻量级规则验证器,不引入SymPy等额外计算依赖。
训练全程坚持单阶段、固定超参数、标准数据集(DAPO-Math-17k)、基础后缀提示(“请逐步推理,并将最终答案放在 \boxed{} 中”)、16K token最大上下文长度且无显式长度惩罚。
唯一保留的技巧是clip higher——一种成熟稳定的长视界RL实践,作者视其为基线组成部分而非额外干预。
两模型均使用32张A800-80GB GPU训练约15天,全程共用同一套超参数配置,未做任何模型特化调整,验证了方法的强泛化能力。
相较DeepScaleR、FastCuRL、ProRL等依赖多阶段训练、动态采样与复杂熵控制的工作,JustRL以最简设置实现性能领先。
令人信服的实验数据与对比
在DeepSeek-R1-Distill-Qwen-1.5B上,JustRL经4380步单阶段训练,九项数学基准平均准确率达54.87%,超越九阶段ProRL-V2的53.08%,且在其中六项领先,证明能力提升具备广度而非过拟合。
计算效率优势显著:JustRL仅消耗ProRL-V2一半计算预算;BroRL因采用512 Rollout,计算量达JustRL的4.9倍,而JustRL仅用8 Rollout即获竞争力表现。
即便不采用动态采样(POLARIS估算其常过滤50%样本),JustRL效率仍领先;训练曲线平滑单调,超4000步无崩塌或平台期,表明稳定性源于方法本征,而非复杂干预修补。
在更强的OpenMath-Nemotron-1.5B基座上,JustRL经3440步同配方训练,平均准确率达64.32%,略超引入课程学习与部分思维链增强的QuestA(63.81%),且无需数据工程与增强,进一步印证普适性。
训练动力学的深层洞察
JustRL训练过程展现健康动态:策略熵自然震荡于1.0–1.6区间,无系统性漂移;平均奖励稳步上升(-0.6 → +0.4),无平台期或突降;响应长度从初始约8000 token自然压缩至4000–5000 token并稳定,未施加任何长度惩罚。
KL散度未出现异常扩大,无需KL正则化或参考模型重置——病态现象的缺席,消除了对对应复杂手段的依赖。
为什么标准技巧反而成了累赘
两项消融实验揭示关键洞见:在JustRL基线上添加“过长惩罚”或“鲁棒验证器”,均导致性能退化——AIME 2024准确率分别停滞于50%、45%,低于基线55%。
过长惩罚引发探索崩塌(熵压至0.5–0.6),使模型过早收敛短回复;鲁棒验证器虽减少误判,却削弱信号分辨力,抑制模型发展稳健内部计算能力。
这说明:标准技巧不具备跨语境普适性,简单基线本身已达成精妙平衡,盲目叠加易破坏该平衡。方法论应转向“先建简基线,再证明确需加法”,而非默认复杂即合理。
JustRL并非否定复杂技术价值,而是在计算资源有限、噪声环境等场景外,确立了一种更高效、更鲁棒、更易复现的小模型RL新范式:
通过回归本源,在两个基础模型上实现了更高性能、更低计算成本与更稳定训练过程。
完美的达成,不是当没有什么可以添加的时候,而是当没有什么可以去掉的时候。
参考资料:
https://arxiv.org/pdf/2512.16649
https://iclr-blogposts.github.io/2026/blog/2026/justrl/
https://github.com/thunlp/JustRL

