

极简主义的胜利：清华团队用最简单的强化学习配方刷新1.5B模型纪录

AIGC开放社区

2025-12-29

导读：JustRL极简1.5B模型。

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态。

完美不是在没有什么可添加的时候，而是在没有什么可以去掉的时候。
——法国作家安托万·德·圣-埃克苏佩里

清华大学、伊利诺伊大学与上海AI实验室联合提出JustRL架构，在DeepSeek-R1-Distill-Qwen-1.5B与OpenMath-Nemotron-1.5B两个1.5B级推理模型上刷新性能纪录：单阶段训练、固定超参数，计算量仅为同类复杂方法的50%。

复杂性陷阱与极简主义的回归

小模型常用蒸馏技术提升性能，但其能力上限受限于教师模型。强化学习（RL）本是突破瓶颈的关键路径，却长期因训练不稳定被弃用。

过去一年，社区为稳定小模型RL训练，普遍采用多阶段管道、动态超参数调度、自适应温度控制、精细响应长度惩罚及多重数据过滤等复杂策略。

技术堆叠带来根本性质疑：这些复杂性是否真正必要？不同组合效果不一，难以归因；所谓“奖励崩塌”“熵漂移”等现象，往往源于复杂基线自身缺陷，而非RL本质问题。

JustRL直面这一现状，回归RL最基础要素——移除所有花哨技巧，在两个主流1.5B模型上验证了极简方案的有效性与鲁棒性。

JustRL恪守“如无必要，勿增实体”原则，仅保留GRPO（群组相对策略优化）核心算法与二元结果奖励信号，奖励判定依赖轻量级规则验证器，不引入SymPy等额外计算依赖。

训练全程坚持单阶段、固定超参数、标准数据集（DAPO-Math-17k）、基础后缀提示（“请逐步推理，并将最终答案放在 \boxed{} 中”）、16K token最大上下文长度且无显式长度惩罚。

唯一保留的技巧是clip higher——一种成熟稳定的长视界RL实践，作者视其为基线组成部分而非额外干预。

两模型均使用32张A800-80GB GPU训练约15天，全程共用同一套超参数配置，未做任何模型特化调整，验证了方法的强泛化能力。

相较DeepScaleR、FastCuRL、ProRL等依赖多阶段训练、动态采样与复杂熵控制的工作，JustRL以最简设置实现性能领先。

在DeepSeek-R1-Distill-Qwen-1.5B上，JustRL经4380步单阶段训练，九项数学基准平均准确率达54.87%，超越九阶段ProRL-V2的53.08%，且在其中六项领先，证明能力提升具备广度而非过拟合。

计算效率优势显著：JustRL仅消耗ProRL-V2一半计算预算；BroRL因采用512 Rollout，计算量达JustRL的4.9倍，而JustRL仅用8 Rollout即获竞争力表现。

即便不采用动态采样（POLARIS估算其常过滤50%样本），JustRL效率仍领先；训练曲线平滑单调，超4000步无崩塌或平台期，表明稳定性源于方法本征，而非复杂干预修补。

在更强的OpenMath-Nemotron-1.5B基座上，JustRL经3440步同配方训练，平均准确率达64.32%，略超引入课程学习与部分思维链增强的QuestA（63.81%），且无需数据工程与增强，进一步印证普适性。

JustRL训练过程展现健康动态：策略熵自然震荡于1.0–1.6区间，无系统性漂移；平均奖励稳步上升（-0.6 → +0.4），无平台期或突降；响应长度从初始约8000 token自然压缩至4000–5000 token并稳定，未施加任何长度惩罚。

KL散度未出现异常扩大，无需KL正则化或参考模型重置——病态现象的缺席，消除了对对应复杂手段的依赖。

两项消融实验揭示关键洞见：在JustRL基线上添加“过长惩罚”或“鲁棒验证器”，均导致性能退化——AIME 2024准确率分别停滞于50%、45%，低于基线55%。

过长惩罚引发探索崩塌（熵压至0.5–0.6），使模型过早收敛短回复；鲁棒验证器虽减少误判，却削弱信号分辨力，抑制模型发展稳健内部计算能力。

这说明：标准技巧不具备跨语境普适性，简单基线本身已达成精妙平衡，盲目叠加易破坏该平衡。方法论应转向“先建简基线，再证明确需加法”，而非默认复杂即合理。

JustRL并非否定复杂技术价值，而是在计算资源有限、噪声环境等场景外，确立了一种更高效、更鲁棒、更易复现的小模型RL新范式：
通过回归本源，在两个基础模型上实现了更高性能、更低计算成本与更稳定训练过程。

完美的达成，不是当没有什么可以添加的时候，而是当没有什么可以去掉的时候。

参考资料：

https://arxiv.org/pdf/2512.16649

https://iclr-blogposts.github.io/2026/blog/2026/justrl/

https://github.com/thunlp/JustRL

【声明】内容源于网络

AIGC开放社区

1234

内容 1525

粉丝 0

AIGC开放社区 1234

总阅读9.5k

粉丝0

内容1.5k