NodeAI Tech｜LMSYS团队发布大规模MoE强化学习框架 Miles，不积跬步无以至千里

聚点社NodeAI

2025-11-20

继轻量级强化学习（RL）框架 slime 在社区中悄然流行并支持了包括 GLM-4.6 在内的大量 Post-training 流水线与 MoE 训练任务之后，LMSYS 团队正式推出 Miles——一个专为企业级大规模 MoE 训练及生产环境工作负载设计的强化学习框架。

Miles 从 slime 分叉（fork）而来，在继承其轻量级与高可定制性基因的基础上，针对新一代硬件（如 GB300）与大规模 MoE 进行了深度优化。它引入了 Infrastructure-level 的 True On-Policy（严格在线策略）、投机训练（Speculative Training）以及更极致的显存管理机制，旨在为追求高可靠性与大规模部署的团队提供流畅且可控的 RL 训练体验。
千里之行，始于足下。Miles 的发布标志着 LMSYS 团队在构建生产级 AI 基础设施道路上迈出的关键一步。

NodeAI Highlights：

True On-Policy（严格在线策略）：为了消除训练与推理之间的微小偏差，Miles 采用了基于基础设施的方法，结合 Flash Attention 3 和 DeepGEMM，实现了训练与推理的严格一致性。

引入 MTP Online Training 的投机采样：针对 RL 场景，Miles 在训练过程中对 Draft Model 进行在线 SFT，解决了分布偏移问题，实现了 25%+ 的 Rollout 加速。

极致的显存优化： Miles 实施了包括 NCCL 显存余量控制、部分 Offloading 及 Host 峰值内存节省在内的一系列改进，大幅减少大规模 MoE 训练中的 OOM 风险。

从 slime 出发：轻量与模块化的传承
Miles 的起点源于 slime——一个在开源社区与 LMSYS 内部备受推崇的轻量级框架。slime 因其优雅的设计原则，已成为众多模型科学家探索算法的首选工具。Miles 完整继承了这些核心优势：

原生高性能：对 SGLang 和 Megatron 的全栈优化提供原生支持，紧跟推理与训练框架的快速迭代。

清晰的模块化设计：算法（Algorithm）、数据（Data）、采样（Rollout）与评估（Eval）四大组件完全解耦。研究人员仅需极少的代码修改即可插入新的 Agent 类型或奖励函数。

对模型科学家友好：所有抽象层均保持高可读性。算法研究员无需触碰底层代码即可修改重要性采样（Importance Sampling）或 Loss 动态，且框架提供了独立的 Inference-only 和 Training-only 调试模式，便于快速诊断。

Miles 的诞生，正是基于 LMSYS 和 SGLang 社区的真实反馈，是将开放协作转化为工程实践的典范。

迈向生产级：Miles 的核心技术突破
在保留 slime 灵活性的同时，LMSYS 团队在 Miles 中注入了针对企业级应用和新一代硬件（GB300）的“强心剂”。以下是 Miles 近期实施的关键技术升级：

Infrastructure-level 的 True On-Policy
为了追求极致的算法正确性，Miles 除了支持现有的确定性（Deterministic）采样外，还进一步通过 kernel 层面的优化实现了 True On-Policy，训练与推理之间的 mismatch 被精确地降至零。
具体实现上，团队利用了 Flash Attention 3、DeepGEMM 以及来自 Thinking Machines Lab 的 Batch invariant kernels，并结合 torch compile 技术。此外，团队还对训练和推理过程中的数值运算细节进行了严格对齐，确保了结果的位级一致性（bit-wise consistence）。

大规模 MoE 显存优化
为了在不触发 OOM（显存溢出）的前提下最大限度地榨取 GPU 性能，Miles 进行了一系列显存管理升级：

引入了传播机制以规避良性 OOM 导致的错误；

实现了显存余量机制（Memory Margin）以修复 NCCL 导致的 OOM；

修复了 FSDP 中的额外显存占用问题；

支持基于 Move 的部分 Offloading 以及 Host 端峰值内存节省策略。

引入在线 SFT 的投机训练 (Speculative Training)

在强化学习场景中，如果 Draft Model（草稿模型）保持冻结，它将无法跟随 Target Model（目标模型）的策略变化，导致接受长度（Accept Length）下降，从而削弱加速效果。
为此，Miles 创新性地在 RL 过程中对 Draft Model 进行在线 SFT（Online SFT）。

性能提升：相比于冻结 MTP（Medusa-Tree-Pruning）基线，该方法实现了 25% 以上的 Rollout 加速，尤其在训练后期效果显著。

功能完备：支持带 Sequence Packing 和 Context Parallel (CP) 的 MTP；处理了 Loss Mask 的边缘情况；实现了 LM Head/Embedding 的梯度隔离，以及 Megatron 与 SGLang 之间的权重同步。

其它工程改进

增强 FSDP 后端：提升了大规模分布式训练的稳定性。

独立部署 Rollout：允许 Rollout 子系统脱离框架独立部署，适应更灵活的集群调度。

调试工具集：新增了更多监控指标、Post-hoc 分析器及增强型 Profiler。

数学形式化验证：提供了包含 SFT/RL 脚本的 Lean 语言形式化数学示例。

未来路线图与社区愿景
LMSYS 团队表示，Miles 的发布仅仅是一个开始。为了进一步支持企业级 RL 训练，未来的开发路线图包括：

新硬件支持：在 GB300 等下一代硬件上运行大规模 MoE RL 的示例。

多模态训练：扩展对 Multi-modal 模型的支持。

Rollout 加速：兼容 SGLang Spec v2 以获得更高性能；推进 EAGLE3 及 Multi-spec layer 等更先进的投机训练技术。

弹性训练：实现针对大规模异步训练的计算资源均衡分配，以及对 GPU 故障的弹性容错（Elastic to GPU failures）。

Miles 的存在离不开 slime 作者群及广泛的 SGLang/RL 社区的贡献。LMSYS 团队诚邀研究人员、初创公司及企业团队试用 Miles，共同打造高效、可靠的强化学习生产环境。