-
Rollout阶段占主导:RL训练中,rollout阶段(生成候选响应)消耗约85%的总时间,成为主要瓶颈。
-
资源消耗巨大:例如,32B模型的RL训练需128个GPU运行11天完成385步,单步平均40分钟,评估需20分钟,凸显过程的高成本。
-
现有RLHF系统(如VeRL)专注于多模型管理和数据传输优化,但未解决rollout瓶颈,尤其推理RL的响应长度通常比RLHF长一个数量级,需专用优化。
-
Spot Trainer:利用rollout长尾阶段的空闲GPU资源,进行可抢占的草案模型训练。Worker Coordinator监控GPU状态,在空闲时启动训练任务,避免干扰主RL工作流。
-
DataBuffer:缓存历史隐藏状态和输入嵌入,结合当前步的部分响应和上一步的长序列数据,解决长尾数据分布不匹配问题。
-
树状推测解码:扩展线性推测为多路径探索,基于草案模型的置信度选择topK分支,提升单步接受token数(如Draft_Depth=12时接受长度达8.67)。
-
BEG-MAB调优器:基于多臂赌博机算法,根据批量大小自动选择最优SD参数(如TokenstoVerify),平衡接受率和延迟。
-
Bucketed CUDA Graph捕获:将批量大小分桶(如B1–B4),分离目标模型和草案模型的Graph捕获,减少内存占用(从30.39 GB降至10.69 GB)。
-
Rollout阶段:Adaptive SD管理器选择SD策略,草案模型生成候选token(①),目标模型并行验证(②–③),反馈接受长度和延迟(④–⑤)以优化策略。
-
训练阶段:Spot Trainer利用空闲GPU更新草案模型,DataBuffer提供训练数据,确保与目标模型持续对齐。
-
无模型草案回退:当学习型草案不可用时,启用基于n-gram检索的模型无关草案,保持加速效果。
-
端到端性能
-
自适应SD有效性
-
参数调优:DraftDepth和Tokensto_Verify对性能影响显著(如批量大小=1时,深度12可获3.62倍加速),BEG-MAB自动优化策略。
-
草案模型训练效果
-
快速适应:草案模型在目标模型更新后准确率短暂下降,但通过Spot Trainer迅速恢复(图15)。
-
通用性:TLT适用于多种RL算法(如RLOO、DAPO),且生成的草案模型可直接用于推理场景(如在线服务、边缘部署)。
-
异步RL潜力:论文探讨了有限异步更新与TLT结合的可能性,但强调需保持算法正确性,避免策略过时。
-
资源开销:TLT的额外开销(如草案模型更新、SD切换)占比不足1%,远低于性能收益。
-
理论无损:首次将数学无损的推测解码应用于动态RL训练,确保模型输出分布不变。
-
系统协同:通过资源气泡利用和自适应调度,实现训练与草案更新的无缝结合。
-
实践价值:为推理LLM训练提供高效、自动化解决方案,并产出高质量草案模型作为副产品。

