>

1.7倍无损RL训练加速！英伟达提出自适应推测解码系统TLT，挖掘rollout空闲算力

>

0

0



1.7倍无损RL训练加速！英伟达提出自适应推测解码系统TLT，挖掘rollout空闲算力

1.7倍无损RL训练加速！英伟达提出自适应推测解码系统TLT，挖掘rollout空闲算力

AIGC 深一度

2025-11-29

2

导读：1.7倍无损RL训练加速！英伟达提出自适应推测解码系统TLT，挖掘rollout空闲算力

01

论文概述

这篇发表于2025年的论文《Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter》由MIT、NVIDIA、ETH Zurich等机构的研究团队共同提出，针对大型语言模型（LLM）推理强化学习（RL）训练中的效率瓶颈问题，提出了TLT系统。TLT通过自适应推测解码（Speculative Decoding）技术，有效解决了RL训练中响应生成长尾分布导致的资源浪费问题，在保证模型精度的同时实现了端到端训练速度的显著提升（1.7–2.1倍）。

论文标题：Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter

论文链接：https://arxiv.org/pdf/2511.16665

项目链接：https://github.com/mit-han-lab/fastrl

02

问题背景：推理RL训练的长尾瓶颈

推理LLM（如OpenAI o1、DeepSeek-R1）通过强化学习（如GRPO算法）获得复杂推理能力，但训练过程存在严重效率问题：

Rollout阶段占主导：RL训练中，rollout阶段（生成候选响应）消耗约85%的总时间，成为主要瓶颈。

资源消耗巨大：例如，32B模型的RL训练需128个GPU运行11天完成385步，单步平均40分钟，评估需20分钟，凸显过程的高成本。

现有RLHF系统（如VeRL）专注于多模型管理和数据传输优化，但未解决rollout瓶颈，尤其推理RL的响应长度通常比RLHF长一个数量级，需专用优化。

03

TLT核心方法：自适应推测解码

TLT的创新在于将推测解码（SD）动态适配于RL训练环境，克服了目标模型演化、草案模型训练开销和批量大小波动三大挑战。

1. Adaptive Drafter（自适应草案模型）

轻量级架构：采用单层Transformer解码器作为草案模型，仅训练解码层参数（约占目标模型参数的1/64），重用目标模型的Embedding和LM Head层，大幅降低训练和推理开销。

持续对齐机制：

Spot Trainer：利用rollout长尾阶段的空闲GPU资源，进行可抢占的草案模型训练。Worker Coordinator监控GPU状态，在空闲时启动训练任务，避免干扰主RL工作流。

DataBuffer：缓存历史隐藏状态和输入嵌入，结合当前步的部分响应和上一步的长序列数据，解决长尾数据分布不匹配问题。

2. Adaptive Rollout Engine（自适应Rollout引擎）

动态策略选择：

树状推测解码：扩展线性推测为多路径探索，基于草案模型的置信度选择topK分支，提升单步接受token数（如Draft_Depth=12时接受长度达8.67）。

BEG-MAB调优器：基于多臂赌博机算法，根据批量大小自动选择最优SD参数（如TokenstoVerify），平衡接受率和延迟。

内存优化：

Bucketed CUDA Graph捕获：将批量大小分桶（如B1–B4），分离目标模型和草案模型的Graph捕获，减少内存占用（从30.39 GB降至10.69 GB）。

04

系统架构与工作流程

TLT的工作流紧密集成Adaptive Drafter和Adaptive Rollout Engine：

Rollout阶段：Adaptive SD管理器选择SD策略，草案模型生成候选token（①），目标模型并行验证（②–③），反馈接受长度和延迟（④–⑤）以优化策略。

训练阶段：Spot Trainer利用空闲GPU更新草案模型，DataBuffer提供训练数据，确保与目标模型持续对齐。

无模型草案回退：当学习型草案不可用时，启用基于n-gram检索的模型无关草案，保持加速效果。

05

实验评估与结果

论文在多种模型（Qwen2.5-7B/32B、Llama-70B）和硬件（H100/A100 GPU）上验证TLT的有效性：

端到端性能

自适应SD有效性

参数调优：DraftDepth和Tokensto_Verify对性能影响显著（如批量大小=1时，深度12可获3.62倍加速），BEG-MAB自动优化策略。

草案模型训练效果

快速适应：草案模型在目标模型更新后准确率短暂下降，但通过Spot Trainer迅速恢复（图15）。

06

讨论与扩展应用

通用性：TLT适用于多种RL算法（如RLOO、DAPO），且生成的草案模型可直接用于推理场景（如在线服务、边缘部署）。

异步RL潜力：论文探讨了有限异步更新与TLT结合的可能性，但强调需保持算法正确性，避免策略过时。

资源开销：TLT的额外开销（如草案模型更新、SD切换）占比不足1%，远低于性能收益。

07

创新点与意义

理论无损：首次将数学无损的推测解码应用于动态RL训练，确保模型输出分布不变。

系统协同：通过资源气泡利用和自适应调度，实现训练与草案更新的无缝结合。

实践价值：为推理LLM训练提供高效、自动化解决方案，并产出高质量草案模型作为副产品。

TLT系统通过软硬件协同设计，为大规模RL训练提供了可扩展的优化路径，推动了高效AI推理的发展。未来工作可扩展至多轮RL、工具调用等复杂场景。

更多专栏文章点击查看：

LLM 架构专栏

强化学习系列

商务合作扫码添加微信

备注【AI交流群】加入人工智能交流群

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

喜欢就关注哦

动动小手点个赞

点在看最好看

【声明】内容源于网络

0

0

AIGC 深一度

专注AIGC领域，关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC，欢迎关注个人网站 https://www.chenbaiqi.com

内容 469

粉丝 0

AIGC 深一度专注AIGC领域，关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC，欢迎关注个人网站 https://www.chenbaiqi.com

总阅读46

粉丝0

内容469