这是2025年的第131篇文章
( 本文阅读时间:15分钟 )
前言
ROLL是阿里巴巴未来生活实验与智能引擎团队开源的面向大模型的强化学习(RL)框架,提供完整的RL训练链路,支持模型通过与环境交互学习任务解决策略。然而,ROLL在环境服务层缺乏标准化支持,用户需自行构建和维护执行环境,增加了使用门槛并限制了训练规模。
为填补这一空白,团队正式开源ROCK——一个强大的Env沙箱,全面补全ROLL生态中的环境服务能力。ROCK具备以下核心优势:
- 标准化的环境接口:统一API规范,简化集成;
- 开箱即用的Sandbox:预配置的安全执行环境;
- 高性能服务支撑:优化并发处理与资源调度;
- 任务多样性支持:覆盖多种Agentic典型场景。
ROCK与ROLL协同,构建从训练框架到环境服务的完整解决方案,显著降低Agentic模型开发复杂度,推动技术规模化应用。
ROCK项目地址:https://github.com/alibaba/ROCK
ROLL项目地址:https://github.com/alibaba/Roll
项目背景
2.1 模型演化:从文本输出到智能体交互
大语言模型正经历范式转变,从文本生成向具备外部交互能力的Agentic模型演进。当前主流SOTA模型如GPT-5、Claude 4.x、Gemini-2.5等均支持多轮交互,可通过工具调用、代码执行、API访问等方式与环境互动,实现从“回答问题”到“解决问题”的跨越。
企业自动化需求已不局限于文本建议,而是要求模型能直接执行动作。例如DevOps中自动修复故障、数据分析中运行代码生成报告、客服系统中查询更新订单状态,这些场景均依赖模型的实际执行能力。
2.2 训练 Agentic 模型的核心需求
高质量Agentic模型训练依赖四大核心要素:
- 基础LLM模型:作为智能体“大脑”,提供推理与决策能力;
- 任务与实例描述:明确定义问题空间与评估标准;
- 强化学习训练框架:提供高效RL算法与工程实现;
- 环境服务(Environment Service):提供交互、执行与反馈的沙盒环境。
其中,训练框架是技术骨架,而数据质量与环境服务决定模型能力上限。尤其在RL训练中,环境服务需满足高并发、低延迟、精准状态管理与灵活扩展性,否则将成为制约训练规模的瓶颈。
理想的环境服务应具备:
- 高并发支持:可同时处理数万训练实例;
- 快速反馈:毫秒级响应,加速迭代;
- 可靠状态管理:支持环境拉起、重置与回溯;
- 灵活可扩展:适配多样化任务类型。
突破性能瓶颈需双轮驱动:高性能训练框架(ROLL)+ 高效稳定环境体系(ROCK),二者协同释放Agentic模型潜力。
ROLL
3.1 ROLL框架概述
ROLL是基于Ray构建的大规模LLM强化学习基础设施,覆盖从小规模预研到数千卡生产环境的完整RL流程。其功能特性包括:
- 支持数学、代码、推理等多领域联合训练;
- 原生支持Agentic RL,适配游戏、对话、工具调用、CodeAgent等多步决策场景;
- 深度集成Megatron-Core、Deepspeed,支持5D并行策略;
- 具备样本级生成管理、异步推理与训练加速机制。
针对Agentic RL,ROLL提供专项优化:环境异步交互、冗余采样支持、异步训练加速,并采用GEM标准接口,仅需env.reset()和env.step()两个方法即可完成交互:
# 初始化环境
observation, info = env.reset()
# 智能体-环境交互循环
while True:
action = llm.generate(observation) # 智能体决策
next_observation, reward, terminated, truncated, info = env.step(action)
if terminated or truncated:
break
该设计极大简化接入流程,开发者只需实现标准接口即可无缝对接各类Agentic任务。
3.2 ROLL环境服务协同需求
ROLL的分布式架构对环境服务提出明确要求,以充分发挥其异步优化与扩展能力:
- 高并发处理:需匹配数千至数万实例的吞吐量;
- 冗余容错支持:应对环境故障,保障训练稳定性;
- 快速状态管理:支持环境快速拉起、重置与细粒度生命周期控制;
- 多样化任务适配:兼容不同复杂度与类型的Agentic任务。
上述需求正是ROCK项目要解决的核心问题。
ROCK
4.1 极致的规模化能力
传统Agent训练受限于单机资源,难以实现大规模并行。ROCK基于Ray构建,将计算集群抽象为统一弹性“环境资源池”,实现分钟级自动调度与拉起成千上万个并行环境。
- 从1到N+的飞跃:通过配置参数即可实现海量环境快速部署,无需关注底层节点管理;
- 前所未有的灵活性:支持同构与异构环境共存,满足大规模探索与跨任务泛化需求。
ROCK将“大规模训练”变为可触达的工具,彻底解放Agentic AI训练范式。
4.2 强大的Bash交互能力
ROCK打破传统沙箱“黑盒”困境,提供程序化的Bash交互能力,通过SDK与HTTP API实现远程终端操作。
开发者可通过简单函数调用,在指定Sandbox中安全执行命令,并获取完整输出(stdout/stderr),从而在训练过程中:
- 精准观测:实时查看文件、日志与进程状态,快速定位问题;
- 主动干预:动态修改环境变量或配置,引导Agent行为。
ROCK在保障分布式效率的同时,保留本地调试级别的可观测性与控制力。
4.3 灵活的部署方式
ROCK打通开发与生产的割裂,实现“一次编写,随处运行”。
- 本地独立运行:用于构建调试Sandbox环境,验证工具安装与文件读写性能;
- 本地集成调试:通过ROLL一键拉起ROCK Sandbox,进行端到端链路验证,流畅支持原型开发;
- 云端规模化部署:本地配置可平滑迁移至云端,自动扩展至数万个并行环境,确保环境一致性。
4.4 稳定的服务
ROCK设计对标阿里核心基础设施,为企业级训练提供高可用保障:
- 故障隔离机制:每个Sandbox严格隔离,单点崩溃不影响整体服务;
- 可预期性能:精细资源调度避免争抢,保证数据采集质量;
- 快速状态管理:秒级完成环境拉起与重置,最小化训练中断时间。
4.5 智能优化Agent训练范式
传统训练中,框架常需重复实现Agent业务逻辑,导致耦合严重、维护困难。ROCK引入ModelService组件,从根本上解耦Agent与训练框架。
ModelService通过“提问-拦截-回答”三步机制实现协同:
- Agent提问:在Sandbox内按原逻辑生成Prompt并发起调用;
- ROCK拦截传递:ModelService拦截请求,将原始Prompt反向传给ROLL;
- ROLL回答与训练:ROLL调用中心化推理服务,计算奖励并优化模型后返回结果。
该架构带来五大优势:
- 彻底解耦:ROLL无需包含Agent逻辑,消除重复建设;
- 完全训练控制:ROLL掌握每次“思考”的输入,便于实施高级训练策略;
- 极致资源效率:GPU集中用于中心推理,Sandbox可在低成本CPU实例运行;
- 开放架构:支持任意自定义Agent无缝接入;
- 智能基础设施:ROCK从执行服务升级为懂训练、助训练的平台。
总结与展望
ROLL与ROCK的结合,标志着阿里在Agentic AI训练领域的完整布局:ROLL提供强大训练引擎,ROCK提供可扩展环境燃料,共同解决高效学习算法与规模化环境服务两大核心挑战。
ROCK实现了:
- ✅ 从1到10K的弹性扩展:分钟级拉起海量环境;
- ✅ 开发到生产的无缝衔接:本地代码直通云端;
- ✅ 企业级稳定性:故障隔离、快速恢复、性能可控;
- ✅ 革命性训练范式:ModelService解耦逻辑与训练。
这一组合让Agentic模型训练成为标准化流程,惠及研究者、企业开发者与技术爱好者。项目已正式开源,持续更新,欢迎共建下一代智能体生态,推动Agentic AI发展。
ROCK与ROLL,让AI真正“动”起来!
GitHub项目地址:
https://github.com/alibaba/ROCK
https://github.com/alibaba/ROLL
快速入门文档:
https://alibaba.github.io/ROCK/zh-Hans/docs/rockroll/

