复旦、字节等推出多环境强化学习智能体框架 AgentGym-RL

首个统一端到端架构支持交互式多轮训练，7B模型性能追平顶尖商业模型

人工智能正从“数据密集”迈向“经验密集”时代。强化学习之父 Richard Sutton 指出，真正的智能源于在真实环境中主动探索与持续积累经验的能力。特斯拉前AI负责人、OpenAI联合创始人Andrej Karpathy进一步强调，环境的多样性与真实性是智能体实现泛化决策的关键基础。

在此背景下，复旦大学、创智研究院与字节跳动的研究团队基于AgentGym框架，提出全新多环境强化学习智能体训练框架——AgentGym-RL。该框架由复旦大学自然语言处理实验室博士生奚志恒担任第一作者，桂韬教授和张奇教授为通讯作者。

AgentGym-RL 是**首个无需监督微调（SFT）、具备统一端到端架构、支持交互式多轮强化学习训练**的LLM智能体框架，并已在多种真实场景中验证其有效性，为自主智能体的发展提供了标准化基础设施。

商业模型、开源模型及本文强化学习模型在不同智能体任务中的表现对比。

研究团队提出“扩展环境交互”作为测试时计算的新路径，通过增加模型与外部环境的交互回合数，使智能体在多轮反馈中逐步优化决策策略。相比传统仅延长思维链的方法，该方式打破封闭推理局限，实现动态修正与结构化决策，显著提升复杂任务应对能力。

针对长轮次训练易导致模型崩溃的问题，团队进一步提出ScalingInter-RL交互轮次扩展策略：采用分阶段递增最大交互轮次的方式，让智能体先掌握基础技能，再逐步挑战复杂任务，有效平衡探索与利用，构建稳定训练范式。

实验表明，仅7B参数规模的模型在五类真实任务环境、26项测试任务中展现出卓越性能：

在网页导航任务中，ScalingInter-7B准确率达26.00%，大幅超越GPT-4o（16.00%），媲美DeepSeek-R1与Gemini 2.5 Pro；
在科学实验任务中，其总体得分达57.00%，远超OpenAI o3（41.50%），创下当前最优成绩。

WebArena环境下的实验结果。

SciWorld环境下的实验结果。

AgentGym-RL采用解耦化架构，包含环境、代理与训练三大模块：

AgentGym-RL架构图：灵活性与可扩展性兼备。

ScalingInter-RL在训练稳定性与效率方面显著优于传统方法：

ScalingInter-RL与传统RL算法训练动态对比。

研究揭示关键洞察：后训练与测试时计算的投资比单纯扩大模型参数更具性价比。经AgentGym-RL训练的7B模型不仅超越同类开源模型，还显著优于近十倍参数的大型模型。

本文框架显著提升7B模型能力，超越更大规模模型。

研究团队指出，环境结构对强化学习效率有显著影响：规则明确、反馈清晰的环境（如TextCraft、BabyAI）提升明显，而开放性环境（如WebArena）仍面临挑战。

未来将聚焦三大方向：

本研究获得华为昇腾AI处理器算力支持。昇腾910B NPU在多个实验阶段发挥作用，结合vllm-ascend框架，显著提升大模型在国产算力平台上的推理效率。

【声明】内容源于网络

机器之心

专业的人工智能媒体和产业服务平台

内容 17239

粉丝 0

机器之心专业的人工智能媒体和产业服务平台

总阅读220.1k

粉丝0

内容17.2k