蚂蚁与清华联合发布AReaL boba:开源强化学习框架实现推理性能新突破
集成SGLang大幅提升训练效率,支持人人可复现顶尖大模型

3月31日,蚂蚁集团与清华大学交叉信息研究院吴翼团队联合推出的开源强化学习框架AReaL发布里程碑版本AReaL boba,旨在通过全面开源模型、代码、数据及训练细节,推动AI推理技术的普惠化发展[1]。
AReaL boba致力于开放全部训练所需资源,包括性能模型的实现细节与基础设施,并配套详尽教程,真正实现“人人可手搓顶尖大模型”的目标[1]。
AReaL boba成为首个全面集成xAI高性能推理框架SGLang的开源训练系统。通过引入SGLang并进行工程优化,其在7B模型上的训练速度较v0.1提升1.5倍,端到端性能提升达73%[1]。

官方提供的训练时间表展示了AReaL-boba在不同资源配置下的高效表现[1]。
经过大规模强化学习训练,AReaL-boba-RL-7B在数学推理能力上达到同尺寸模型SOTA水平,在AIME 2024和2025分别取得61.9分和48.3分,显著超越基础模型并领先同类开源方案。团队同步开源了训练数据集AReaL-boba-106k,便于社区复现[1]。
通过监督微调,团队基于R1-Distill-Qwen-32B仅使用200条精选数据(AReaL-boba-SFT-200),即成功复现QwQ-32B在AIME 2024上的优异推理性能[1]。
目前AReaL项目处于活跃开发阶段,计划以周为单位发布重大更新。未来研发重点涵盖系统与算法优化,包括基于编码问题的强化学习、异步生成与RL训练等机制的引入;同时将拓展至视觉-语言模型的强化学习、完善32B规模模型训练方案、研发高效多任务RL算法,并提升MoE大模型的稳定训练能力[1]。
-
GitHub 项目地址:https://github.com/inclusionAI/AReaL -
HuggingFace 数据模型地址:https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a
此外,清华大学交叉信息研究院助理教授、AReaL核心成员吴翼将在2025机器学习技术大会上深度解析该项目的技术架构与实战经验,重点探讨其如何应对强化学习中的关键挑战[1]。
同期,360智脑算法资深专家、Light-R1-7B-DS核心开发者邹昊晟也将出席大会,分享《开源推理模型的课程学习与GRPO数据心得和训练策略》。360智脑于3月开源Light-R1系列模型,在多项评测中实现突破:首次零起点超越DeepSeek-R1-Distill-32B,并首次在14B模型上实现长推理SFT后GRPO强化学习的显著提升,全系列模型曾多次亮相周鸿祎个人短视频[1]。

