蚂蚁清华联合发布AReaL-boba:最快最稳的开源强化学习训练框架
7B模型刷新AIME纪录,200条数据复现QwQ-32B,成本低于200美金

随着DeepSeek R1和OpenAI o1等推理模型的发展,强化学习(RL)已成为提升大语言模型能力的关键技术。然而,大规模RL训练长期面临流程复杂、显存效率瓶颈及缺乏高质量开源数据与完整训练流程等挑战[k]。
本周,蚂蚁技术研究院与清华大学交叉信息院吴翼团队联合发布最新版本开源强化学习训练框架AReaL-boba,推出训练速度最快、稳定性最强的AReaL v0.2版本,并全面公开训练数据与可复现脚本[k]。该框架在7B模型上刷新AIME数学推理分数纪录,仅用200条数据即复现QwQ-32B效果,训练成本控制在200美金以内[k]。
项目链接:https://github.com/inclusionAI/AReaL
HuggingFace数据模型地址:https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a
AReaL源自开源项目ReaLHF,致力于降低强化学习训练门槛,实现完全开放与可复现。所有核心代码、数据集及训练流程均已开源,支持开发者自由使用、验证与改进[k]。名称“boba”既体现团队对珍珠奶茶的喜爱,也寓意强化学习技术应如日常饮品般普及普惠[k]。
AReaL-boba发布亮点
训练速度最快的开源框架
AReaL-boba是首个全面集成xAI采用的SGLang推理框架的开源训练系统,通过多项工程优化显著提升训练吞吐效率:在1.5B模型上提速35%,7B模型提速60%,32B模型提速73%[k]。

图 1:AReaL-boba对比初代AReaL大幅提升训练吞吐
该框架支持从单机到大规模分布式训练的高效部署,可在128张H800上1天内完成SOTA 1.5B模型训练,256张H800上2天内完成7B模型训练[k]。
7B模型数学推理能力断崖式领先
基于Qwen-R1-Distill-7B基础模型,AReaL-boba通过强化学习训练实现AIME 2024得分61.9、AIME 2025得分48.3,刷新同尺寸模型纪录,超越OpenAI o1-preview[k]。相比基线模型,AIME 2024提升6.9分,AIME 2025提升8.6分,验证了RL Scaling的有效性[k]。

表 1: 同类参数模型的不同基准测试分数
团队同步开源训练数据集AReaL-boba-106k、完整训练与评估脚本,并在项目仓库中提供详尽技术文档,涵盖PPO超参数、奖励函数、正则化策略及长度设置等关键训练细节[k]。
200条数据复现QwQ-32B,训练成本低于200美金
针对32B模型,AReaL团队发布精简数据集AReaL-boba-SFT-200及配套脚本。基于R1-Distill-Qwen-32B模型,仅用200条数据通过轻量级SFT方式,在AIME 2024上成功复现QwQ-32B性能表现,总计算成本低于200美金[k]。

表 2:同类参数模型的AIME 2024分数
AReaL团队由蚂蚁研究院强化学习实验室与清华大学吴翼团队组成,广泛借鉴DeepScaleR、SGLang、QwQ、Open-Reasoner-Zero、OpenRLHF、veRL、Light-R1和DAPO等优秀开源项目,成为国内首个实现数据、代码、模型、脚本全开源的强化学习项目[k]。
团队已公布后续开源路线图,包括异步训练支持、训练吞吐优化、数据集与算法升级,以及对代码生成与智能体能力的增强支持[k]。

