

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

机器之心

2025-03-31

导读：一起和 AReaL 团队喝杯珍珠奶茶，说不定这就是 RL 和 AI 普惠的开始。

蚂蚁清华联合发布AReaL-boba：最快最稳的开源强化学习训练框架

7B模型刷新AIME纪录，200条数据复现QwQ-32B，成本低于200美金

随着DeepSeek R1和OpenAI o1等推理模型的发展，强化学习（RL）已成为提升大语言模型能力的关键技术。然而，大规模RL训练长期面临流程复杂、显存效率瓶颈及缺乏高质量开源数据与完整训练流程等挑战[k]。

本周，蚂蚁技术研究院与清华大学交叉信息院吴翼团队联合发布最新版本开源强化学习训练框架AReaL-boba，推出训练速度最快、稳定性最强的AReaL v0.2版本，并全面公开训练数据与可复现脚本[k]。该框架在7B模型上刷新AIME数学推理分数纪录，仅用200条数据即复现QwQ-32B效果，训练成本控制在200美金以内[k]。

项目链接：https://github.com/inclusionAI/AReaL

HuggingFace数据模型地址：https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a

AReaL源自开源项目ReaLHF，致力于降低强化学习训练门槛，实现完全开放与可复现。所有核心代码、数据集及训练流程均已开源，支持开发者自由使用、验证与改进[k]。名称“boba”既体现团队对珍珠奶茶的喜爱，也寓意强化学习技术应如日常饮品般普及普惠[k]。

AReaL-boba发布亮点

训练速度最快的开源框架

AReaL-boba是首个全面集成xAI采用的SGLang推理框架的开源训练系统，通过多项工程优化显著提升训练吞吐效率：在1.5B模型上提速35%，7B模型提速60%，32B模型提速73%[k]。

图 1：AReaL-boba对比初代AReaL大幅提升训练吞吐

该框架支持从单机到大规模分布式训练的高效部署，可在128张H800上1天内完成SOTA 1.5B模型训练，256张H800上2天内完成7B模型训练[k]。

7B模型数学推理能力断崖式领先

基于Qwen-R1-Distill-7B基础模型，AReaL-boba通过强化学习训练实现AIME 2024得分61.9、AIME 2025得分48.3，刷新同尺寸模型纪录，超越OpenAI o1-preview[k]。相比基线模型，AIME 2024提升6.9分，AIME 2025提升8.6分，验证了RL Scaling的有效性[k]。