

人人可复现QwQ，蚂蚁清华联手放大招！彻底开源RL框架AReaL-boba

AIGC视界

2025-04-08

责编 | 梦依丹

出品 | AI 科技大本营（ID：rgznai100）

3 月的最后一天，由蚂蚁与清华大学交叉信息研究院吴翼老师团队联合推出的开源强化学习框架 AReaL 发布了里程碑版本——AReaL boba，正如其昵称“boba”（珍珠奶茶）所寓意的那样，AReaL 团队希望他们的工作能像美味且平易近人的奶茶一样，普惠整个 AI 开发社区，让每一位开发者都能轻松驾驭强大的推理模型。

就像 AReaL 介绍里说的那番，他们将完全致力于开源，发布所有重现所需性能模型的训练细节、数据和基础设施。AReaL boba 不仅把模型、代码、数据及实现细节通通开放出来，而且还提供非常详细的教程，真正实现了“人人可手搓顶尖大模型”的愿景。

集成 SGLang 框架，效率大幅提升！

AReaL boba 是首个全面拥抱 xAI 公司高性能推理框架 SGLang 的开源训练系统。通过引入 SGLang 并进行一系列工程优化，AReaL v0.2 在 7B 模型上的训练速度相较于 v0.1 提升了 1.5 倍，端到端训练性能提升高达 73%。如下图所示：

官网提供的表格进一步展示了 AReaL-boba 在不同资源配置下的训练时间：

AReaL 团队通过大规模强化学习训练，使得 AReaL-boba-RL-7B 在数学推理能力上达到了同尺寸模型的 SOTA 水平。其在 AIME 2024 上取得了 61.9 分，在 AIME 2025 上取得了 48.3 分，不仅显著超越了基础模型，更是在多个基准测试中领先于同类开源模型。为了方便社区复现，团队还开源了相应的训练数据 AReaL-boba-106k。

AReaL-boba 团队通过监督微调，基于 R1-Distill-Qwen-32B，仅使用 200 条精选数据 (AReaL-boba-SFT-200) 就成功复现了 QwQ-32B 在 AIME 2024 上的惊人推理性能！

目前，AReaL 项目正处于积极开发阶段，并计划以每周一次的频率发布重大更新。未来，AReaL 的研发重点将包括系统与算法的优化，系统层面将引入基于编码问题的强化学习训练、异步生成与 RL 训练等。此外，该团队还将探索视觉-语言模型的强化学习、继续完善 32B 规模模型的强化学习训练方案，研发高效的多任务 RL 算法，并推动端到端 RL 训练的智能体能力，同时提升更大规模 MoE 模型的稳定训练能力。

有关 AReaL-boba-RL-7B 训练细节，大家可以前往官博查看详细介绍。

GitHub 项目地址：https://github.com/inclusionAI/AReaL
HuggingFace 数据模型地址：

https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a

好啦，今天的内容分享就到这，感觉不错的同学记得分享点赞哦！

PS：AIGC 视界 持续分享程序员学习、面试相关干货，不见不散！

【声明】内容源于网络

AIGC视界

聚焦AI工具与创新，为所有人打开AIGC的窗口，看见AI世界的无限可能。

内容 4870

粉丝 0

AIGC视界聚焦AI工具与创新，为所有人打开AIGC的窗口，看见AI世界的无限可能。

总阅读10.4k

粉丝0

内容4.9k