大数跨境
0
0

AReaL和AWorld在新加坡ICLR2025的分享小结来了

AReaL和AWorld在新加坡ICLR2025的分享小结来了 蚂蚁技术AntTech
2025-04-24
1


今天,在新加坡举行的AI领域国际顶会ICLR2025进入第一天。


蚂蚁集团与全球AI开发者、研究者面对面,分享了强化学习训练开源框架AReaL及多智能体开源框架AWorld的最新进展。清华大学交叉信息研究院助理教授吴翼,蚂蚁集团Agent项目负责人顾进杰,分别作了主题演讲。


我们对吴翼和顾进杰的演讲内容做了整理,提炼了几个发现,分享给大家。


🥤 吴翼再谈强化学习和推理模型训练,AReaL将发新版 


AReaL(全称Ant Reasoning RL)是蚂蚁和清华大学交叉信息研究院团队开源的强化学习框架。3月底,AReaL发布v0.2版本——AReaL-boba.AReaL-boba以Qwen-R1-Distill-7B为基础,进行大规模强化学习训练,在2天内达到SOTA水平。AReaL-boba基于Qwen-32B-Distill轻量级SFT模型,仅仅使用200条数据,复现了接近QwQ-32B模型的效果。  


吴翼分享AReaL和强化学习训练


Highlights 1 

强化学习系统的重要性与挑战


强化学习在模型开发中扮演关键角色,例如通过人类反馈对齐模型输出、训练推理模型等。然而,构建强化学习系统面临诸多挑战,如与传统监督学习系统相比,强化学习系统涉及多个模型、环境、模块间通信,数据生成是动态的,算法不断变化,需要可扩展且灵活的系统来支持不同的强化学习算法。


Highlights 2 

针对人类反馈强化学习的系统优化


以PPO算法为例,人类反馈强化学习需要四种不同的逻辑模型(演员、评论家、奖励、参考模型),每种模型都需要不同的GPU分配和计算策略。此外,生成阶段、推理阶段和训练阶段的计算任务不同,需要不同的并行化策略。为此,AReaL小组提出了一个名为REAL-HF的系统,通过动态调整GPU分配和并行策略,优化训练过程,显著提高了训练速度。


Highlights 3 

推理模型强化训练的系统构建


从聊天机器人到推理模型的转变带来了新的挑战。推理模型的输出长度极长(如16k到32k),且在训练过程中输出长度不断变化,这给GPU资源分配和训练效率带来了难题。AReaL小组通过优化推理阶段的奖励计算(利用CPU集群)、采用专用的长文本生成引擎以及在训练阶段智能地打包不同长度的输出,解决了长输出问题,提高了训练效率。


Highlights 4 

AReaL项目进展与未来规划


AReaL是国内第一个完全开源的强化学习训练框架,提供了开源代码、数据和训练脚本,保证了可复现性,并且在性能上达到了行业领先水平。AReaL已经发布了多个版本,计划在未来一个月内发布性能更优的版本。AReaL还提供了低成本的训练方案,鼓励社区参与并尝试不同规模的模型训练。 


欢迎大家用AReaL来复现。BTW,AReaL正在招人。开源地址👇

https://github.com/inclusionAI/AReaL 


🚀 AWorld拿到GAIA基础测评完全开源项目的第一


AWorld是我们今年2月在InclusionAI开源的多智能体框架,愿景是帮助大家轻松构建自己的AI助手,让智能体从理论走向生产力工具。就在昨天,它在GAIA基准测试中取得了69.7分的成绩,位居整体榜单第三、完全开源项目第一,在Level1&2的测试中达到SOTA水平。顾进杰分享了一些智能体产业观察和手搓AWorld经验。


顾进杰介绍AWorld相关工作


Highlights 1 

多智能体是未来发展方向


从2025年初开始,行业对AI助手的需求呈指数级增长,OpenAI Operator,Deep Research,Manus,GenSpark,Google AgentSpace等项目的出现,都体现了这一趋势。未来,AI将更多地用于解决现实世界的问题,而不仅仅是通过考试或基准测试,强调团队协作而非单一的超级智能体/多智能体系统将成为未来的发展方向。 


Highlights 2 

AWorld设计理念与优势


AWorld以“简洁”为设计原则,将智能体定义为模型使用工具,并通过动态规划和工具集成来提高性能。它支持三种工具集成方式:直接工具、MCP服务器和智能体工具。此外,AWorld还提供了两种智能体通信原型(Handoff和Swarm),以支持复杂的多智能体协同。


Highlights 3 

GAIA基准测试的启示


在GAIA基准测试中,AWorld表现出色,尤其是在动态规划方面。动态规划比静态工作流更适合处理复杂任务,能够更好地应对现实世界中的不确定性。此外,MCP服务器的使用显著提高了工具的效率和可靠性,这表明未来智能体系统需要能够高效学习和掌握更多样化的工具。


Highlights 4  

未来发展方向与社区合作


AWorld的未来发展将集中在与AReaL强化学习框架的深度整合,以实现智能体在多样化环境中的训练和优化,计划在今年5月发布更多基于多智能体的测试集,并在6月推出增强的智能体训练功能。AWorld非常重视和开源社区合作,欢迎大家参与贡献代码、分享想法或报告问题,共同推动智能体技术的发展。


BTW,他们也在招人,欢迎大家关注。开源地址👇

https://github.com/inclusionAI/AWorld 






大家如果对上面两个项目感兴趣,欢迎后台砸简历。我们会转发给吴翼和顾进杰!


【声明】内容源于网络
0
0
蚂蚁技术AntTech
科技是蚂蚁创造未来的核心动力
内容 1081
粉丝 0
蚂蚁技术AntTech 科技是蚂蚁创造未来的核心动力
总阅读197
粉丝0
内容1.1k