大数跨境

元龙科普丨当 AI 学会 “边学边练”:LUFFY 如何实现推理能力的跨越式提升

元龙科普丨当 AI 学会 “边学边练”:LUFFY 如何实现推理能力的跨越式提升 元龙数字智能科技
2025-05-06
3



- 元龙科普 -

当 AI 学会

“边学边练”

LUFFY如何实现推理能力的跨越式提升


在人工智能的发展进程中,如何让模型兼具高效学习经验和自主探索的能力,始终是研究者们亟待攻克的关键难题。上海人工智能实验室携手西湖大学、南京大学以及香港中文大学,推出全新强化学习范式**LUFFY(Learning to reason Under oFF-policY guidance)**,凭借创新地融合离策略示范与在线探索,为这一挑战带来了突破性的解决方案。

当前主流的大模型推理训练方法存在两种极端情况。模仿学习(SFT)如同直接“看答案抄题”,通过复制专家轨迹实现快速学习,可一旦面对新题型,便因缺乏泛化能力而难以应对。而强化学习(Zero-RL)则是依赖模型不断自我试错,虽具备一定的环境适应能力,但效率低,起点策略弱时还容易陷入局部最优。

这两种方法的根本矛盾,在于知识传递与自主创新难以达到平衡,而LUFFY的出现,正是为打破这种二元对立,让模型既能借鉴高手经验,又能保持自主探索。

LUFFY的核心在于在强化学习框架中引入离策略指导,利用更强模型或人类专家的推理轨迹作为引导,同时不放弃模型自身的探索。这种训练模式类似学生在课堂学习经典例题后,通过课后练习巩固和拓展知识。训练时,LUFFY混合使用在线推理轨迹与离线示范轨迹,前者是模型基于当前策略生成的解题过程,展现其自主探索能力;后者来自“大师级”模型的高质量解题路径,提供可借鉴的推理模式。当模型推理失败时,会优先学习示范中的关键步骤;表现优异时,则坚持独立探索,避免盲目试错和模式固化。

在技术实现上,LUFFY基于GRPO算法框架,提出混合策略训练与策略塑形两大创新机制。混合策略训练将离策略示范与在线轨迹结合,在每一轮训练中,模型同时利用自身轨迹和专家示范计算优势函数,动态调整策略。外部示范的高奖励信号提供参考,自身轨迹保留个性化探索空间。策略塑形函数则通过非线性加权,强化对低概率关键动作的学习,放大那些出现概率低但对成功至关重要的行动的梯度响应,避免模型机械模仿,同时有效缓解传统方法中常见的熵崩塌问题,保持模型的随机探索能力。

多项实验充分验证了LUFFY的卓越性能。在六项高难度数学推理基准测试中,LUFFY平均准确率达49.6%,较现有Zero-RL方法提升7.0个百分点;在AIME 2024、AMC等竞赛级任务中,比纯模仿的SFT模型准确率高出10个百分点以上。在分布外任务中,LUFFY同样表现优异,在ARC-c、GPQA-diamond等测试集上,平均准确率达57.8%。此外,LUFFY的推理路径更短,效率更高,在调高探索强度时性能依然稳定,远超SFT模型。

LUFFY的意义不仅在于数学推理领域的突破,更为通用智能体训练开辟了新思路。其融合外部知识与自主探索的框架,有望拓展到代码生成、科学问答、自动规划等复杂任务,助力构建更具适应性和创造性的AI系统。目前,LUFFY已在GitHub开源,随着算法优化和硬件升级,未来它将推动AI从“模式匹配”迈向“深度推理”,为解决人类级难题提供强大助力。

LUFFY开启了强化学习“边学边练”的新篇章,打破了“模仿”与“探索”的界限,让模型真正实现“学以致用”。这种训练范式不仅是AI推理能力提升的新路径,也为理解人类学习机制带来启示。随着技术不断发展,LUFFY极有可能成为构建通用、自主人工智能系统的重要基石 。如果你对LUFFY在其他领域的应用感兴趣,或是想了解更多技术细节,欢迎随时和我分享你的想法。 


元龙科技AIGC,365元畅学AI入门

福利一:年卡会员特惠来袭,365 元畅享整年知识福利,赠价值 1000 元的 AI 人工智能通识 3 天线下培训,专业讲师助您入门前沿技术。

福利二:4980 元拿下工信部 AIGC 专业级资格证,含 120 节精研课程包,覆盖知识要点,另赠千元 3 天线下培训,线上线下结合,助您抢占职业先机。


别犹豫啦,速来开启人工智能学习之旅!

培训地点 :

山西省运城市好课堂乐学广场4楼路演大厅

咨询电话:

4001188556/17703590976



END

【声明】内容源于网络
0
0
元龙数字智能科技
永做第一 使命第一 向善第一
内容 901
粉丝 0
元龙数字智能科技 永做第一 使命第一 向善第一
总阅读2.6k
粉丝0
内容901