元龙科普丨当 AI 学会 “边学边练”：LUFFY 如何实现推理能力的跨越式提升- 大数跨境

首页

元龙科普丨当 AI 学会 “边学边练”：LUFFY 如何实现推理能力的跨越式提升

元龙数字智能科技

2025-05-06

- 元龙科普 -

当 AI 学会

“边学边练”

LUFFY如何实现推理能力的跨越式提升

在人工智能的发展进程中，如何让模型兼具高效学习经验和自主探索的能力，始终是研究者们亟待攻克的关键难题。上海人工智能实验室携手西湖大学、南京大学以及香港中文大学，推出全新强化学习范式**LUFFY（Learning to reason Under oFF-policY guidance）**，凭借创新地融合离策略示范与在线探索，为这一挑战带来了突破性的解决方案。

当前主流的大模型推理训练方法存在两种极端情况。模仿学习（SFT）如同直接“看答案抄题”，通过复制专家轨迹实现快速学习，可一旦面对新题型，便因缺乏泛化能力而难以应对。而强化学习（Zero-RL）则是依赖模型不断自我试错，虽具备一定的环境适应能力，但效率低，起点策略弱时还容易陷入局部最优。

这两种方法的根本矛盾，在于知识传递与自主创新难以达到平衡，而LUFFY的出现，正是为打破这种二元对立，让模型既能借鉴高手经验，又能保持自主探索。

LUFFY的核心在于在强化学习框架中引入离策略指导，利用更强模型或人类专家的推理轨迹作为引导，同时不放弃模型自身的探索。这种训练模式类似学生在课堂学习经典例题后，通过课后练习巩固和拓展知识。训练时，LUFFY混合使用在线推理轨迹与离线示范轨迹，前者是模型基于当前策略生成的解题过程，展现其自主探索能力；后者来自“大师级”模型的高质量解题路径，提供可借鉴的推理模式。当模型推理失败时，会优先学习示范中的关键步骤；表现优异时，则坚持独立探索，避免盲目试错和模式固化。

在技术实现上，LUFFY基于GRPO算法框架，提出混合策略训练与策略塑形两大创新机制。混合策略训练将离策略示范与在线轨迹结合，在每一轮训练中，模型同时利用自身轨迹和专家示范计算优势函数，动态调整策略。外部示范的高奖励信号提供参考，自身轨迹保留个性化探索空间。策略塑形函数则通过非线性加权，强化对低概率关键动作的学习，放大那些出现概率低但对成功至关重要的行动的梯度响应，避免模型机械模仿，同时有效缓解传统方法中常见的熵崩塌问题，保持模型的随机探索能力。

多项实验充分验证了LUFFY的卓越性能。在六项高难度数学推理基准测试中，LUFFY平均准确率达49.6%，较现有Zero-RL方法提升7.0个百分点；在AIME 2024、AMC等竞赛级任务中，比纯模仿的SFT模型准确率高出10个百分点以上。在分布外任务中，LUFFY同样表现优异，在ARC-c、GPQA-diamond等测试集上，平均准确率达57.8%。此外，LUFFY的推理路径更短，效率更高，在调高探索强度时性能依然稳定，远超SFT模型。

LUFFY的意义不仅在于数学推理领域的突破，更为通用智能体训练开辟了新思路。其融合外部知识与自主探索的框架，有望拓展到代码生成、科学问答、自动规划等复杂任务，助力构建更具适应性和创造性的AI系统。目前，LUFFY已在GitHub开源，随着算法优化和硬件升级，未来它将推动AI从“模式匹配”迈向“深度推理”，为解决人类级难题提供强大助力。

LUFFY开启了强化学习“边学边练”的新篇章，打破了“模仿”与“探索”的界限，让模型真正实现“学以致用”。这种训练范式不仅是AI推理能力提升的新路径，也为理解人类学习机制带来启示。随着技术不断发展，LUFFY极有可能成为构建通用、自主人工智能系统的重要基石。如果你对LUFFY在其他领域的应用感兴趣，或是想了解更多技术细节，欢迎随时和我分享你的想法。