极市导读
一项新的研究挑战了关于强化学习(RL)在大型语言模型(LLMs)中只能“重新排序”而非学习新技能的传统观点。通过精心设计的实验,研究者们展示了RL实际上能够教会模型如何将已有技能组合成解决更复杂问题的“元技能”。这项发现不仅为RL在LLMs中的应用提供了新的理论支持,也为未来的模型训练提供了实用的指导方针。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
近年来,大型语言模型(LLMs)的发展日新月异,但一个核心问题始终困扰着研究者与从业者:除了通过预测下一个词(Next-Token Prediction, NTP)学习知识外,模型能否通过强化学习(RL)真正学会新的、前所未有的技能? 许多现有研究给出了悲观的答案,认为RL更多是“重新排序”模型已有的输出,而非传授新能力。它们的证据往往是:经过RL调优的模型,其pass@k性能(即采样k次后能通过任务的概率)与基础模型相比,差距随着k增大而缩小。这被解读为RL没有带来新能力,只是让模型更“自信”地输出它本来就会的东西。
-
博客:From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones -
链接:https://husky-morocco-f72.notion.site/From-f-x-and-g-x-to-f-g-x-LLMs-Learn-New-Skills-in-RL-by-Composing-Old-Ones-2499aba4486f802c8108e76a12af3020
这篇博客文章,对这一主流观点发起了强有力的挑战。作者们通过一个设计精巧、控制严格的实验证明:只要训练任务设计得当,RL确实能教会LLMs一项全新的、强大的“元技能”——如何将已有的原子技能(Atomic Skills)组合(Compose)起来,以解决更复杂的组合性问题(Compositional Problems)。 更重要的是,这项技能不仅能够泛化到远比训练数据复杂的任务上,甚至还能迁移到完全不同的新任务中。
这项研究不仅澄清了学术上的争议,更为LLM的训练范式提供了极具实用价值的指导:先通过广泛的预训练/SFT打下坚实的原子技能基础,再通过针对性的组合性RL训练解锁强大的组合推理能力。这是一种高效且可扩展的模型能力提升路径。
01 研究动机与核心假设
现有研究的局限
作者指出,先前得出“RL不教新技能”结论的研究存在两个主要问题:
-
模糊的技能定义: “技能”一词没有被清晰界定。许多研究用“某些推理模式的频率”或“下游任务的pass@k分数”作为代理指标(proxy),但这些指标无法精确衡量一个模型是否学会了_全新的_推理策略。 -
粗糙的评估指标: 在基础模型已经表现不错的任务上,整体的pass@k分数很容易被“平均掉”。即使模型学会了新东西,如果其他技能仍是瓶颈,或者新技能在简单问题上无用武之地,那么在整体指标上就可能无法体现。
核心假设——RL组合性假设:
受人类学习过程的启发(先学基础知识,再组合运用),作者提出了一个清晰且可验证的假设:
一旦一个模型通过NTP训练获得了解决某个任务所必需的、不可再分的原子技能,那么只要给予适当的激励(incentivization),RL就能够使模型将这些原子技能组合成更复杂的能力。
这个假设将“新技能”明确定义为组合已有技能的“元能力”,而非一个全新的、孤立的技能。这为后续的实验设计奠定了基石。
02 实验
为了干净地验证上述假设,作者设计了一个名为“字符串转换预测(String Transformation Prediction)”的合成任务。这个任务就像一个精心设计的“显微镜”,能让我们清晰地观察RL到底做了什么。
任务设计原则
-
原子技能明确 (Well-defined Atomic Skills): 任务由一系列独特的字符串处理函数(如
func_1,func_2...)构成。每个函数都是一个原子技能,例如去除重复字符、反转字符串等。模型学习每个函数各自的功能。
一个字符串转换函数的示例及其调用 -
难度可控 (Controllable Difficulty): 任务的复杂性可以通过函数的“嵌套层数(Level)”来控制。
-
Level 1: func_16('abc')(单一函数) -
Level 2: func_16(func_15('abc'))(两层嵌套) -
Level 3: func_16(func_15(func_2('abc')))(三层嵌套) -
...最高可到Level 6。 -
去污染 (Decontamination): 所有这些函数和名称都是作者全新编造的,确保了在LLM的预训练数据中不可能出现过,从而排除了模型“回忆”而非“学习”的可能性。
训练框架
实验分为两个关键阶段:
-
阶段1: 原子技能训练 (Atomic Skill Training - RFT): 使用监督微调(RFT, Reinforced Fine-Tuning,在此语境下可理解为一种细致的SFT),让模型学习每个原子函数的功能。在此阶段,模型可以看到完整的函数定义。
-
阶段2: 组合技能训练 (Compositional Skill Training - RFT vs. RL): 这是整个实验的精髓。在此阶段,函数定义被隐藏,模型只能看到函数名和输入(如
func_2(func_16(x)))。它必须依靠在阶段1内化的知识来进行推理。 -
在此设置下,作者用两种方法训练模型:
-
RFT (基线): 直接给模型看组合问题的正确推理过程,让它模仿。 -
RL (实验组): 模型自己生成回答,只根据最终答案的对错获得一个二值奖励(对/错),然后用GRPO算法进行更新。
这种设计完美地隔离了变量:阶段2的模型无法获得新的原子知识,任何性能提升都必须归因于学会了如何组合。
03 发现与分析
发现一:RL在激励组合时,能教会模型可泛化的组合能力
作者首先尝试只用在Level 1问题(原子问题)上收集的RL数据训练模型。
结果所示,模型在Level 1上的准确率飙升到近90%,但在需要组合的Level 2-6任务上表现依然糟糕。这说明仅学习原子技能,不足以让模型自发学会组合它们。
关键的转折来了。当作者在RL训练数据中加入一点点“组合的种子”——仅仅是Level 2的问题(两层嵌套)——后,奇迹发生了。
用“Level 1+2”数据训练的模型,其能力发生了质的飞跃。它不仅能解决Level 2的问题,更重要的是,它竟然能泛化到从未见过的、更复杂的Level 3、4、5问题! 模型没有简单地记忆训练数据,而是学会了“组合推理”这一抽象概念。这强有力地证明了RL在适当的激励下,可以教会模型全新的、可泛化的元技能。
发现二:RL是关键因素,而非仅仅是数据
一个自然的质疑是:性能提升是不是仅仅因为训练数据(Level 2)更接近测试数据(Level 3+),而不是RL的功劳?如果用监督学习(RFT)同样训练Level 2数据,结果会怎样?
作者对此进行了严格的对比实验。使用RFT在Level 2数据上迭代训练,模型性能几乎没有持续提升,最终效果与第一次迭代相差无几。而RL训练的模型则在所有问题上都取得了显著更高的性能。这表明,仅仅是“看到”组合的范例是不够的,RL提供的“试错-奖励”信号才是学会稳健、可泛化的组合技能的关键 ingredient(关键成分)。
发现三:组合技能在具备原子技能的前提下可迁移至其他任务
既然组合技能可以学会,那它能迁移吗?比如,在“字符串转换”任务上学到的组合能力,能用来解决“数学计算”任务吗? 为了测试这一点,作者引入了一个全新的任务“Countdown”(一个合成推理任务)。他们比较了四个模型:
-
String-Base + RL: 只在字符串任务上学过组合,对Countdown一无所知。 -
Multi-Base: 通过SFT学习了字符串和Countdown的原子技能,但没经过任何RL。 -
Multi-Base + RL (Level 1): 在Multi-Base基础上,用字符串的原子(Level 1)数据做RL。 -
Multi-Base + RL (Level 1+2): 在Multi-Base基础上,用字符串的组合(Level 1+2)数据做RL。
结果所示:
-
模型1完全失败,证明没有原子技能,空有组合技能也无用武之地。 -
模型2(SFT-only)有一定基础能力。 -
模型3相比模型2只有微弱提升,说明原子技能的RL帮助不大。 -
模型4表现最佳,显著领先于其他模型。这表明在字符串任务上学到的组合技能成功迁移到了Countdown任务上,帮助模型更好地组合运用它在Countdown上的原子知识。
启示: 这解释了为什么有些研究能观察到RL带来跨任务的泛化提升(例如在逻辑谜题上训练后数学能力变好)。很可能是因为现代LLM在预训练中已经学到了大量领域的原子技能(数学、代码、科学等),而RL只是教会了它如何更好地组合运用这些已有技能。
发现四:RL提升能力上限并非虚假承诺(对pass@k争议的回应)
现在,让我们回到最初的争议:pass@k指标。 作者没有笼统地计算整个测试集的pass@k,而是按问题难度(Level)分层计算。
结果非常震撼:
-
在简单问题(Level 1-2) 上,基础模型本身就不错,RL模型和基础模型的pass@k差距随着k增大而缩小。如果只看这里,的确会得出“RL仅重新排序”的结论。 -
然而,在复杂问题(Level 3-6) 上,情况截然不同!RL模型和基础模型的性能差距不仅巨大,而且随着k增大还在不断拉大。这 unequivocally(明确地)证明,RL模型学会了一项基础模型根本不具备的新技能,以至于即使采样1000次,基础模型也无法达到RL模型的水平。
这个实验清晰地表明,在基础模型本就擅长的任务上评估,会严重低估RL带来的真正的新能力。 必须到更困难、更需要新技能的领域去检验RL的价值。
发现五:行为分析表明RL从根本上改变了模型的推理模式
最后,作者深入分析了模型的“失败模式”。他们让另一个大模型(Gemini)来分类不同模型在Level 3问题上的错误类型,例如:“完全忽略组合”、“组合关系理解错误”、“原子计算错误”等。
分析结果极具启发性:
-
基础模型 (RFT Base)、RFT Level 2 模型、RL Level 1 模型的失败模式惊人地相似:主要失败在“忽略组合”和“错误组合”上。这意味着它们根本没有意识到这是一个需要组合解决的问题,或者无法正确解析嵌套结构。 -
RL Level 2 模型的失败模式则发生了根本性转变:它完全解决了“忽略组合”的问题,其主要错误变成了“原子计算错误”。也就是说,它成功学会了解析组合结构,它的失败更多是执行原子技能时出了错,而不是不会组合。
这项分析强有力地证明,RL没有简单地让模型“更准确”,而是彻底改变了它解决组合性问题的心智模型(Mental Model)和推理行为。
04 讨论
这项研究挑战了“RL仅重新排序”的片面观点,揭示了RL在教授可泛化、可迁移的组合性元技能方面的巨大潜力。
成功的关键条件:
-
坚实的原子技能基础: 模型必须首先通过NTP/SFT熟练掌握完成任务所需的各个原子技能。这是组合的“砖块”。 -
适当的激励(Incentivization): RL训练任务必须包含需要组合才能解决的“种子”问题(如Level 2),以激励模型去学习“组合”这一策略。
对模型开发实践的指导: 这项工作提出了一个非常实用且高效的模型能力提升范式:
-
首先,广泛预训练/SFT: 不惜代价地让模型通过海量数据学习尽可能多的、广泛的原子技能。这一步的数据收集相对容易。 -
然后, targeted RL: 只需在少数几个任务上精心设计需要组合技能的RL训练,来教会模型“如何组合”这一元技能。这项元技能一旦学会,就能迁移到其他已有原子基础的领域。
这意味着,我们不必为每个新任务都耗费巨资收集RL数据,而应优先投资于打下宽广的原子知识基础。
05 结论
这篇博客通过一个设计精妙的控制实验,提供了令人信服的证据,证明大型语言模型完全可以通过强化学习学会新的、可泛化、可迁移的组合性技能,从而解决了该领域的一个重要争议。
-
它明确了RL教授新技能的具体条件(原子技能+组合激励),并设计了严谨的实验加以验证;它澄清了关于pass@k指标的误解,指出了正确评估RL新技能的方法;它通过行为分析揭示了RL如何从根本上改变模型的推理模式;最后,它提出了一个极具实践价值的模型开发范式。 -
这项工作不仅增进了我们对LLM学习机制的理解,也为未来如何更有效地通过RL解锁模型潜力指明了方向。它告诉我们,RL的价值远不止于对齐(Alignment)和风格调整,它可以是提升模型核心推理能力的强大工具。 -
未来的研究可以探索如何在更开放、更复杂的任务中激发和利用这种组合性学习;研究如何更好地评估模型在不同粒度上的技能;以及如何将这一范式应用于解决更多的现实世界问题。
总之,这项研究成功地论证了,通过RL,我们可以教会模型如何将已知的f(x)和g(x),组合成强大的f(g(x)),从而解决前所未有的复杂挑战。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

