

强化学习注入新活力，LLM的组合推理能力解锁新世界：性能提升90%！

极市平台

2025-09-08

↑ 点击蓝字关注极市平台

来源丨深度学习自然语言处理

编辑丨极市平台

极市导读

一项新的研究挑战了关于强化学习（RL）在大型语言模型（LLMs）中只能“重新排序”而非学习新技能的传统观点。通过精心设计的实验，研究者们展示了RL实际上能够教会模型如何将已有技能组合成解决更复杂问题的“元技能”。这项发现不仅为RL在LLMs中的应用提供了新的理论支持，也为未来的模型训练提供了实用的指导方针。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

近年来，大型语言模型（LLMs）的发展日新月异，但一个核心问题始终困扰着研究者与从业者：除了通过预测下一个词（Next-Token Prediction, NTP）学习知识外，模型能否通过强化学习（RL）真正学会新的、前所未有的技能？ 许多现有研究给出了悲观的答案，认为RL更多是“重新排序”模型已有的输出，而非传授新能力。它们的证据往往是：经过RL调优的模型，其pass@k性能（即采样k次后能通过任务的概率）与基础模型相比，差距随着k增大而缩小。这被解读为RL没有带来新能力，只是让模型更“自信”地输出它本来就会的东西。

博客：From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones
链接：https://husky-morocco-f72.notion.site/From-f-x-and-g-x-to-f-g-x-LLMs-Learn-New-Skills-in-RL-by-Composing-Old-Ones-2499aba4486f802c8108e76a12af3020

这篇博客文章，对这一主流观点发起了强有力的挑战。作者们通过一个设计精巧、控制严格的实验证明：只要训练任务设计得当，RL确实能教会LLMs一项全新的、强大的“元技能”——如何将已有的原子技能（Atomic Skills）组合（Compose）起来，以解决更复杂的组合性问题（Compositional Problems）。更重要的是，这项技能不仅能够泛化到远比训练数据复杂的任务上，甚至还能迁移到完全不同的新任务中。

这项研究不仅澄清了学术上的争议，更为LLM的训练范式提供了极具实用价值的指导：先通过广泛的预训练/SFT打下坚实的原子技能基础，再通过针对性的组合性RL训练解锁强大的组合推理能力。这是一种高效且可扩展的模型能力提升路径。

01 研究动机与核心假设

现有研究的局限

作者指出，先前得出“RL不教新技能”结论的研究存在两个主要问题：

模糊的技能定义： “技能”一词没有被清晰界定。许多研究用“某些推理模式的频率”或“下游任务的pass@k分数”作为代理指标（proxy），但这些指标无法精确衡量一个模型是否学会了_全新的_推理策略。
粗糙的评估指标： 在基础模型已经表现不错的任务上，整体的pass@k分数很容易被“平均掉”。即使模型学会了新东西，如果其他技能仍是瓶颈，或者新技能在简单问题上无用武之地，那么在整体指标上就可能无法体现。

核心假设——RL组合性假设：

受人类学习过程的启发（先学基础知识，再组合运用），作者提出了一个清晰且可验证的假设：

一旦一个模型通过NTP训练获得了解决某个任务所必需的、不可再分的原子技能，那么只要给予适当的激励（incentivization），RL就能够使模型将这些原子技能组合成更复杂的能力。

这个假设将“新技能”明确定义为组合已有技能的“元能力”，而非一个全新的、孤立的技能。这为后续的实验设计奠定了基石。

02 实验

为了干净地验证上述假设，作者设计了一个名为“字符串转换预测（String Transformation Prediction）”的合成任务。这个任务就像一个精心设计的“显微镜”，能让我们清晰地观察RL到底做了什么。

任务设计原则

原子技能明确 (Well-defined Atomic Skills)： 任务由一系列独特的字符串处理函数（如 func_1, func_2 ...）构成。每个函数都是一个原子技能，例如去除重复字符、反转字符串等。模型学习每个函数各自的功能。

一个字符串转换函数的示例及其调用
难度可控 (Controllable Difficulty)： 任务的复杂性可以通过函数的“嵌套层数（Level）”来控制。

Level 1: func_16('abc') （单一函数）
Level 2: func_16(func_15('abc')) （两层嵌套）
Level 3: func_16(func_15(func_2('abc'))) （三层嵌套）
...最高可到Level 6。

去污染 (Decontamination)： 所有这些函数和名称都是作者全新编造的，确保了在LLM的预训练数据中不可能出现过，从而排除了模型“回忆”而非“学习”的可能性。

训练框架

实验分为两个关键阶段：

阶段1: 原子技能训练 (Atomic Skill Training - RFT)： 使用监督微调（RFT, Reinforced Fine-Tuning，在此语境下可理解为一种细致的SFT），让模型学习每个原子函数的功能。在此阶段，模型可以看到完整的函数定义。
阶段2: 组合技能训练 (Compositional Skill Training - RFT vs. RL)： 这是整个实验的精髓。在此阶段，函数定义被隐藏，模型只能看到函数名和输入（如 func_2(func_16(x))）。它必须依靠在阶段1内化的知识来进行推理。

在此设置下，作者用两种方法训练模型：

RFT (基线)： 直接给模型看组合问题的正确推理过程，让它模仿。
RL (实验组)： 模型自己生成回答，只根据最终答案的对错获得一个二值奖励（对/错），然后用GRPO算法进行更新。

这种设计完美地隔离了变量：阶段2的模型无法获得新的原子知识，任何性能提升都必须归因于学会了如何组合。

03 发现与分析

发现一：RL在激励组合时，能教会模型可泛化的组合能力

作者首先尝试只用在Level 1问题（原子问题）上收集的RL数据训练模型。

结果所示，模型在Level 1上的准确率飙升到近90%，但在需要组合的Level 2-6任务上表现依然糟糕。这说明仅学习原子技能，不足以让模型自发学会组合它们。

关键的转折来了。当作者在RL训练数据中加入一点点“组合的种子”——仅仅是Level 2的问题（两层嵌套）——后，奇迹发生了。

用“Level 1+2”数据训练的模型，其能力发生了质的飞跃。它不仅能解决Level 2的问题，更重要的是，它竟然能泛化到从未见过的、更复杂的Level 3、4、5问题！ 模型没有简单地记忆训练数据，而是学会了“组合推理”这一抽象概念。这强有力地证明了RL在适当的激励下，可以教会模型全新的、可泛化的元技能。

发现二：RL是关键因素，而非仅仅是数据

一个自然的质疑是：性能提升是不是仅仅因为训练数据（Level 2）更接近测试数据（Level 3+），而不是RL的功劳？如果用监督学习（RFT）同样训练Level 2数据，结果会怎样？

作者对此进行了严格的对比实验。使用RFT在Level 2数据上迭代训练，模型性能几乎没有持续提升，最终效果与第一次迭代相差无几。而RL训练的模型则在所有问题上都取得了显著更高的性能。这表明，仅仅是“看到”组合的范例是不够的，RL提供的“试错-奖励”信号才是学会稳健、可泛化的组合技能的关键 ingredient（关键成分）。

发现三：组合技能在具备原子技能的前提下可迁移至其他任务

既然组合技能可以学会，那它能迁移吗？比如，在“字符串转换”任务上学到的组合能力，能用来解决“数学计算”任务吗？为了测试这一点，作者引入了一个全新的任务“Countdown”（一个合成推理任务）。他们比较了四个模型：

String-Base + RL: 只在字符串任务上学过组合，对Countdown一无所知。
Multi-Base: 通过SFT学习了字符串和Countdown的原子技能，但没经过任何RL。
Multi-Base + RL (Level 1): 在Multi-Base基础上，用字符串的原子(Level 1)数据做RL。
Multi-Base + RL (Level 1+2): 在Multi-Base基础上，用字符串的组合(Level 1+2)数据做RL。

结果所示：

模型1完全失败，证明没有原子技能，空有组合技能也无用武之地。
模型2（SFT-only）有一定基础能力。
模型3相比模型2只有微弱提升，说明原子技能的RL帮助不大。
模型4表现最佳，显著领先于其他模型。这表明在字符串任务上学到的组合技能成功迁移到了Countdown任务上，帮助模型更好地组合运用它在Countdown上的原子知识。

启示： 这解释了为什么有些研究能观察到RL带来跨任务的泛化提升（例如在逻辑谜题上训练后数学能力变好）。很可能是因为现代LLM在预训练中已经学到了大量领域的原子技能（数学、代码、科学等），而RL只是教会了它如何更好地组合运用这些已有技能。

发现四：RL提升能力上限并非虚假承诺（对pass@k争议的回应）

现在，让我们回到最初的争议：pass@k指标。作者没有笼统地计算整个测试集的pass@k，而是按问题难度（Level）分层计算。

结果非常震撼：

在简单问题（Level 1-2） 上，基础模型本身就不错，RL模型和基础模型的pass@k差距随着k增大而缩小。如果只看这里，的确会得出“RL仅重新排序”的结论。
然而，在复杂问题（Level 3-6） 上，情况截然不同！RL模型和基础模型的性能差距不仅巨大，而且随着k增大还在不断拉大。这 unequivocally（明确地）证明，RL模型学会了一项基础模型根本不具备的新技能，以至于即使采样1000次，基础模型也无法达到RL模型的水平。

这个实验清晰地表明，在基础模型本就擅长的任务上评估，会严重低估RL带来的真正的新能力。 必须到更困难、更需要新技能的领域去检验RL的价值。

发现五：行为分析表明RL从根本上改变了模型的推理模式

最后，作者深入分析了模型的“失败模式”。他们让另一个大模型（Gemini）来分类不同模型在Level 3问题上的错误类型，例如：“完全忽略组合”、“组合关系理解错误”、“原子计算错误”等。

分析结果极具启发性：

基础模型 (RFT Base)、RFT Level 2 模型、RL Level 1 模型的失败模式惊人地相似：主要失败在“忽略组合”和“错误组合”上。这意味着它们根本没有意识到这是一个需要组合解决的问题，或者无法正确解析嵌套结构。
RL Level 2 模型的失败模式则发生了根本性转变：它完全解决了“忽略组合”的问题，其主要错误变成了“原子计算错误”。也就是说，它成功学会了解析组合结构，它的失败更多是执行原子技能时出了错，而不是不会组合。

这项分析强有力地证明，RL没有简单地让模型“更准确”，而是彻底改变了它解决组合性问题的心智模型（Mental Model）和推理行为。

04 讨论

这项研究挑战了“RL仅重新排序”的片面观点，揭示了RL在教授可泛化、可迁移的组合性元技能方面的巨大潜力。

成功的关键条件：

坚实的原子技能基础： 模型必须首先通过NTP/SFT熟练掌握完成任务所需的各个原子技能。这是组合的“砖块”。
适当的激励（Incentivization）： RL训练任务必须包含需要组合才能解决的“种子”问题（如Level 2），以激励模型去学习“组合”这一策略。

对模型开发实践的指导： 这项工作提出了一个非常实用且高效的模型能力提升范式：

首先，广泛预训练/SFT： 不惜代价地让模型通过海量数据学习尽可能多的、广泛的原子技能。这一步的数据收集相对容易。
然后， targeted RL： 只需在少数几个任务上精心设计需要组合技能的RL训练，来教会模型“如何组合”这一元技能。这项元技能一旦学会，就能迁移到其他已有原子基础的领域。

这意味着，我们不必为每个新任务都耗费巨资收集RL数据，而应优先投资于打下宽广的原子知识基础。

05 结论

这篇博客通过一个设计精妙的控制实验，提供了令人信服的证据，证明大型语言模型完全可以通过强化学习学会新的、可泛化、可迁移的组合性技能，从而解决了该领域的一个重要争议。

它明确了RL教授新技能的具体条件（原子技能+组合激励），并设计了严谨的实验加以验证；它澄清了关于pass@k指标的误解，指出了正确评估RL新技能的方法；它通过行为分析揭示了RL如何从根本上改变模型的推理模式；最后，它提出了一个极具实践价值的模型开发范式。
这项工作不仅增进了我们对LLM学习机制的理解，也为未来如何更有效地通过RL解锁模型潜力指明了方向。它告诉我们，RL的价值远不止于对齐（Alignment）和风格调整，它可以是提升模型核心推理能力的强大工具。
未来的研究可以探索如何在更开放、更复杂的任务中激发和利用这种组合性学习；研究如何更好地评估模型在不同粒度上的技能；以及如何将这一范式应用于解决更多的现实世界问题。

总之，这项研究成功地论证了，通过RL，我们可以教会模型如何将已知的f(x)和g(x)，组合成强大的f(g(x))，从而解决前所未有的复杂挑战。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货