

AI数学能力暴涨100%，自进化直逼RL极限！CMU新作颠覆认知

金融科技教育网

2025-06-02

数据枯竭正成为AI发展的新瓶颈！CMU团队提出革命性方案SRT：让LLM实现无需人类标注的自我进化！SRT初期就能迭代提升数学与推理能力，甚至性能逼近传统强化学习的效果，揭示了其颠覆性潜力。

通往AGI最大的绊脚石，便是互联网数据不够用了！

DeepSeek-R1、OpenAI的o系推理模型出世，不再单纯依赖人类标注「标准答案」，而是通过RL实现破局。

但问题来了——当前，LLM依然需要人类设计「正确信号」来指导训练。

如果问题复杂到人类都不知道答案，这些AI就只能抓瞎了。

为此，CMU联手独立研究员推出一套「自奖励训练」（SRT）的全新方法，堪称AI「自我修行」的秘籍！

论文地址：https://arxiv.org/pdf/2505.21444

它的核心思路是，让LLM利用自身「自洽性」作为内在的监督信号，生成奖励来优化自己。

简单来说，AI会像一个哲学家，盯着自己的答案自问：这个推导逻辑自洽吗？有没有漏洞？

然后，它会根据答案「自洽程度」给自己打分，再用分数去不断改进。

关键是，SRT完全不需要人类标注的数据，可以自然地应用于「测试时训练」。

实验结果让人眼前一亮：在早期训练阶段，SRT的性能与标准答案训练RL方法相媲美。

目前，研究团队的代码已公开。

地址：https://github.com/tajwarfahim/srt

自奖励训练：AI自我修行秘籍

在没有外部监督的情况下，模型需要依靠自身来生成监督信号。

直观来说，如果模型能够在其生成的多个答案中识别出更高质量的答案，那么这种识别出的改进就可以作为训练信号。

这种情况自然地发生在具有正向「生成-验证差距」的问题中，比如数学、逻辑推理和代码生成任务。

一种简单但有效的方法是利用多数投票来挖掘这种差距。实验表明，这比单个模型生成的答案有更高的准确性。

在本文的设置中，多数投票的步骤包括：

对每个提示采样生成多个答案；
根据解析出的最终解决方案对答案进行分组；
用最常见的解决方案（众数）来估计真实答案。

自进化方法SRT

研究团队提出了一种新颖的方法，把模型的自我改进过程设计成一个强化学习任务。

在这个过程中，标签并不是固定的，而是由模型不断演变的多数投票结果动态生成的。

简单来说，就是让模型自己「投票」选出最好的答案，并用这些答案作为指导，逐步提升自己的表现。

强化学习的每一轮操作可以简单理解为以下步骤：

采样一小批提示，然后用当前模型为每个提示生成n个可能的答案。
通过「多数投票」的方式，找出每个提示下最常见的答案，作为临时的「标准答案」（伪标签）。
检查每个生成答案是否与多数投票的答案一致，如果一致就给它一个奖励（用公式表示为：r(y) = 1[answer(y) = y_majority]）。
根据这批数据和计算出的奖励，更新一次模型，让它变得更聪明。

具体来说，研究团队设计了一种奖励机制，巧妙利用模型自洽性来定义奖励方式。这使得他们的方法能轻松适配常见的强化学习算法，比如PPO、RLOO、REINFORCE和REINFORCE+++。

另外，由于每个问题提示通常会生成16到64个答案，SRT跟其他基于标签的算法相比，不会增加额外的计算负担。

只要每次强化学习迭代时，多数投票都能让模型的生成结果比验证结果更好一点，这种反复的自我奖励就能持续提供有用的指导信号，帮助模型不断进步。

虽然模型自我改进的前景令人振奋，但仍然有局限性：模型自生成的奖励仅仅是衡量潜在正确性的代用指标。

这种代用奖励可能触发「奖励作弊」（reward hacking）：模型为了最大化自身赋予的奖励，会产出越来越自洽却可能并不正确的答案。

总的来说，这项研究的贡献有以下四点：

提出了一种简单而有效的自训练强化学习方法——自奖励训练（SRT）。该方法利用多个模型生成解之间的一致性来估计强化学习训练中的正确性，在没有标记数据的情况下提供自监督信号。
通过实验证明，在早期训练阶段，SRT的性能可媲美使用标准答案训练的标准强化学习方法。
分析了自生成奖励的局限性，揭示了模型的奖励函数最初与正确性相关，但可能会退化为仅反映置信度而非真实准确性，导致奖励作弊问题。
提出了缓解奖励作弊的策略，为未来持续模型改进的方法奠定了基础。

实验结果

最新提出的SRT算法，其优势和局限是什么？

为此，研究人员基于Qwen2.5-Math-7B模型，展开了一系列研究，具体回答了以下四大核心问题：

与基于真实标记的标准强化学习方法相比，SRT算法的有效性如何？对未见问题可以实现泛化吗？
自我改进能否持续迭代从而实现性能的不断提升？抑或这种改进存在固有上限？
哪些底层因素会影响自我改进的有效性？
当SRT用于测试阶段的性能提升时，实际效果如何？

基于多数投票的自训练

如下图2所示，在MATH和AIME训练集上，自监督SRT方法无需真实标记信号，即可取得与基于真实标记的强化学习相当的结果。

值得注意的是，图2的pass@1分数均是在保留测试集上评估的，这表明自训练过程能稳健地泛化到训练分布之外。

然而，DAPO数据集上的结果更为复杂。

具体而言，在DAPO上训练时，研究人员发现SRT算法在测试集上的性能，最初以与基于真实答案的标准RL相当的速度提升。

但在约400-600训练步时，SRT达到峰值性能后开始下降，而基于真实标记的标准RL训练却能持续提升。

总体而言，研究发现了一个引人注目且出人意料的趋势：即使没有任何标注样本，SRT的性能曲线在训练初期与基于标准答案的RL高度吻合。

在统计误差范围内，SRT在MATH和AIME'83-AIME'23数据集上的峰值测试pass@1分数与有监督RL方法基本持平。

在更具挑战性的DAPO数据集上，SRT仍能达到RL最终性能的75%。

此外，在所有三个训练集上，SRT的峰值性能相比基础模型都有约100%的相对提升。

SRT性能峰值后，异常现象分析

当SRT在DAPO训练集上达到性能峰值后（见图2），研究人员观察到其测试准确率开始显著恶化。

事实上，在MATH-12k数据集上训练超过两个epoch时，同样会出现明显的性能崩溃现象。

对于这种行为，作者给出一个简单而精确的理论解释：

由SRT目标定义的强化学习优化问题明确鼓励输出之间的一致性，而与正确性无关。

因此，在该目标下的最优策略是无论输入如何都生成完全相同的响应，从而人为地获得最大可能的奖励。

因此，自然可以预期，在这种代理目标下的持续训练可能导致这种退化解，尤其是当优化这一目标比学习解决实际任务更容易时。

测试时自改进

自训练的一个诱人应用，是通过测试时训练（test-time training）提升模型准确率。

将SRT作为测试时训练技术应用异常简单：只需将无标注测试集完全视作训练数据集，并直接应用SRT。

接下来，研究人员对比了经过SRT测试时训练后的多数投票性能，与未进行任何测试时训练的性能。

如下图4显示，在maj@32指标下，相比直接对基础模型生成输出应用主流多数投票基线，通过SRR实现的测试时训练能带来相对有限，但仍可察觉的性能提升。

此外，在更大规模的测试数据集上，相较于基础模型的多数投票，其性能增益更为显著。

为何测试时训练不会引发性能崩溃？

有趣的是，测试时训练完成后，通过直观检查模型输出可发现：尽管模型对几乎每个测试提示的预测都退化成了单一响应（这正是SRT目标的最优解行为），但测试准确率仍保持高位。

研究人员推测，测试时自训练的稳定性源于数据集规模的关键差异。

以AIME24测试数据集为例，其仅含30个自改进样本。

在此有限样本量下，模型会通过强化特定CoT推，迅速收敛至这些样本上的稳定多数投票答案。

一旦达成收敛，SRT便无法获得有意义的梯度信号以进一步更新参数，从而自然稳定了测试时性能。

相比之下，在大规模数据集常规训练时，持续输入的新样本会不断驱使模型为一致性进行过度优化。

在此条件下，模型倾向于采用过度简化的泛化策略（生成相同的\boxed{}答案），最终因输出与提示无关的单一预测而崩溃。

大模型崩溃，可以避免吗？

那么，LLM是否可以避免崩溃？

如上所述，自奖励训练（SRT）的优化目标，可能导致初期性能显著提升，但最终引发模型崩溃。

为此，研究人员探究了以下互补策略，以应对模型崩溃问题，进一步提升自训练性能上限：

早停（Early Stopping）策略：利用少量带标注的验证数据集监测模型状态，及时终止训练以防止崩溃；
算法策略：通过采用稳定基模型（而非持续更新的模型）生成的伪标记，从根本上降低崩溃风险；
数据驱动的课程学习（Curriculum Learning）策略：突破简单早停的局限，通过渐进式学习机制提升模型性能。

早停策略

实验中，即使仅使用少量标注验证数据，也能有效识别自训练过程中的性能峰值点，从而规避模型崩溃风险。

如图6所示，通过在DAPO数据集上持续监测训练过程并在多个测试集上进行评估，作者发现一个关键现象：

不同保留测试集上的性能峰值均出现在相近的训练步数。

这一规律表明，任意一个测试集都可用于早停决策。

具体而言，图6中的垂直虚线展示了仅使用1%的DAPO数据作为验证集的早停效果——此时模型在所有其他评估数据集上的性能仍保持接近最优水平。

算法策略

模型崩溃的根源在于SRT（自训练强化学习）过度强调一致性而非正确性——即使输出结果错误，模型间的一致性也会被持续强化。

针对此问题，研究人员提出一种简单有效的解决方案：从稳定的固定检查点（而非持续更新的策略）生成伪标记。

具体实施中，他们采用Qwen2.5-Math-7B基模型，通过多数表决机制生成伪标记，将这些离线生成的标记存储后用于后续强化学习训练。

图7显示，使用此类离线标记不仅能显著提升训练稳定性，还能达到与SRT相当的模型性能。

这一发现具有重要启示：训练过程中动态更新伪标记（在线标注）未必能带来显著优势，反而可能成为训练不稳定的诱因。

课程学习策略

此外，研究人员提出一个关键假设：模型在更具挑战性的数据集上训练时，崩溃现象会更快出现。

其内在机理在于：面对高难度数据时，模型更容易放弃预训练知识，转而通过优化自一致性（而非真正学习解决任务）来获取奖励。

基于此假设，研究人员采用课程学习，通过筛选DAPO数据集中「最简单」的子集进行训练。

具体而言，他们保留根据以下两个指标选出的前1/3最简单提示样本：

基模型通过率（需真实标记）
多数表决频率（无需真实标记）

如图8所示，在这些简单子集上训练能显著延缓奖励破解现象的出现，使模型在多个训练周期内持续提升。

值得注意的是，采用课程学习策略后，模型性能最终达到了与在整个DAPO数据集上使用真实标记进行标准强化学习训练相当的水平。

这些突破性结果表明，课程学习策略有望进一步拓展SRT的效能边界，为后续研究开辟了新的方向。

参考资料：

https://www.alphaxiv.org/overview/2505.21444

来源：新智元报道

编辑：桃子犀牛
声明：此公号（ID：Fintech_Education）发布内容和图片的目的在于传播更多信息，版权归原作者所有，不为商业用途，如有侵犯，敬请作者与我们联系。

【声明】内容源于网络

金融科技教育网

金融科技教育网主要关注如下内容：金融科技人才培养（认证课程、公开课、行业论坛、番钛客大赛、人才对接）；内容（学术前沿、创新技术）行业（金融科技、银行科技、保险科技等）；技术（人工智能、大数据、区块链、云计算、5G、物联网等）。

内容 883

粉丝 0

金融科技教育网金融科技教育网主要关注如下内容：金融科技人才培养（认证课程、公开课、行业论坛、番钛客大赛、人才对接）；内容（学术前沿、创新技术）行业（金融科技、银行科技、保险科技等）；技术（人工智能、大数据、区块链、云计算、5G、物联网等）。

总阅读569

粉丝0

内容883