

数据枯竭正成为AI发展的新瓶颈!CMU团队提出革命性方案SRT:让LLM实现无需人类标注的自我进化!SRT初期就能迭代提升数学与推理能力,甚至性能逼近传统强化学习的效果,揭示了其颠覆性潜力。
自奖励训练:AI自我修行秘籍
-
对每个提示采样生成多个答案; -
根据解析出的最终解决方案对答案进行分组; -
用最常见的解决方案(众数)来估计真实答案。
自进化方法SRT
-
采样一小批提示,然后用当前模型为每个提示生成n个可能的答案。 -
通过「多数投票」的方式,找出每个提示下最常见的答案,作为临时的「标准答案」(伪标签)。 -
检查每个生成答案是否与多数投票的答案一致,如果一致就给它一个奖励(用公式表示为:r(y) = 1[answer(y) = y_majority])。 -
根据这批数据和计算出的奖励,更新一次模型,让它变得更聪明。
-
提出了一种简单而有效的自训练强化学习方法——自奖励训练(SRT)。该方法利用多个模型生成解之间的一致性来估计强化学习训练中的正确性,在没有标记数据的情况下提供自监督信号。 -
通过实验证明,在早期训练阶段,SRT的性能可媲美使用标准答案训练的标准强化学习方法。 -
分析了自生成奖励的局限性,揭示了模型的奖励函数最初与正确性相关,但可能会退化为仅反映置信度而非真实准确性,导致奖励作弊问题。 -
提出了缓解奖励作弊的策略,为未来持续模型改进的方法奠定了基础。
实验结果
-
与基于真实标记的标准强化学习方法相比,SRT算法的有效性如何?对未见问题可以实现泛化吗? -
自我改进能否持续迭代从而实现性能的不断提升?抑或这种改进存在固有上限? -
哪些底层因素会影响自我改进的有效性? -
当SRT用于测试阶段的性能提升时,实际效果如何?
基于多数投票的自训练
SRT性能峰值后,异常现象分析
测试时自改进

为何测试时训练不会引发性能崩溃?
大模型崩溃,可以避免吗?
-
早停(Early Stopping)策略:利用少量带标注的验证数据集监测模型状态,及时终止训练以防止崩溃; -
算法策略:通过采用稳定基模型(而非持续更新的模型)生成的伪标记,从根本上降低崩溃风险; -
数据驱动的课程学习(Curriculum Learning)策略:突破简单早停的局限,通过渐进式学习机制提升模型性能。
早停策略
算法策略
课程学习策略
-
基模型通过率(需真实标记) -
多数表决频率(无需真实标记)
来源:新智元报道
声明:此公号(ID:Fintech_Education)发布内容和图片的目的在于传播更多信息,版权归原作者所有,不为商业用途,如有侵犯,敬请作者与我们联系。

