Next-Token预测进化史
强化预训练掀起 AI 模型训练新浪潮
在人工智能的发展历程中,不同的技术理念犹如璀璨星辰,照亮了探索智能之路。2016 年,Yann LeCun 在一次演讲中,将智能比作一块蛋糕,形象地阐述了无监督学习、监督学习和强化学习在其中的角色,他认为无监督学习是蛋糕的主体,监督学习是蛋糕上的糖霜,而强化学习则是糖霜上的樱桃,那时强化学习似乎只是锦上添花之物。但时过境迁,强化学习正逐渐展现出远超 “樱桃” 的重要性,尤其是微软的一项新研究,为强化学习开辟了一片崭新的天地,让其在模型训练的根基阶段 —— 预训练中崭露头角。
大语言模型(LLMs)凭借在海量文本语料库上对下一个 token 的预测,展现出令人惊叹的跨任务卓越能力,这种自监督范式已然成为高效的通用预训练方法。与此同时,强化学习(RL)在微调大语言模型方面发挥着关键作用,无论是让 LLM 贴合人类偏好,还是提升其复杂推理等特定技能,都离不开 RL 的助力。然而,目前 RL 在 LLM 训练中的应用却遭遇了可扩展性和通用性的双重挑战。基于人类反馈的强化学习,虽在对齐方面卓有成效,却因依赖昂贵的人类偏好数据,且奖励模型易受 reward hacking 攻击,大大限制了其可扩展性;可验证奖励的强化学习(RLVR),虽利用客观基于规则的奖励缓解了 reward hacking 问题,却因数据稀缺,难以用于通用预训练。
在此背景下,强化预训练(Reinforcement Pre - Training, RPT)这一全新范式应运而生。RPT 将传统的 next - token 预测任务进行了大胆重构,转变为 next - token 推理过程。在这个过程中,对于预训练语料中的任意上下文,模型不再是简单地预测下一个 token,而是需要在预测前对后续 Token 进行深入推理,然后通过与语料中真实的 next - token 进行比对,获取可验证的内在奖励。这一过程无需外部标注或特定领域的奖励函数,就能够将传统 next - token 预测所使用的海量无标注文本数据,巧妙转化为适用于通用强化学习的大规模训练资源。
RPT 充分挖掘了传统 next - token 预测所积累的海量无标注文本数据的潜力,无需任何外部标注,就能将这些数据转化为大规模训练数据集,用于通用强化学习,这为模型训练提供了广阔的数据基础,使其在扩展性和通用性上具有先天优势。使用直接的、基于规则的奖励信号,从本质上减少了 reward hacking 的风险。这种明确且客观的奖励机制,让模型的训练过程更加稳健,避免了因奖励机制被恶意利用而导致的训练偏差。通过明确奖励 next - token 推理范式,RPT 引导模型不再局限于简单地记住下一个 Token,而是进行更深入的理解和思考,从而实现更好的泛化能力。模型在推理过程中,能够挖掘文本背后的隐藏知识,而不仅仅是学习表面的 Token 级关联。在预训练期间,模型的内部推理过程允许为每个预测步骤分配更多的思考(计算资源),这就如同将推理时间扩展能力提前应用到训练过程中,直接提升了下一 Token 预测的准确性。这种对计算资源的合理分配,为模型的学习提供了更有力的支持。
在 Next - Token 推理范式下,长思维链包含了各种丰富的推理模式,如自我批评和自我修正等。这种推理模式将预训练语料库重构为一系列庞大的推理问题,使预训练摆脱了对表面 Token 级关联的依赖,转而深入理解文本背后的隐藏知识。RPT 采用 on - policy 强化学习的方式训练大语言模型执行 next - token 推理任务。具体而言,对于给定的上下文,提示语言模型生成 G 个响应(思维轨迹)。每个响应由一系列思维推理序列和最终预测序列组成。为了验证预测的正确性,RPT 还引入了前缀匹配奖励(prefix matching reward),通过这种方式对模型的输出进行评估和反馈,引导模型不断优化推理过程。
为验证 RPT 的实际效果,研究团队使用 OmniMATH 数据集进行强化预训练,该数据集包含 4,428 道竞赛级数学题目及答案,具有较高的难度和挑战性。实验选用 Deepseek - R1 - Distill - Qwen - 14B 作为基础模型。在不同难度级别测试集上,RPT 方法的下一个 token 预测准确性均优于标准下一个 token 预测基线和基于推理的预测基线。与 R1 - Distill - Qwen - 14B 相比,RPT - 14B 在所有难度级别上的下一个 token 预测准确率更高,甚至其性能可与更大的模型 R1 - Distill - Qwen - 32B 相媲美。这充分表明,强化预训练在捕获 token 生成背后的复杂推理信号方面行之有效,对于提升 LLM 的语言建模能力具有巨大潜力。
RPT 的下一个 token 预测准确率随着训练计算的扩大而稳步提高,所有难度级别的高 R2 值显示拟合曲线能够准确捕捉性能趋势。这意味着 RPT 具有良好的扩展性,随着计算资源的增加,模型的性能能够持续提升,为其在大规模应用中的可行性提供了有力支持。经过强化预训练的模型,在进一步使用 RLVR 进行训练时能够达到更高的性能上限。相比之下,当模型持续使用下一个 token 预测目标在相同数据上进行训练时,其推理能力会显著下降,后续的 RLVR 训练带来的性能提升也较为缓慢。这说明在数据有限的情况下,强化预训练能够快速将从 next - token 推理中学到的强化推理模式迁移到下游任务中,为模型的后续优化奠定了坚实基础。
在所有基准测试中,RPT - 14B 始终优于 R1 - Distill - Qwen - 14B,并且在 next - token 预测方面超越了规模大得多的 R1 - Distill - Qwen - 32B。这一结果表明,RPT 能够赋予模型更强的泛化能力,使其在未见过的数据上也能表现出色。RPT - 14B 的 next - token 推理过程与 R1 - Distill - Qwen - 14B 的问题解决过程存在明显差异,表明 next - token 推理引发的推理过程与结构化问题解决有着质的不同。RPT - 14B 参与的是深思熟虑的过程,而非简单的模式匹配,这进一步体现了 RPT 对模型推理能力的深度塑造。
尽管 RPT 展现出诸多优势,但作为一种全新的方法,社区对其有效性、效率和前景仍存在疑问。例如,在实际应用中,RPT 的训练过程是否会过于复杂,导致计算成本过高?其在不同领域的泛化能力是否能够持续保持?这些问题都有待进一步的研究和验证。但无论如何,RPT 的出现为语言模型预训练的发展开辟了新的道路,就像在黑暗中点亮了一盏明灯,为人工智能领域的研究者们提供了新的探索方向。在未来,随着研究的不断深入和技术的持续发展,或许 RPT 将引发一场人工智能模型训练的变革,让我们拭目以待。
END

