Next-Token 预测进化史：强化预训练掀起 AI 模型训练新浪潮- 大数跨境

首页

Next-Token 预测进化史：强化预训练掀起 AI 模型训练新浪潮

元龙数字智能科技

2025-06-12

导读：Next-Token预测进化史强化预训练掀起 AI 模型训练新浪潮在人工智能的发展历程中，不同的技术理念犹如璀

Next-Token预测进化史

强化预训练掀起 AI 模型训练新浪潮

在人工智能的发展历程中，不同的技术理念犹如璀璨星辰，照亮了探索智能之路。2016 年，Yann LeCun 在一次演讲中，将智能比作一块蛋糕，形象地阐述了无监督学习、监督学习和强化学习在其中的角色，他认为无监督学习是蛋糕的主体，监督学习是蛋糕上的糖霜，而强化学习则是糖霜上的樱桃，那时强化学习似乎只是锦上添花之物。但时过境迁，强化学习正逐渐展现出远超 “樱桃” 的重要性，尤其是微软的一项新研究，为强化学习开辟了一片崭新的天地，让其在模型训练的根基阶段 —— 预训练中崭露头角。

大语言模型（LLMs）凭借在海量文本语料库上对下一个 token 的预测，展现出令人惊叹的跨任务卓越能力，这种自监督范式已然成为高效的通用预训练方法。与此同时，强化学习（RL）在微调大语言模型方面发挥着关键作用，无论是让 LLM 贴合人类偏好，还是提升其复杂推理等特定技能，都离不开 RL 的助力。然而，目前 RL 在 LLM 训练中的应用却遭遇了可扩展性和通用性的双重挑战。基于人类反馈的强化学习，虽在对齐方面卓有成效，却因依赖昂贵的人类偏好数据，且奖励模型易受 reward hacking 攻击，大大限制了其可扩展性；可验证奖励的强化学习（RLVR），虽利用客观基于规则的奖励缓解了 reward hacking 问题，却因数据稀缺，难以用于通用预训练。

在此背景下，强化预训练（Reinforcement Pre - Training, RPT）这一全新范式应运而生。RPT 将传统的 next - token 预测任务进行了大胆重构，转变为 next - token 推理过程。在这个过程中，对于预训练语料中的任意上下文，模型不再是简单地预测下一个 token，而是需要在预测前对后续 Token 进行深入推理，然后通过与语料中真实的 next - token 进行比对，获取可验证的内在奖励。这一过程无需外部标注或特定领域的奖励函数，就能够将传统 next - token 预测所使用的海量无标注文本数据，巧妙转化为适用于通用强化学习的大规模训练资源。

RPT 充分挖掘了传统 next - token 预测所积累的海量无标注文本数据的潜力，无需任何外部标注，就能将这些数据转化为大规模训练数据集，用于通用强化学习，这为模型训练提供了广阔的数据基础，使其在扩展性和通用性上具有先天优势。使用直接的、基于规则的奖励信号，从本质上减少了 reward hacking 的风险。这种明确且客观的奖励机制，让模型的训练过程更加稳健，避免了因奖励机制被恶意利用而导致的训练偏差。通过明确奖励 next - token 推理范式，RPT 引导模型不再局限于简单地记住下一个 Token，而是进行更深入的理解和思考，从而实现更好的泛化能力。模型在推理过程中，能够挖掘文本背后的隐藏知识，而不仅仅是学习表面的 Token 级关联。在预训练期间，模型的内部推理过程允许为每个预测步骤分配更多的思考（计算资源），这就如同将推理时间扩展能力提前应用到训练过程中，直接提升了下一 Token 预测的准确性。这种对计算资源的合理分配，为模型的学习提供了更有力的支持。

在 Next - Token 推理范式下，长思维链包含了各种丰富的推理模式，如自我批评和自我修正等。这种推理模式将预训练语料库重构为一系列庞大的推理问题，使预训练摆脱了对表面 Token 级关联的依赖，转而深入理解文本背后的隐藏知识。RPT 采用 on - policy 强化学习的方式训练大语言模型执行 next - token 推理任务。具体而言，对于给定的上下文，提示语言模型生成 G 个响应（思维轨迹）。每个响应由一系列思维推理序列和最终预测序列组成。为了验证预测的正确性，RPT 还引入了前缀匹配奖励（prefix matching reward），通过这种方式对模型的输出进行评估和反馈，引导模型不断优化推理过程。

为验证 RPT 的实际效果，研究团队使用 OmniMATH 数据集进行强化预训练，该数据集包含 4,428 道竞赛级数学题目及答案，具有较高的难度和挑战性。实验选用 Deepseek - R1 - Distill - Qwen - 14B 作为基础模型。在不同难度级别测试集上，RPT 方法的下一个 token 预测准确性均优于标准下一个 token 预测基线和基于推理的预测基线。与 R1 - Distill - Qwen - 14B 相比，RPT - 14B 在所有难度级别上的下一个 token 预测准确率更高，甚至其性能可与更大的模型 R1 - Distill - Qwen - 32B 相媲美。这充分表明，强化预训练在捕获 token 生成背后的复杂推理信号方面行之有效，对于提升 LLM 的语言建模能力具有巨大潜力。

RPT 的下一个 token 预测准确率随着训练计算的扩大而稳步提高，所有难度级别的高 R2 值显示拟合曲线能够准确捕捉性能趋势。这意味着 RPT 具有良好的扩展性，随着计算资源的增加，模型的性能能够持续提升，为其在大规模应用中的可行性提供了有力支持。经过强化预训练的模型，在进一步使用 RLVR 进行训练时能够达到更高的性能上限。相比之下，当模型持续使用下一个 token 预测目标在相同数据上进行训练时，其推理能力会显著下降，后续的 RLVR 训练带来的性能提升也较为缓慢。这说明在数据有限的情况下，强化预训练能够快速将从 next - token 推理中学到的强化推理模式迁移到下游任务中，为模型的后续优化奠定了坚实基础。

在所有基准测试中，RPT - 14B 始终优于 R1 - Distill - Qwen - 14B，并且在 next - token 预测方面超越了规模大得多的 R1 - Distill - Qwen - 32B。这一结果表明，RPT 能够赋予模型更强的泛化能力，使其在未见过的数据上也能表现出色。RPT - 14B 的 next - token 推理过程与 R1 - Distill - Qwen - 14B 的问题解决过程存在明显差异，表明 next - token 推理引发的推理过程与结构化问题解决有着质的不同。RPT - 14B 参与的是深思熟虑的过程，而非简单的模式匹配，这进一步体现了 RPT 对模型推理能力的深度塑造。

尽管 RPT 展现出诸多优势，但作为一种全新的方法，社区对其有效性、效率和前景仍存在疑问。例如，在实际应用中，RPT 的训练过程是否会过于复杂，导致计算成本过高？其在不同领域的泛化能力是否能够持续保持？这些问题都有待进一步的研究和验证。但无论如何，RPT 的出现为语言模型预训练的发展开辟了新的道路，就像在黑暗中点亮了一盏明灯，为人工智能领域的研究者们提供了新的探索方向。在未来，随着研究的不断深入和技术的持续发展，或许 RPT 将引发一场人工智能模型训练的变革，让我们拭目以待。

END

【声明】内容源于网络

元龙数字智能科技

永做第一使命第一向善第一

内容 901

粉丝 0

元龙数字智能科技永做第一使命第一向善第一

总阅读246

粉丝0

内容901