以“排序”替代“预测”：Token Order Prediction（TOP）如何改进语言模型训练

深度图学习与大模型LLM

2025-09-04

导读：该研究以 Token Order Prediction（TOP）为核心贡献，给出了一个轻量、可扩展且与 NTP 强一致的辅助训练目标。通过将“未来词元精确预测”的目标，替换为“未来词元接近度排序”的

以“排序”替代“预测”：Token Order Prediction（TOP）如何改进语言模型训练

在当下以 Next-Token Prediction（NTP）为主导范式的 LLM 训练中，研究者一直在探索如何通过辅助目标提升内部表征，从而带来更好的下游泛化。本文聚焦一篇来自 MBZUAI 的早期预印本，提出以“排序未来词元的接近度”替代“精确预测未来词元”的新思路，将 Multi-Token Prediction（MTP）的“难度过高”转化为 Learning-to-Rank 的“近似排序”问题。核心结论显示：在 340M、1.8B 与 7B 三个模型规模上，作为 NTP 的辅助目标，Token Order Prediction（TOP）整体优于 NTP 与 MTP，且在标准 NLP 基准上更稳健。

该研究的关键创新在于将未来词元的“顺序信息”转为可学习的排名分布，用 Listwise 排序损失对单个额外的 unembedding 头进行监督，避免为每个未来偏移位置增设独立 Transformer 层的额外参数与计算开销。与 MTP 相比，TOP 训练更稳定、扩展性更好，并在多项通用任务上呈现出一致的提升趋势。

1. 基本信息

论文《Predicting the Order of Upcoming Tokens Improves Language Modeling》
作者为 Zayd M. K. Zuhri、Erland Hilman Fuadi 与 Alham Fikri Aji，研究单位为 MBZUAI。
该工作为早期预印本，版本 v1 发表于 2025-08-26，arXiv 链接为：https://arxiv.org/abs/2508.19228。
作者开源了实现与训练代码，仓库地址为：https://github.com/zaydzuhri/token-order-prediction

2. 研究背景

以 Next-token Prediction, NTP 为中心的自回归训练范式在语言理解与生成上取得了卓越成绩，但其局限与改进空间同样被持续讨论。近年来，一类代表性尝试是以Multi-token prediction, MTP 为辅助目标，让模型在共享 Backbone 的末端分出多个分支，分别预测的精确词元，从而促使主干表征“向前看”。这类方法在代码生成、摘要等需要较强“前瞻性”的生成任务上常有收益，同时还可被用于一定形式的自我推测解码，以提高推理速度。

然而，MTP 的泛化改善在通用 NLP 基准上并不稳定，尤其在小模型上常见无效甚至退化。经验上，当未来偏移步数增加时，训练难度显著提升，且最优难以一刀切地确定。

这从侧面表明，“精确预测多步未来词元”的学习目标可能过难，难度的不匹配反而削弱了其作为辅助目标的普适价值。该研究据此提出一个关键判断：与其强迫模型“精确命中远期词元”，不如让模型“学会排序哪些词元更快出现”，即把“多步精确预测”放宽成“近似顺序学习”的 Learning-to-Rank 问题，从难题转化为“更可学”的目标。

因此，研究的动机在于：在不牺牲“向前看”这一有益归纳偏置的前提下，构建更温和、参数与计算开销更友好、且在通用任务上更稳定的辅助训练目标。Token Order Prediction, TOP 即在此语境下提出，用单一额外的 unembedding 头和一个 listwise 排序损失，诱导 Backbone 习得对“未来词元接近度”的结构化感知。

3. 方法

该方法的设计出发点是充分保留“未来结构”的监督信号，同时回避 MTP 在多步精确命中上的固有难度与扩展瓶颈。MTP 的每一个未来步都需配备一层单独的 Transformer 头，既增加参数又加重计算；更关键的是，越远的未来步难度越高、梯度信号越噪，容易拖累整体优化。Token Order Prediction, TOP 将“精确分类到某个未来偏移位置”的任务，替换为“对全词表进行‘下一个出现时间’的接近度打分”，把硬分类变成软排序，使训练信号更平滑、覆盖面更广、且随着窗口大小变化不会线性地膨胀参数。

整体框架上，模型主干仍采用标准自回归 Transformer，仅在输出层并联两个线性头：用于常规 NTP 的与用于排序监督的。训练时联合最小化两者的损失之和，推理时移除，仅保留，因此不会改变推理时的架构与接口。

具体实现分为目标构造与损失定义两部分。

首先，给定输入序列、词表大小与窗口大小，对每个时间步构造长度为的“接近度向量” 。对任意词元，若其在区间的首次出现位置与的距离为，则令；若在窗口内不可达，则。这意味着离当前更近的“即将出现词元”将获得更高分值，从而形成对“未来顺序”的隐式排序监督。该目标可以用如下伪代码（与论文一致）刻画其自右向左的一次扫描构造过程：

Input: token sequence x (length T+W), vocab size V, window size W
Output: target tensor y of shape (T, V)

Initialize y[:] = -∞
Initialize next[v] = T + W for all v in [0, V-1]

for t from T+W-1 down to 0:
    if x[t] in vocab:
        next[x[t]] = t
    if t < T:
        for each v in [0, V-1]:
            d = next[v] - t
            if 0 < d ≤ W:
                y[t, v] = W - d

损失函数借鉴 listwise Learning-to-Rank 思想。设主干最后一层隐藏状态为，NTP 头与 TOP 头分别为线性映射与。标准 NTP 损失为

TOP 的 listwise 排序损失将视作“软目标分数”，在归一化后与预测打分的归一化分布求交叉熵：

最终优化目标是两者之和：

从表征学习角度看，以“接近度排名”为监督，迫使捕获“短期将出现哪些词元及其大致先后”的结构性信息；这种信息与 NTP 的“下一个词元概率”目标高度一致，二者在“靠近下一个词元”的方向上形成合力，从而以较小的额外参数与显著低于 MTP 的计算开销，增强主干的建模能力。实现上，作者使用了融合的 Triton kernel 将 unembedding 与损失计算在 block 级别一次完成，几乎不引入额外吞吐损失；由于 TOP 仅新增一个与同形的线性层，参数与显存开销远低于随线性增长的 MTP 多层头。

值得强调的是，若仅以 TOP 训练而移除 NTP，则推理时只能进行贪心生成，缺乏概率采样的灵活性；因此该工作定位 TOP 为“辅助目标”，而非替代 NTP 的主目标。

4. 实验与发现

实验在三个模型规模上系统比较了 NTP、MTP 与 TOP：约 340M、1.8B 与 7B 参数。训练数据来自 FineWeb-Edu 的“sample-100BT”子集，340M 训练 52B tokens，1.8B 与 7B 训练 104B tokens。统一采用序列长度 4096、RoPE 、词表大小 32k、未绑权重（untied embeddings），优化器为 AdamW，余弦学习率调度与适当 warmup，并在 MTP 设置中使用 4 个未来步。为保证可重复性，论文详细给出了每个规模的层数/隐藏维度/头数、学习率与 batch 配置；实现基于 Flame 与 flash-linear-attention。

评测覆盖 8 个标准 NLP 基准：LAMBADA（准确率与困惑度）、HellaSwag、ARC Challenge、PIQA、SciQ、Social IQa、NaturalQuestions Open、TriviaQA（Exact Match）。核心发现可以概括为三个层面。第一，在几乎所有规模与多数任务上，TOP 相较基线 NTP 与 MTP 都带来一致提升。例如，LAMBADA 上 TOP 在 340M/1.8B/7B 的准确率分别优于 NTP（36.35%→37.07%、49.58%→50.34%、55.89%→57.03%），困惑度也同步下降（340M：30.34→28.76；1.8B：11.38→11.19；7B：7.97→7.64）。HellaSwag 的归一化准确率在三个规模上亦全面提升（340M：42.53%→43.57%；1.8B：60.05%→60.45%；7B：67.44%→68.73%）。第二，MTP 在通用理解类任务上并不稳定，尤其 7B 规模时常出现退化；TOP 则随规模增大持续受益，在 TriviaQA（EM）上差距尤为明显（1.8B：11.85→18.93；7B：24.28→30.90）。第三，尽管 TOP 的训练阶段 NTP 头上记录到的训练损失略高于纯 NTP（提示正则化效应与更少过拟合），但在评测困惑度与准确率上表现更佳，指向更强的泛化。

从统计与实际意义讨论来看，这些改进不仅体现在平均数上，也具备一致的跨任务、跨规模可迁移性。尤其是当任务偏向理解与检索式问答（如 NQ Open、TriviaQA）时，TOP 在较大规模上展现出明显优势，说明“顺序接近度”的结构性监督与语言模型的长程一致性建模、知识寻址与答案定位存在内在耦合。相对地，个别社会常识类任务（如 Social IQa）在 7B 上略有波动，提示未来可以在窗口机制、权重共享或损失权重上做更细粒度的调节与消融。

值得注意的是，MTP 的小规模模型在该复现实验中并非处处落后，这一结果与部分先前报告形成互补；但随着规模扩大，MTP 在通用任务上的弱势更加明显。TOP 则展现出“越大越好”的单调趋势，符合“排序监督更易优化、对主干更友好”的设计初衷。

5. 结论与展望

该研究以 Token Order Prediction（TOP）为核心贡献，给出了一个轻量、可扩展且与 NTP 强一致的辅助训练目标。通过将“未来词元精确预测”的目标，替换为“未来词元接近度排序”的 listwise 学习，TOP 在相近或更小的额外开销下，更稳定地提升了 LLM 在通用 NLP 基准上的表现。实验显示，随着参数规模增大，TOP 的收益进一步扩大，这为大模型预训练中的辅助目标设计提供了新的方向。

说明：本文基于作者公开的早期预印本撰写，实验细节与扩展结果以后续版本为准。

【声明】内容源于网络

深度图学习与大模型LLM

关注大模型LLM及其突破性进展。深入探讨大模型在各领域的落地实践与技术挑战，包括提示工程、知识蒸馏、参数高效微调等关键技术。同时关注图机器学习、图表示学习的前沿进展，带来顶会顶刊动态及解读。

内容 2322

粉丝 0

深度图学习与大模型LLM 关注大模型LLM及其突破性进展。深入探讨大模型在各领域的落地实践与技术挑战，包括提示工程、知识蒸馏、参数高效微调等关键技术。同时关注图机器学习、图表示学习的前沿进展，带来顶会顶刊动态及解读。

总阅读999

粉丝0

内容2.3k