
如果把 2018-2024 的 Transformer 训练史回溯一遍,会发现一个有趣的结构性盲点:我们对 Decoder-only(NTP)的预算分配(模型与数据的配比)已经形成近乎标准教条。
更多算力时,模型要增大、数据也要扩、要注意 data-to-model ratio、Chinchilla 等工作背后,背后基本已经形成了一个约定俗成的配比经验。
但 Encoder-only(BERT,MLM)呢?
这一支线,从 BERT → RoBERTa → DeBERTa → ModernBERT → NeoBERT,虽然模块结构变得越来越现代,但绝大部分人训练 Encoder 时,是直接照搬自回归那一套——只是把 mask 率 ± 改一点点,把 token 数 ± 多喂一点点,再堆 compute,看看能不能往上再挤一分。
这篇论文把这个环节彻底拆开了:Encoder 最优数据/模型比不是 1-2 倍的差异,而是 10–100 倍。
这意味着,如果过去几年你的 Encoder 训练策略一直沿用 decoder 的配比逻辑,那很可能长期处在明显的过度训练区间,算力投入远超必要。
更关键的是,论文并不是只从经验总结这个现象,而是给出了一个可以直接计算的 Encoder 最优配比规律。
基于这个规律,论文训练了一个新的 Encoder 系列(命名为 OptiBERT),用于与 ModernBERT / NeoBERT 在相同 compute 条件下做正面对比。
▲ 图1. MTEB vs 统一算力 C
从论文第一页就能看到这张图。它不是简单的封面展示,而是直接把 MTEB 得分放回到统一算力 C 这个刻度下:对应 compute 下的表现差异是实测出来的,而不是只在文字上讨论。
论文标题:
Training compute-optimal transformer encoder models
论文链接:
https://aclanthology.org/2025.emnlp-main.1804.pdf
研究背景
为什么 Encoder 的最优 data / model scaling 会偏离自回归?不是凭感觉判断,而是因为目标从一开始就不同:MLM 只在被遮罩的 token 上产生梯度;而下游的衡量标准又是以表征质量为核心(以 MTEB 为代表),并不依赖自回归预测。
在这样的目标结构下,数据规模—模型规模—算力预算之间的最佳配比,本来就不可能与自回归一致,只是这一点过去一直没有被系统量化过。这篇论文做的,就是把这个差异明确地量化出来。
方法
作者首先把模型规模与数据规模统一到一个 compute 坐标中。每 token 的 FLOPs 写成:
总算力为:
之后所有讨论都在
平面上进行:给定同样的 compute,不再以经验判断“扩大模型或增加 token 更划算”,而是直接比较最优点在该平面的位置。
接下来,作者在多个 compute 档位分别找到性能最优的点,并观察学习率与 batch size 随 compute 的 scaling 趋势,这意味着从较低 compute 档位即可反推出更大 compute 档位的起始搜索区间。
▲ 图2. 学习率与 batch size 随 compute 的 scaling 趋势,可用于为更大 compute 提供合理起点。
然后作者在多个固定 compute 下分别提取最优 ,这些最优点呈幂律趋势,可向更大 compute 外推:
▲ 图3. 不同 compute 下最优 (F_N,D) 的幂律趋势,可作为外推骨架。
把 loss 当成 空间里的连续函数:
然后在 log 空间用 Huber 回归拟合这些系数:
▲ 图4. 参数化损失在 (F_N,D) 平面的分布,并可从等 compute 线直接读出最优点。
有了这个参数化之后,最优点可以直接写成闭式解:
对应的数据规模为:
对应的 data/model ratio 为:
▲ 图5. Encoder 的最优 data/model ratio 比自回归更大,量级可达十到百倍。
实验结果
论文没有停在公式很漂亮这一层,而是用 closed-form 给出的 去真正训练了一系列 Encoder(即 OptiBERT),再与现阶段最强的 Encoder,如 ModernBERT 与 NeoBERT 对齐 compute 去比较下游表现。
实验重点放在两个典型评估体系上:MTEB 和 GLUE。MTEB 是目前表征质量最被看重的一套 benchmark,GLUE 虽然整体已经接近上限,但仍可以用来检验是否出现明显性能塌陷。
从 MTEB 的结果看,OptiBERT 在明显更低的 compute 下,依然达到与 ModernBERT / NeoBERT 大致相同的分数区间。
▲ 表1. 展示 MTEB(eng, v1)结果,在更低 compute 情况下,OptiBERT 与强基线处于同级表现带。
GLUE 上也出现类似趋势:OptiBERT 的表现并没有因为 compute 大幅减少而明显掉落,分数仍落在强基线附近的合理区间范围内。
▲ 表2. GLUE 验证集结果,结果为验证集表现,并给出 bootstrap 置信区间;OptiBERT 在更低 compute 下未见显著劣化。
此外,论文还把 scaling 系数直接列成一个表,用来连接“compute → 推荐 区间”。这一表在复现与迁移时非常关键。
▲ 表3. 参数化损失与 scaling 拟合的系数,可用于把 compute 直接转化为具体模型规模与数据量。
结语
这篇论文的结论相当明确。Encoder 预训练的表现,与训练时点的 compute 继续增加并没有直接的正相关关系,更关键的是数据规模与模型规模之间的正确配比。
过去几年,我们普遍沿用自回归的经验来设置 Encoder 的训练预算,而论文给出的闭式解表明,两者的最优配比不在同一个数量级。这意味着,在很多场景里,Encoder 的训练消耗明显超出了最佳区间。
未来如果继续做表征式预训练,更合理的起点是先定位到闭式解对应的
区间,再讨论下一档 compute,而不是直接增加训练成本。对于 Encoder,正确的比例关系比进一步拉长训练时间更重要。
技术交流群邀请函

△长按添加小助手
扫描二维码添加小助手微信
请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群
关于我们
MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

扫描二维码添加小助手微信
关于我们

