

演讲实录 | 万亿参数 RLVR 中的关键技术挑战

百灵大模型

2025-12-10

导读：万亿级强化学习模型的稳定性与效率突破：来自蚂蚁百灵的 IcePop 与 C3PO++ 方案

本文整理自蚂蚁算法专家徐宽在杭州 AI 开源生态大会暨“魔搭社区”（杭州）开发者大会关于《Scaling Trillion-Parameter Models: RLVR Challenges and Solutions（万亿参数 RLVR 中的关键技术挑战）》的报告分享。

核心结论

蚂蚁集团百灵大模型团队在成功开源其首个万亿参数级强化学习思考模型 Ring-1T 后，系统性地揭示了训练此类超大规模模型所面临的两大核心挑战：稳定性与训练效率，并且提炼出两大创新性解决方案：IcePop 与 C3PO++。

IcePop 从算法层面解决了因训推不一致导致的训练崩溃问题，实现了长时间稳定训练；

C3PO++ 则通过固定训推 Budget 以及 Partial Rollout 策略，有效缓解了长尾效应以及吞吐波动，显著提升了训练效率。

这两项技术共同构成了支撑万亿级思考模型稳健训练的基石。

问题驱动：

为何万亿级 RL 训练举步维艰？

在训练万亿参数的强化学习思考模型时，传统的工程优化已不足以应对根本性挑战。任何一次训练崩溃都意味着巨大的算力与时间成本浪费。因此，稳定性（Stability）与效率（Efficiency）成为决定项目成败的两大核心支柱。

解决的核心问题：

稳定性问题：训练过程为何会突然崩溃？模型为何在后期生成大量乱码？

效率问题：为何训练速度如此之慢？是什么拖慢了整体的迭代周期？

核心问题一：稳定性挑战

训推不一致（Train-Inference Distribution Mismatch）是元凶

强化学习的核心优势在于，它不要求人类专家写出完整的推理过程，而只需判断最终答案的对错。模型可以自由探索多种解法，通过奖励机制进行筛选。然而，这一自由度也埋下了隐患：多样性衰减。

核心问题：模型在训练初期会尝试多种解法（高多样性），但一旦发现某条路径能获得奖励，便会“路径依赖”，不断重复，导致生成的解法越来越单一，最终多样性丧失，模型“死机”。

观察到的现象：在训练后期，模型开始生成大量乱码，训练过程彻底崩溃。

根本原因：经过深入分析，团队发现崩溃的根源并非模型“学坏了”，而是存在一个微妙但致命的“训推不一致”问题。

如上图所示，在长序列生成（Long thinking）场景下，模型在推理时对自身生成的 token 非常自信（对数概率较高），但当相同的序列被送回进行训练计算时，模型却认为这些 token 的概率极低（对数概率急剧下降，为负值）。这种矛盾导致了巨大的梯度波动，最终引发梯度爆炸和训练崩溃。

这一现象在以下两个因素的共同作用下被放大：

引擎实现差异：为追求效率，推理引擎（如 VLLM/SGLang）与训练引擎（如 PyTorch）的底层算子实现不同，导致即使输入相同，输出也存在微小的精度差异。
输入方式本质不同：推理是自回归生成（Auto-regressive），逐个 token 生成；而训练是整句输入（Full-sequence forward），一次性计算整个序列的损失。这种“prefiling vs decoding”的差异是系统性的。

更致命的是，对于采用 MoE架构的万亿模型，路由决策对精度极其敏感。一个微小的计算误差，可能导致路由选择完全错误，而这一错误会在后续的每一层中被指数级放大，最终导致灾难性后果。

核心问题二：效率挑战

长尾样本是吞吐量的拦路虎

除了稳定性，训练效率同样关键。团队采用训推共卡的架构，这意味着所有样本的推理（生成）必须全部完成后，才能开始训练。这带来了一个严重问题：长尾样本瓶颈。

核心问题：并行推理时，所有样本必须等待最长的那一个样本生成完毕。这个“长尾”样本会拖慢整个批次的进度，导致其他已生成完的推理引擎空转，造成算力浪费。

观察到的现象：训练吞吐量（Throughput）波动剧烈，难以提升。

解决方案：

IcePop 与 C3PO++ 的双轮驱动

针对上述两大挑战，团队分别从算法层面提出了创新性解决方案。

解决方案一：IcePop

从算法层面稳定训练，实现“无崩溃”训练

传统的解决思路是“对齐精度”，即通过使用高精度算子或统一训练/推理引擎来彻底消除差异。然而，这种方法会带来巨大的性能损失，对于万亿模型而言不可接受。

因此，团队另辟蹊径，提出了 IcePop 算法。其核心思想是承认并控制差异，而非彻底消除。

1、解决的核心问题：如何在存在“训推不一致”的前提下，保证训练的稳定性？

2、使用的方法：

重要性采样：通过比较训练策略 πtrain 推理策 πinfer 和生成token的概率比，对梯度进行修正。

异常Token剔除：引入一个掩码函数 M(⋅) ，根据训推比例的大小去动态识别那些因分布偏移导致的、重要性权重异常的Token，并将其反向梯度进行裁剪或屏蔽。其核心公式为：

3、带来的可验证变化：

跨越崩溃点：IcePop 能有效避免模型在训练中后期因梯度爆炸而崩溃。

梯度显著更稳定：实验证明，使用 IcePop 的训练过程，其梯度范数（Gradient Norm）远低于基线方法，波动极小。

性能不受损：与追求完全精度对齐的方法相比，IcePop 在保持高精度的同时，避免了性能的大幅下降。

上图清晰地展示了 IcePop 在奖励、训练精度差异和整体训练效果上均全面超越了 TIS 和 GRPO 等基线方法，验证了其有效性。

解决方案二：C3PO++

从系统层面提升效率，释放吞吐潜力

为解决长尾样本瓶颈，团队提出了 C3PO++ 方案，其核心固定每一步推理跟训练的 Budget。

1、解决的核心问题：如何解耦推理延迟与训练启动的强依赖，提升系统吞吐量？

2、使用的方法：

设定生成预算（Generation Budget）：为每一轮推理设定一个固定的 token 预算（Token-level Training Budget）。

动态生成截止（Partial Rollout）：所有推理引擎并行生成样本，一旦累计生成的 token 数达到预算上限，立即停止所有推理，无论个别样本是否完成，直接启动训练。

固定训练批次：通过控制训练端的 token 级预算，使得优化器的全局批次保持稳定。

如上图左侧所示，即使某一轮的样本因未获得奖励而用满了整个预算，系统也会在预算耗尽时强制截止并进入训练。这避免了为少数长尾样本无限等待。

3、带来的可验证变化：

吞吐量显著提升：通过实验对比，C3PO++ 的吞吐量在训练过程中表现稳定，且显著高于基线。

训练效率成倍提高：右图显示，C3PO++ 每轮的平均开销减少了80%，极大地释放了训练潜力。

梯度更加稳定：固定批次大小使得梯度方差更小，训练过程更加平滑。

系统架构：

Ring-1T 的闭环设计

IcePop 和 C3PO++ 并非孤立的算法，它们被整合进了一个完整的、高效的系统架构中。

如上图所示，Ring-1T 的架构清晰地体现了这两大技术的集成：

Policy Model 是核心，由 C3PO++ 和 IcePop 驱动。

C3PO++ 位于左下角，负责通过动态地根据预算分配和管理Rollout，解决效率问题。

IcePop 位于右下角，负责通过梯度屏蔽机制缓解训推不一致的现象，解决稳定性问题。

整个系统形成了一个从数据、推理、验证到训练的闭环，确保了模型能够高效、稳定地进行自我进化。

总结与展望

蚂蚁百灵团队在训练万亿级思考模型 Ring-1T 的过程中，深刻揭示了超大规模强化学习训练的内在矛盾：对工程精度的极致追求与对训练效率的现实需求之间的冲突。

我们并未选择非此即彼的极端方案，而是通过 IcePop 和 C3PO++ 这两个精巧的算法设计，实现了“稳定”与“高效”的双重目标。IcePoP 通过算法的智慧，将无法避免的“训推不一致”从一个导致训练崩溃的缺陷转化为一个可控的工程参数；C3PO++ 则通过系统层面的资源调度，稳定了训推吞吐，将长尾效应的负面影响降至最低。

这两项技术不仅支撑了 Ring-1T 的成功开源，更为整个大模型社区提供了宝贵的实践经验。它们证明，在通往 AGI 的道路上，除了模型规模的“硬”突破，算法与系统协同的“软”创新，同样是不可或缺的关键引擎。

未来，随着模型规模的进一步扩展，类似的稳定性与效率挑战将更加严峻。IcePop 和 C3PO++ 所体现的“问题驱动、算法创新、系统协同”的研究范式，或许正是解锁下一代人工智能的关键钥匙。

欢迎大家访问我们的开源仓库和体验页面进行下载使用。

🤗 Hugging Face：https://huggingface.co/inclusionAI/Ring-1T

🤖 ModelScope：https://modelscope.cn/models/inclusionAI/Ring-1T

💬 Ling chat（国内用户）：https://ling.tbox.cn/chat

⚙️ ZenMux（海外开发者，Chat/API ）：https://zenmux.ai/inclusionai/ring-1t

【声明】内容源于网络

百灵大模型

分享蚂蚁百灵大模型研发进展

内容 31

粉丝 0