各位伙伴们,10 月 14 日,AI 圈又迎来重磅突破——蚂蚁百灵大模型正式发布万亿参数思考模型 Ring-1T,开源登顶多项推理榜单!作为蚂蚁生态的一员,蚂蚁百宝箱 Tbox 当然第一时间为大家安排上了体验通道,快跟着小编一起解锁这个"会解题、能编程"的超强大模型吧!
此次发布的 Ring-1T,在上月底发布的 preview 版本基础上,持续扩展大规模可验证奖励强化学习(RLVR)训练,进一步激发万亿基座的自然语言推理能力,并通过 RLHF 训练完善模型通用能力,使得本次发布的 Ring-1T 在各项任务上表现更均衡。
Ring-1T 沿用 Ling 2.0 架构,在 1T 总参数、50B 激活参数的 Ling-1T-base 基座上进行训练,支持最高 128K 上下文窗口。依托自研的强化学习稳定训练方法 icepop(棒冰)与高效强化学习系统 ASystem(其中 AReaL 框架已开源),百灵团队实现了从百亿(Ring-mini-2.0)到千亿(Ring-flash-2.0)再到万亿(Ring-1T)的 MoE 架构强化学习平稳扩展,显著提升模型的深度思考与自然语言推理能力。
持续进化的深度思考能力
为评估 Ring-1T 的深度思考能力,蚂蚁百灵团队选取了具有代表性的开源思考模型(Ring-1T-preview、DeepSeek-V3.1-Terminus-Thinking、Qwen-235B-A22B-Thinking-2507)和闭源 API (Gemini-2.5-pro 以及 GPT-5-Thinking(High))作为参考。首先,相比于此前开源的 preview 版本,Ring-1T 在各项任务上表现更均衡。此外,Ring-1T 在数学竞赛(AIME 25、HMMT 25),代码生成(LiveCodeBench、CodeForce),逻辑推理(ARC-AGI-1)等高难推理基准上达到了开源领先水平;而在综合任务(Arena-Hard-v2.0),医疗健康(HealthBench),创意写作(Creative Writing v3)上也表现出很强的竞争力。
虽然百灵团队已经对预训练、微调指令、强化学习提示词等所有阶段的训练数据进行了字符串和语义级别的基准任务污染过滤,但对于较早发布的基准任务,严格去污是当前业界难题之一。为了更客观地分析 Ring-1T 的深度思考能力,大模型在今年 7 月举办的 IMO 2025(国际数学奥林匹克竞赛) 和上月初刚结束的 ICPC world finals 2025(国际大学生程序设计竞赛世界总决赛)中进行测试。
IMO 2025 的测试与此前 preview 版本类似,百灵团队将 Ring-1T 接入多智能体框架 AWorld(https://github.com/inclusionAI/AWorld),使用纯自然语言推理进行解题。结果显示,Ring-1T 仅用一次尝试即解出了第 1、3、4、5 题(IMO 银牌水平),并在第三次尝试时对第 2 题几何证明也给出了接近满分的证明过程。而在最难的第六题(IMO 2025 AI 选手无法正确求解)将答案收敛到与 Gemini 2.5 Pro 相同的 “4048”(正确答案为 2112)。团队相信,仍在进行持续优化的 Ring-1T 未来很有机会达到 IMO 金牌水平。
而在 ICPC world finals 2025 上,百灵团队对比了 GPT-5-thinking、Gemini-2.5-pro 和 Ring-1T,在允许三次尝试的模型直接解题测试中,分别解出了 6(CDEFKL)、3(DFK)、5(DFJKL)题。可以看出,Ring-1T 在国际顶级代码竞赛上也有亮眼的表现。更多测试还在进行中,同时团队也将开源模型在上述比赛的解题轨迹,期待可以与社区一起优化这个万亿思考模型的推理潜能。
棒冰(icepop):为 RL 长周期训练“保驾护航”
在 MoE 模型的强化学习训练中,训练和推理引擎之间的算子实现差异比 Dense 模型更显著,尤其是在生成长序列和长周期训练时,这种差异会随着序列长度和训练步数的增加而逐渐拉大。从下图的实验可以看出,在较少的训练步数内,原始的 GRPO 算法会开始崩溃,而百灵团队提出的 icepop(棒冰)算法通过带掩码的双向截断技术来修正分布,有效减小训练与推理阶段的差异,为急剧上升的训推差异“降温”。
<<< 向左滑动查看 >>>
ASystem:自研 RL 框架“拿捏”万亿规模训练
为保障万亿基座强化学习的稳定高效训练,百灵团队自研了高性能强化学习系统——ASystem。ASystem 采用 SingleController + SPMD 架构。在训推引擎方面,特别针对万亿基座的显存管理和训推权重交换问题做了精细的优化。基于自研训推统一的显存池技术实现了显存透明卸载,高效释放显存碎片,降低了显存不足风险。通过 GPU 间 P2P 直接通信与原地更新等技术,实现了模型权重的秒级、零冗余交换。在 RL 训练框架上,百灵团队构建了基于大规模 Serverless Sandbox 技术的混合奖励系统,该系统能以毫秒级速度启动、提供超过 10 余种语言的沙箱执行环境,支撑了高达 10K/s 的请求吞吐。百灵团队已经将 AReaL 开源,希望通过技术开放加速开源社区的 RL 训练与研究工作。
部分手搓案例
与 Ling-1T 一脉相承,Ring-1T 在可视化和前端开发任务上也有出色的表现。
1️⃣ 小球运动
2️⃣ 太阳系运动模拟
3️⃣ 烟花
4️⃣ 建筑物拆除 3D 模拟
5️⃣ 记忆匹配大师游戏开发
此外,Ring-1T 可以在完成逻辑谜题推理同时,直接生成 demo 页面对推理过程进行演示。
6️⃣ 农夫运狼兔子卷心菜
局限性与未来计划
Ring-1T 是百灵团队在万亿规模深度思考模型上的首个尝试。目前模型仍存在一定概率的身份认知偏差、语种混杂及重复生成等问题;同时,由于其 attention 架构仍沿用了 Ling 2.0 的 GQA(Grouped Query Attention)方案,长上下文场景下的推理效率仍有改进空间。百灵团队将在后续版本中持续优化这些问题,并非常期待社区的使用反馈。此外,Ring-1T 的训练仍在进行中,团队将继续挖掘这一万亿基座的推理潜力,期待更成熟的升级版本尽快与大家见面。
👆🏻扫码加入「Tbox 用户交流群」
第一时间获取功能 / 活动更新动态

