

Ring-lite更新，推理更有深度，能力更均衡

蚂蚁技术AntTech

2025-08-06

导读：Ring-lite完成小版本升级，当前版本为Ring-lite-2507。

蚂蚁百灵大模型团队研发的Ring-lite完成小版本升级，当前版本为Ring-lite-2507。

上一版团队基于C3PO(Constrained Contextual Computation Policy Optimization)策略训练了Ring-lite, 通过算法和系统co-design，实现了稳定的Reasoning RL训练。本次更新继续加强Ring-lite推理能力的同时，对Ring-lite的通用能力进行了升级，使得Ring-lite的能力更加均衡全面。

深度推理能力继续加强

我们使用Ling-lite-base-1.5作为基础模型，通过Long-CoT SFT + Two-staged RL训练了Ring-lite-2507模型，本次训练加入了更多通用能力相关的数据，以及新的RL pipeline，实现了推理和通用能力全面提升。在保持原有优势榜单的基础上，部分推理类榜单涨幅较为明显，如ARC-AGI-v1等。

能力更加均衡全面

通过协调通用与推理能力的训练，我们实现了通用能力上的显著提升。我们观察到目前开源的推理模型过于关注部分推理榜单的效果，在通用能力方面往往差距较大。我们认为通用能力和推理能力可以互相促进，同时一个全面的模型给用户的体验更好。我们与qwen3-8B进行了对比，在通用能力上达到相当水平。

通过通用能力的提升我们发现Ring-lite的一些badcase得到有效解决，真正实现了通用和推理能力的互相促进。

中英文混杂问题得到解决, 视频中，左侧是最新版本，右侧是Ring-lite之前版本存在中英文混杂问题：

知识类问题的解决能力得到加强，视频中，左侧是最新版本，右侧是Ring-lite之前版本中文知识偏弱：

训练流程升级

为全面提升Ring-lite的模型能力，我们设计了Two-staged RL pipeline。首先是Long-CoT SFT让base模型学会思考，接下来通过可验证奖励的RLVR来提升推理能力，之后加入RLHF阶段来提升模型的通用能力。我们验证了直接融合RLVR+RLHF的联合训练和Two-staged RL，两种方式在我们的实验中效果差异不大。但由于RLVR和RLHF的问题难度不一致，RLHF的思维链长度相对较短，放在一起训练会有较多等待长尾现象，从工程效率角度，本次发布使用了Two-staged RL方案。