深度推理能力继续加强
我们使用Ling-lite-base-1.5作为基础模型,通过Long-CoT SFT + Two-staged RL训练了Ring-lite-2507模型,本次训练加入了更多通用能力相关的数据,以及新的RL pipeline,实现了推理和通用能力全面提升。在保持原有优势榜单的基础上,部分推理类榜单涨幅较为明显,如ARC-AGI-v1等。
能力更加均衡全面
通过协调通用与推理能力的训练,我们实现了通用能力上的显著提升。我们观察到目前开源的推理模型过于关注部分推理榜单的效果,在通用能力方面往往差距较大。我们认为通用能力和推理能力可以互相促进,同时一个全面的模型给用户的体验更好。我们与qwen3-8B进行了对比,在通用能力上达到相当水平。
通过通用能力的提升我们发现Ring-lite的一些badcase得到有效解决,真正实现了通用和推理能力的互相促进。
知识类问题的解决能力得到加强,视频中,左侧是最新版本,右侧是Ring-lite之前版本中文知识偏弱:
训练流程升级
为全面提升Ring-lite的模型能力,我们设计了Two-staged RL pipeline。首先是Long-CoT SFT让base模型学会思考,接下来通过可验证奖励的RLVR来提升推理能力,之后加入RLHF阶段来提升模型的通用能力。我们验证了直接融合RLVR+RLHF的联合训练和Two-staged RL, 两种方式在我们的实验中效果差异不大。 但由于RLVR和RLHF的问题难度不一致,RLHF的思维链长度相对较短,放在一起训练会有较多等待长尾现象,从工程效率角度,本次发布使用了Two-staged RL方案。

模型开源
Ring-lite-2507和Ring-lite采用相同的base模型,所有的模型使用可以参考Ring-lite的使用,欢迎访问我们的开源仓库进行下载使用。C3PO的升级版正在进行中,预计会在下一版发布中与大家见面,敬请期待。
Github blog:
https://inclusionai.github.io/zh/blog/ring-lite-2507
Github:
https://github.com/inclusionAI/Ring
Hugging Face:
https://huggingface.co/inclusionAI/Ring-lite-2507
ModelScope:
https://www.modelscope.cn/models/inclusionAI/Ring-lite-2507

