大数跨境
0
0

Ring-lite更新,推理更有深度,能力更均衡

Ring-lite更新,推理更有深度,能力更均衡 蚂蚁技术AntTech
2025-08-06
0
导读:Ring-lite完成小版本升级,当前版本为Ring-lite-2507。
蚂蚁百灵大模型团队研发的Ring-lite完成小版本升级,当前版本为Ring-lite-2507。 

上一版团队基于C3PO(Constrained Contextual Computation Policy Optimization)策略训练了Ring-lite, 通过算法和系统co-design,实现了稳定的Reasoning RL训练。本次更新继续加强Ring-lite推理能力的同时,对Ring-lite的通用能力进行了升级,使得Ring-lite的能力更加均衡全面。

深度推理能力继续加强


我们使用Ling-lite-base-1.5作为基础模型,通过Long-CoT SFT + Two-staged RL训练了Ring-lite-2507模型,本次训练加入了更多通用能力相关的数据,以及新的RL pipeline,实现了推理和通用能力全面提升。在保持原有优势榜单的基础上,部分推理类榜单涨幅较为明显,如ARC-AGI-v1等。



能力更加均衡全面


通过协调通用与推理能力的训练,我们实现了通用能力上的显著提升。我们观察到目前开源的推理模型过于关注部分推理榜单的效果,在通用能力方面往往差距较大。我们认为通用能力和推理能力可以互相促进,同时一个全面的模型给用户的体验更好。我们与qwen3-8B进行了对比,在通用能力上达到相当水平。


通过通用能力的提升我们发现Ring-lite的一些badcase得到有效解决,真正实现了通用和推理能力的互相促进。


中英文混杂问题得到解决, 视频中,左侧是最新版本,右侧是Ring-lite之前版本存在中英文混杂问题:

知识类问题的解决能力得到加强,视频中,左侧是最新版本,右侧是Ring-lite之前版本中文知识偏弱:

训练流程升级


为全面提升Ring-lite的模型能力,我们设计了Two-staged RL pipeline。首先是Long-CoT SFTbase模型学会思考,接下来通过可验证奖励的RLVR来提升推理能力,之后加入RLHF阶段来提升模型的通用能力。我们验证了直接融合RLVR+RLHF的联合训练和Two-staged RL, 两种方式在我们的实验中效果差异不大。 但由于RLVRRLHF的问题难度不一致,RLHF的思维链长度相对较短,放在一起训练会有较多等待长尾现象,从工程效率角度,本次发布使用了Two-staged RL方案。



模型开源


Ring-lite-2507Ring-lite采用相同的base模型,所有的模型使用可以参考Ring-lite的使用,欢迎访问我们的开源仓库进行下载使用。C3PO的升级版正在进行中,预计会在下一版发布中与大家见面,敬请期待。


Github blog:
https://inclusionai.github.io/zh/blog/ring-lite-2507


Github:

https://github.com/inclusionAI/Ring


Hugging Face

https://huggingface.co/inclusionAI/Ring-lite-2507

    

ModelScope

https://www.modelscope.cn/models/inclusionAI/Ring-lite-2507


【声明】内容源于网络
0
0
蚂蚁技术AntTech
科技是蚂蚁创造未来的核心动力
内容 1081
粉丝 0
蚂蚁技术AntTech 科技是蚂蚁创造未来的核心动力
总阅读558
粉丝0
内容1.1k