大数跨境

刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA 量子位
2026-04-11
3
导读:广泛的数据覆盖是视觉推理强化学习Scaling的主要驱动力。
鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

适用于通用视觉推理的强化学习(RL)框架Vero正式开源。该框架由普林斯顿大学刘壮团队主导,陈丹琦参与研发,其构建的视觉推理器在30余项测试中达到8B级视觉语言模型SOTA水平,可高效处理图表分析、科学推理、空间理解等开放任务。

当前,GPT、Gemini等闭源模型虽具备视觉推理能力,但底层强化学习方案多为商业机密。开源领域则长期缺乏通用解决方案,既有模型往往仅适配单一任务类型。Vero的突破证明,学术界凭借合理资源投入亦可追赶顶尖工业界成果。

通用视觉推理的开源RL框架

构建多任务视觉推理模型面临核心挑战:开源RL方案下模型泛化能力弱,跨任务表现骤降;多任务混合训练又易导致模型退化。

Vero团队发现,不同任务需差异化推理策略(如图表QA侧重数值提取,空间任务依赖位置绑定),由此提出三大创新:

Vero-600K高质量数据集

基于59个数据集精选60万样本,覆盖六大任务类别:

  • 图表与OCR(Chart & OCR)
  • STEM学科
  • 空间与动作(Spatial & Action)
  • 知识与识别(Knowledge & Recognition)
  • 定位、计数与搜索(Grounding,Counting & Search)
  • 描述与指令遵循(Captioning & Instruction Following)

实验表明,单任务RL训练损害模型泛化性,而均衡混合任务训练可有效提升通用推理能力。

任务路由奖励机制

针对不同任务答案格式差异,设计多路验证系统:选择题验证选项正确性,数学习题启用自动验算,开放描述则引入大模型裁判评估质量。

单阶段强化学习优化

仅需高质量数据过滤、均衡任务混合与精准路由奖励,单阶段RL即可激发基础模型的通用视觉推理能力。实测显示,Vero训练的模型在30项基准测试中,有23项超越专有微调的Qwen3-VL-8B模型。

消融实验进一步证实:广泛数据覆盖是RL能力跃升的关键驱动力。全部数据、代码及模型现已开源。

核心研发团队

项目由普林斯顿大学PLI实验室主导。负责人刘壮(清华姚班本科,UC伯克利博士)团队联合CMU博士Gabriel Sarch(通讯作者)及天津一中校友Linrong Cai(陈丹琦PLI副主任团队成员)共同研发。团队此前在CVPR 2017以DenseNet获最佳论文,并研发了ConvNeXt等知名模型。

项目地址:https://vero-reasoning.github.io/

—  —

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 15000
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读176.1k
粉丝0
内容15.0k