刘壮陈丹琦新作：开源通用视觉推理RL框架，0思考数据刷新SOTA- 大数跨境

首页

刘壮陈丹琦新作：开源通用视觉推理RL框架，0思考数据刷新SOTA

量子位

2026-04-11

导读：广泛的数据覆盖是视觉推理强化学习Scaling的主要驱动力。

鱼羊发自凹非寺
量子位 | 公众号 QbitAI

适用于通用视觉推理的强化学习（RL）框架Vero正式开源。该框架由普林斯顿大学刘壮团队主导，陈丹琦参与研发，其构建的视觉推理器在30余项测试中达到8B级视觉语言模型SOTA水平，可高效处理图表分析、科学推理、空间理解等开放任务。

当前，GPT、Gemini等闭源模型虽具备视觉推理能力，但底层强化学习方案多为商业机密。开源领域则长期缺乏通用解决方案，既有模型往往仅适配单一任务类型。Vero的突破证明，学术界凭借合理资源投入亦可追赶顶尖工业界成果。

通用视觉推理的开源RL框架

构建多任务视觉推理模型面临核心挑战：开源RL方案下模型泛化能力弱，跨任务表现骤降；多任务混合训练又易导致模型退化。

Vero团队发现，不同任务需差异化推理策略（如图表QA侧重数值提取，空间任务依赖位置绑定），由此提出三大创新：

Vero-600K高质量数据集

基于59个数据集精选60万样本，覆盖六大任务类别：

图表与OCR（Chart & OCR）
STEM学科
空间与动作（Spatial & Action）
知识与识别（Knowledge & Recognition）
定位、计数与搜索（Grounding，Counting & Search）
描述与指令遵循（Captioning & Instruction Following）

实验表明，单任务RL训练损害模型泛化性，而均衡混合任务训练可有效提升通用推理能力。

任务路由奖励机制

针对不同任务答案格式差异，设计多路验证系统：选择题验证选项正确性，数学习题启用自动验算，开放描述则引入大模型裁判评估质量。

单阶段强化学习优化

仅需高质量数据过滤、均衡任务混合与精准路由奖励，单阶段RL即可激发基础模型的通用视觉推理能力。实测显示，Vero训练的模型在30项基准测试中，有23项超越专有微调的Qwen3-VL-8B模型。

消融实验进一步证实：广泛数据覆盖是RL能力跃升的关键驱动力。全部数据、代码及模型现已开源。

核心研发团队

项目由普林斯顿大学PLI实验室主导。负责人刘壮（清华姚班本科，UC伯克利博士）团队联合CMU博士Gabriel Sarch（通讯作者）及天津一中校友Linrong Cai（陈丹琦PLI副主任团队成员）共同研发。团队此前在CVPR 2017以DenseNet获最佳论文，并研发了ConvNeXt等知名模型。

项目地址：https://vero-reasoning.github.io/

— 完 —

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 15000

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读176.1k

粉丝0

内容15.0k