OneThinker团队 投稿
量子位 | 公众号 QbitAI
横扫31个主流基准,覆盖图像与视频双模态十类核心任务,视觉模型界的“通才”来了!
香港中文大学MMLab与美团研究团队联合开源提出OneThinker——基于强化学习的统一多模态视觉推理模型,具备跨模态、多任务的通用理解能力。
在31项主流视觉任务测试中,OneThinker表现优异。不仅实现多任务协同训练下的相互促进,更展现出对未见任务的合理推理能力,初步验证了通才模型的泛化潜力。
尽管Vision-R1、Video-R1等模型在特定任务上取得进展,但多数仍局限于单一模态或单一任务,缺乏跨任务、跨模态的统一推理能力,难以适应复杂现实场景。
OneThinker致力于打破这一局限。
从“专才模型”到“通才系统”
现实中的视觉数据兼具静态图像与动态视频,任务类型涵盖问答、定位、分割、追踪等,传统单任务、单模态架构面临两大瓶颈:
- 无法统一建模复杂场景
真实应用需同时处理图像与视频,并完成多任务协同,专才模型难以胜任。 - 知识隔离,迁移困难
各模型独立运行,缺乏共享机制,限制了推理能力的泛化与迁移。
为此,研究团队构建了具备统一理解与推理能力的通才模型OneThinker,通过统一数据体系与优化训练方法,实现多模态、多任务融合。
为提升模型统一推理能力,团队从两方面入手:构建统一任务数据集,设计稳定高效的多任务训练算法。
多模态统一任务数据构建
为解决数据覆盖不足与任务割裂问题,团队构建了两套高质量数据集:
- OneThinker-600k
覆盖图像与视频双模态,包含图像问答、视频问答、时空定位、分割、跟踪等十类核心任务,用于强化学习阶段训练。 - OneThinker-SFT-340k
基于Seed1.5-VL生成并过滤高质量思维链样本,用于SFT冷启动阶段。
通过联合训练,OneThinker在空间与时间维度建立统一推理能力,实现跨模态、多任务的通用视觉理解。
EMA-GRPO:提升多任务RL训练稳定性
传统强化学习在多任务场景下面临训练不平衡问题:不同任务奖励结构差异大(如检测任务奖励稠密,问答任务稀疏),易导致样本或任务间学习失衡。
为此,OneThinker提出EMA-GRPO(Exponential Moving Average Group Relative Policy Optimization)算法,通过对任务奖励标准差进行滑动平均归一化,解决两类不平衡问题:
缓解任务内样本权重不均,避免模型过度依赖低方差样本; 平衡任务间梯度贡献,防止稀疏任务主导训练过程。
实验表明,EMA-GRPO显著提升多任务强化学习的训练稳定性与收敛速度。
实验结果
研究团队在图像与视频两大模态下的31个主流benchmark上进行全面评估,覆盖图像问答、视频理解、空间定位、时间定位、目标分割、目标追踪等10类核心任务。
在图像问答任务中,MMMU达70.6%,MathVerse达64.3%;视频理解方面,VideoMMM得分为66.2%。
空间与时间定位任务表现突出:RefCOCO testA空间定位准确率达93.7%,Charades和ActivityNet时间定位R@0.5分别为68.3和43.6。
感知类任务同样稳健:GOT-10k追踪任务AO达73.0,ReasonVOS视频分割J&F得分为54.9。
此外,OneThinker展现出跨任务知识迁移能力,在多个任务中实现相互促进。
更重要的是,模型在未见任务(如点追踪、图像质量评估、GUI理解、旋转目标检测)中具备零样本适应能力,体现强大泛化性能。
OneThinker的推出,验证了强化学习在统一多模态、多任务视觉推理中的可行性,为构建真正意义上的视觉通才模型提供了可行路径。
随着大模型向多模态、强推理、通才化发展,OneThinker所探索的方向正成为通往通用视觉智能(AGI)的关键一步。
论文地址:https://arxiv.org/pdf/2512.03043
代码地址:https://github.com/tulerfeng/OneThinker

