腾讯混元发布全球首个开源多模态统一推理奖励模型

2025-05-14 09:32 星期三

5月14日，腾讯混元近日与上海AI Lab、复旦大学及上海创智学院合作，推出一项全新研究成果UnifiedReward-Think。该研究构建了首个具备长链式推理能力的统一多模态奖励模型，首次让奖励模型在各类视觉任务中实现真正的“思考”能力，显著提升对复杂视觉生成和理解任务的评估准确性、跨任务泛化能力以及推理可解释性。目前，该项目已全部开源，涵盖模型、数据集、训练脚本及评测工具。