腾讯混元联合发布全球首个开源多模态统一推理奖励模型，提升视觉任务评估准确性与可解释性

2025-05-15 08:00 星期四

5月14日，腾讯混元联合上海AI Lab、复旦大学和上海创智学院，发布了最新研究成果UnifiedReward-Think。这项研究首次开发出具有长链条推理能力的统一多模态奖励模型，使奖励模型在多种视觉任务中具备真正的“思考”能力，大幅提升了对复杂视觉生成与理解任务的评估准确性、跨任务适应能力以及推理过程的可解释性。目前，该项目已全部开放源代码，包括模型、数据集、训练脚本和评测工具。