导读
Meituan团队在arXiv上发布了题为“Metis‑RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning”的预印本,提出了一种颠覆传统的训练范式——先以强化学习(RL)激励模型潜在推理能力,再以监督微调(SFT)有针对性地增强不足之处。本研究在不依赖冷启动SFT的情况下,通过Group Relative Policy Optimization(GRPO)变体激发模型推理潜能,随后利用自蒸馏与专家注入两种策略精细化模型能力。评估结果显示,7B和72B规模的Metis‑RISE模型在OpenCompass多模态推理排行榜中分别名列同类模型之首,并在整体排行榜中跻身前四,彰显出其方法的高效性与可扩展性。
论文基本信息
-
原文标题:Metis‑RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning -
作者:Haibo Qiu, Xiaohan Lan, Fanfan Liu, Xiaohu Sun, Delian Ruan, Peng Shi, Lin Ma* -
作者单位:Meituan -
发布时间:2025年6月16日 -
论文来源:https://arxiv.org/abs/2506.13056 -
代码地址:https://github.com/MM-Thinking/Metis-RISE
击下方卡片,关注“AI大模型说”公众号
你要的大模型知识,这里全都有
摘要
Metis‑RISE框架首创性地将强化学习(RL)与监督微调(SFT)按非传统顺序组合:省略冷启动SFT阶段,先以GRPO算法变体对多模态大模型进行RL训练,以激励和激活模型潜在的推理能力;随后SFT阶段针对不稳定的轨迹采样与基础能力缺失,分别采用自蒸馏推理轨迹与专家知识注入,构建混合数据集以强化与补足模型能力。实验结果表明,Metis‑RISE‑7B和72B在OpenCompass多模态推理排行榜上分别以46.4和56.6的平均分领先同规模开源模型,并在整体排名中位列第四。
研究背景及相关工作
研究背景
近年来,LLM领域对推理能力的提升投入巨大,诸如DeepSeek‑R1、OpenAI‑O1、Seed1.5‑Thinking等研究依托大规模RL训练加强链式思考;同时,学界开始尝试将此范式扩展至多模态大模型,以赋予机器对视觉信息的深层理解与推理。然而,现有方法存在两大瓶颈:
-
仅依赖RL阶段,样本效率低,对完全缺失的推理能力无能为力; -
先SFT再RL的管道会因初期SFT阶段的目标限制,压缩RL的探索空间,导致次优收敛。
针对上述问题,本研究提出“先RL后SFT”的Metis‑RISE框架,以更有效地激发与提升多模态推理能力。
相关工作
-
推理驱动的RL方法:DeepSeek‑R1使用PPO结合格式化奖励提升数学问答性能;Seed1.5‑Thinking针对LLM链式思考设计强化奖励。 -
多模态推理探索:LMM‑R1、R1‑OneVision等在3B–7B模型上采用两阶段RL提升视觉-语言推理,但规模受限且效果波动。 -
SFT与RL结合研究:先SFT可稳定模型但阻碍RL探索;而交错管道在样本效率与收敛平衡上难以兼顾。
主要贡献
-
非传统训练顺序:省略冷启动SFT,先RL后SFT,实验证明该策略显著提升模型探索与激活潜能。 -
双轨强化策略:设计GRPO变体并引入多项改进(去除KL正则、在线数据过滤、非对称裁剪、令牌级损失、超长惩罚),显著提高RL稳定性与效率。 -
定制化SFT增强:提出自蒸馏推理轨迹与专家知识注入两大模块,针对不同样本类型构建监督数据,提升模型一致性与覆盖率。 -
领先性能验证:7B和72B模型在OpenCompass多模态推理排行榜上分别以46.4与56.6平均分超过同规模及多家商业模型,72B版本整体位列第四。
研究方法与基本原理
问题定义与模型架构
本研究聚焦多模态数学与逻辑推理任务,将视觉-语言输入转化为序列生成问题,训练分为:
-
RL激励阶段:发掘模型潜在推理能力; -
SFT增强阶段:巩固并补全模型能力。
RL激励(RL Incentivization)
Group Relative Policy Optimization (GRPO)
通过比较同一输入生成的多条轨迹奖励分布,计算归一化优势:
结合裁剪代理目标优化策略:
改进措施
-
去除KL正则,提升策略探索自由度; -
在线过滤,只保留梯度信号有效的样本; -
非对称裁剪,鼓励低概率令牌探索; -
令牌级损失,精细化优化到每个生成令牌; -
超长惩罚,对超过最大长度部分施加线性惩罚。
奖励设计
-
格式奖励:强制链式思考与规范输出,违者奖励归零; -
准确性奖励:基于规则化验证器,给出二值反馈。
SFT增强(SFT Enhancement)
自蒸馏推理轨迹
对正确率介于阈值间的轨迹,采集最优解作为监督信号:
专家知识注入
对模型未能解决的样本,调用外部专家生成高质量解答:
最终SFT数据集:
实验与评估
实验设置
-
基于Qwen2.5-VL系列训练7B与72B模型; -
RL阶段约40K多模态样本,SFT阶段构建约15K监督样本; -
验证工具:VLMEvalKit;评测平台:OpenCompass排行榜。
定量结果
与SOTA比较
Table 1展示Metis‑RISE与主要开源及商业模型在六大基准上的表现。7B与72B版本分别以46.4和56.6平均分领先。
消融研究
Table 2比较RL、单模态SFT、文本SFT与混合SFT对7B模型的增益,混合SFT效果最佳。
定性分析
-
训练动力学:准确性奖励与响应长度均呈上升趋势,表明RL阶段激活了更丰富的链式思考。 -
案例研究:以典型几何题为例,模型展现从几何结构到代数解法的多步逻辑推导能力。
总结和展望
总结
本文提出的Metis‑RISE框架通过“先强化学习后监督微调”的创新训练流程,高效激发并巩固多模态大模型的推理潜能。在RL阶段,GRPO变体不仅提升了样本利用率,还有效激活了模型的链式思考能力;在随后的SFT阶段,自蒸馏与专家注入策略的结合为模型提供了丰富且高质量的监督信号,使推理性能得到可靠提升。整体实验结果在OpenCompass多模态推理排行榜上证明了方法的有效性与可扩展性。
展望
展望未来,Metis‑RISE框架可通过RL与SFT的循环迭代进一步挖掘模型潜能,并在每次迭代中不断完善数据集质量。此外,针对缺乏外部验证器的无监督任务,有望研发基于模型自评估的自动化方法,以扩大框架的适用范围。引入多语言文本及其他模态输入,并相应调整奖励与监督策略,可将Metis‑RISE推广至跨模态、跨语言的更广泛推理场景,推动大模型推理能力的持续突破。
代码实现
-
环境准备
-
安装PyTorch 2.x与Transformers 4.x:
conda create -n metis_rise python=3.10
conda activate metis_rise
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers datasets accelerate -
安装OpenCompass评测工具:
git clone https://github.com/OpenCompass/OpenCompass.git
cd OpenCompass
pip install -e . -
数据准备
-
下载并预处理多模态数据集(格式同OpenCompass):
from utils.data_builder import build_multimodal_dataset
train_data, eval_data = build_multimodal_dataset("/path/to/raw_images", "/path/to/prompts.json") -
RL训练阶段
-
执行
train_rl.py:python train_rl.py \
--model qwen2.5-vl \
--train_data path/to/train_data.json \
--output_dir output/rl_checkpoint \
--epochs 3 \
--batch_size 16 \
--grpo_epsilon_low 0.1 \
--grpo_epsilon_high 0.3 -
检查输出的策略模型和奖励曲线。
-
SFT增强阶段
-
生成自蒸馏与专家增强数据:
python utils/data_builder.py --mode extract_self_distill --input output/rl_checkpoint \
--output self_distill.json
python utils/data_builder.py --mode expert_injection --input failed_samples.json \
--output expert_data.json -
执行
train_sft.py:python train_sft.py \
--model output/rl_checkpoint/best.pt \
--train_data combined_sft.json \
--output_dir output/sft_checkpoint \
--epochs 2 \
--batch_size 8 -
评估与对比
-
使用OpenCompass进行测试:
opencompass eval --model output/sft_checkpoint/best.pt --task multimodal_reasoning -
对比RL前后及不同SFT策略效果。
主要模块
-
utils/data_builder.py负责从原始图像与提示中构建多模态训练、验证、测试数据集,并支持自蒸馏与专家注入模式。
-
train_rl.py实现Group Relative Policy Optimization(GRPO),包含采样、奖励计算与策略更新流程。
-
train_sft.py对RL输出的模型进行监督微调,整合自蒸馏与专家注入生成的混合数据集。
-
evaluate.py(可选) 封装OpenCompass评测脚本,统一测评与结果输出。
扫码添加小助手回复“A220” 免费获取 CVPR2025 大模型相关论文合集



