在线强化学习+流匹配模型！Flow-GRPO：首个在线RL驱动的Flow Matching生成模型



在线强化学习+流匹配模型！Flow-GRPO：首个在线RL驱动的Flow Matching生成模型

极市平台

2025-08-12

导读：↑ 点击蓝字关注极市平台作者丨科技猛兽编辑丨极市平台极市导读 Flow-GRPO首次将在线强化学习引入Flo

↑ 点击蓝字关注极市平台

作者丨科技猛兽

编辑丨极市平台

极市导读

Flow-GRPO首次将在线强化学习引入Flow Matching生成模型，实现从ODE到SDE的创新转换与去噪优化，在加速训练的同时保持T2I生成的高质量输出。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

本文目录

1 Flow-GRPO：第一个使用在线 RL 的 Flow Matching 生成模型
(来自 CUHK MMLab，清华，快手，南大，上海 AI Lab)
1.1 Flow-GRPO 研究背景
1.2 Flow Matching 模型
1.3 去噪作为马尔可夫决策过程
1.4 Flow-GRPO 的核心思想
1.5 Flow Matching 上做 GRPO
1.6 从 ODE 到 SDE
1.7 Denoising Reduction
1.8 实验设置
1.9 实验结果

太长不看版

第一个使用在线 RL 的 Flow Matching 生成模型。

本文提出 Flow-GRPO，将 GRPO[1]集成到文生图的 Flow Matching 模型中。

Flow-GRPO 使用下面两个主要策略：

ODE-to-SDE 转化：把确定性 ODE 转化为对应的 SDE，保持住原始模型的边缘分布。同时，也引入了随机性。允许 RL Exploration 的采样。
一种去噪策略 (Denoising Reduction Strategy)：目的是提升 Online RL 的采样效率。降低训练时 denoising steps，维持推理 steps。在不牺牲性能的前提下，大幅提升了采样效率。实验表明，使用更少的步骤可以保持性能，同时显著地降低数据生成成本。

实验表明，Flow-GRPO 在多个文本到图像任务中都很有效。对于组合生成，RL-tuned SD3.5-M 生成近乎完美的对象计数、空间关系和细粒度属性，将 GenEval 准确率从 63% 增加到 95%。在视觉文本渲染中，准确率从 59% 提高到 92%，大大提高了文本生成性能。Flow-GRPO 在人类偏好对齐方面也取得了可观的收益。

1 Flow-GRPO：第一个使用在线 RL 的 Flow Matching 生成模型

论文名称：Flow-GRPO: Training Flow Matching Models via Online RL

论文地址：

https://arxiv.org/pdf/2505.05470

代码链接：

https://github.com/yifan123/flow_grpo

1.1 Flow-GRPO 研究背景

Flow Matching[2][3]模型在图像生成中已经广泛应用，因其在生成高质量图像方面具有坚实的理论基础和强大的性能。但是，它们通常难以组合涉及多个对象、属性和关系的复杂场景，以及文本渲染。同时，在线强化学习 (Online RL) 已被证明在增强 LLM 推理能力方面非常有效。

之前的研究主要集中在将 RL 应用于 Diffusion-based 的生成模型，以及离线强化学习 (Offline RL) 技术，例如 Flow-based 模型的直接偏好优化 (Direct Preference Optimization)。那么，Online RL 在 Flow Matching 生成模型的潜力在很大程度上仍未探索。本文探讨了如何利用 Online RL 来有效地改进 Flow Matching 模型。

使用 RL 训练 Flow 模型有几个关键难点：

Flow 模型依赖于基于 ODE 的确定性 (Deterministic) 生成过程，意味着它们在推理过程中无法随机采样。但是，RL 依靠随机 (Stochastic) 抽样来探索环境，通过尝试不同的 Action 并根据 Reward 改进来学习。换句话讲，RL 对于随机性的需求，与 Flow Matching 模型的确定性相冲突。
Online RL 依赖于有效的采样来收集训练数据，但 Flow 模型通常需要许多迭代步骤来生成每个样本，对效率很不利。这个问题在大模型中更为明显。为了使 RL 适用于图像或视频生成等任务，提高采样效率必不可少。

图1：Flow-GRPO 概览。给定一个 Prompt set，本文引入了一种 ODE-to-SDE 策略来实现在线 RL 的随机抽样。使用 Denoising Reduction (T=10 Steps)，有效地收集了低质量但仍然信息丰富的轨迹。这些轨迹的 Reward feed 了 GRPO Loss，在线更新模型

1.2 Flow Matching 模型

令为从 data 分布中采样得到的样本，为 noise 采样。最近的图像生成模型 (比如 SD3[4]和 FLUX[5]) 以及视频生成模型 (比如 WAN[6]和 HunyuanVideo[7]) 采用 Rectified Flow，将 "noise" 数据定义为：

其中，。

然后，训练 Transformer 模型，通过最小化 Flow Matching 目标，直接回归速度场：

式中，目标速度场是。

1.3 去噪作为马尔可夫决策过程

如[8]所示，Flow Matching 模型中的迭代去噪过程可以表述为马尔可夫决策过程 (Markov Decision Process， MDP) 。

第 step 的状态（State）是：。动作（Action）是模型预测的去噪之后的样本：。 Policy 的定义：。

转换过程是确定性的：。

初始状态分布：，其中，是以为中心的 Dirac delta distribution。

奖励仅在最后一步给出：如果，则否则为 0 。

1.4 Flow-GRPO 的核心思想

Flow-GRPO 使用 Online RL 增强 Flow Model。作者首先重新审视了 GRPO 的核心思想，并将其应用于 Flow Matching 模型。然后，展示了如何将确定性 ODE Sampler 转换为具有相同边际分布的 SDE Sampler，引入了应用 GRPO 所需的随机性。最后，介绍了 Denoise Reduction，一种实用的采样策略，在不牺牲性能的情况下显著加快了训练速度。

1.5 Flow Matching 上做 GRPO

RL 旨在学习最大化预期累积奖励 (Expected Cumulative Reward) 的策略 (Actor)。这通常被表述为使用正则化目标优化策略：

与其他基于策略的方法 (如 PPO) 不同，GRPO 提供了一种轻量级替代方案，它引入了一个 Group Relative Formulation 来估计优势。

去噪过程可以表述为 MDP。

给定一个 prompt ，Flow 模型采样一组个单独的图像和相应的反向时间轨迹。然后，通过对 Group－level Rewards 进行归一化，来计算第个图像的 Advantage：

GRPO 通过最大化以下目标来优化 Policy Model：

式中，

其中，是惩罚项，目的是防止 Actor Model 和 Reference Model 间隔太远，提高 Actor Model 的泛化能力。

然后，的意思是：

如果，那么我们希望增加的概率。但是这比值不要超过。超过了，就没有额外收益了。
如果，那么我们希望减小的概率。但是这比值不要低于。低于了，就没有额外收益了。

这里的理解参考了：https://www.youtube.com/watch%3Fv%3DOAKAZhFmYoI的讲解。

1.6 从 ODE 到 SDE

GRPO 依赖于式 4 和 5 的随机抽样，生成不同的轨迹以进行优势估计和探索。Diffusion Model 自然支持这一点：正向过程逐步添加高斯噪声，反向过程通过方差递减的马尔可夫链逼近 Score-based SDE Solver。

相比之下，Flow Matching Model 使用确定性 ODE 进行前向过程：

其中，是通过式 2 中的 Flow Matching Objective 来学习的。

那么，有一种常见的采样方法是离散化这个 ODE，在连续时间步之间产生一对一的映射。

但是，这种确定性方法未能满足 GRPO 策略的更新要求，原因有二：

式 5 中的需要计算，由于散度估计，在确定性动力学下的计算成本变得很高。
RL 取决于探索。降低随机性大大降低了训练效率。确定性采样，除了初始种子之外没有随机性，尤其是问题。

为了解决这个限制，作者将式 6 中的确定性 Flow-ODE 转换为 "等效" 的 SDE，该 SDE 在所有时间步长上与原始模型的边际概率密度函数相匹配。

反向时间 SDE 公式：

其中，表示维纳过程增量，是控制采样过程中随机性水平的扩散系数。

证明 (式 8)：

证：

为了在前向采样期间计算式 5 中的，将 Flow Model 适配到 SDE 上。Flow Model 通常遵循确定性 ODE：

现在考虑它带随机项的版本。

作者构建一个具有特定漂移和扩散系数的前向 SDE，使其边际分布与式 7 的边缘分布一致。SDE 的一般形式为：

其边缘概率密度 满足 Fokker–Planck Equation[9]：

同理，式 7 的边缘概率密度为：

为了确保式 9 的 SDE 与式 7 的 ODE 共享一个边缘概率密度，有：

观察到：

把式 13 代入式 12，得：

这样，式 9 的 SDE 可以重写为：

其中，表示维纳过程增量，是控制采样过程中随机性水平的扩散系数。

这里，继续列一下 Forward 和 Reverse SDE 的关系[10]。具体来说，如果 Forward SDE 采用以下形式：

则对应的 Reverse SDE 为：

观察式 15 和 16，有：

把式 18 代入式 17，得：

式 19 即为最终 Reverse SDE。最后化简得到式 8：

调整下逆向布朗运动，最终得到：

得证。

对于 Rectified Flow，式 8 变为：

证明 (式 20)：

证：

一旦 Score Function 得到，就可以直接模拟该过程。对于 Flow Matching，该分数隐式链接到速度场。

具体来说，设。所有期望都在，其中是数据分布。

对于线性插值，我们有：

得到 Conditional Score：

Marginal Score 变为：

下面再看速度场：

代入，式 25 变为：

则式 26 变为：

将式 27 代入式 8，有：

得证。

对 Rectified Flow 的 Reverse-time SDE 式 21：

应用 Euler-Maruyama 离散化得到最终的更新规则：

其中，注入了随机性。

在该文章中，使用，其中，是控制噪音强度的超参数。

式 28 表明是高斯分布，则可以很容易地计算式 6 中和参考策略之间的 KL 散度：

证明 (式 29，这里证明一维情况)：

证：

假设我们有两个维高斯分布：

那么它们的 KL 散度为：

式中，为来自两个协方差矩阵的行列式比值。

在本文的情况下，，那么：

代入式 31，得：

式中，。

得证。

1.7 Denoising Reduction

为了生成高质量的图像，Flow Model 通常需要许多去噪步骤，这使得 Online RL 的数据收集成本很高。

但是，作者发现 Online RL 训练期间不需要大时间步。可以在样本生成过程中使用更少的去噪步骤，同时在推理过程中保留原始去噪步骤以获得高质量的样本。

注意，在训练期间将时间步 T 设置为 1 0 ，而推理时间步 T 设置为 SD3.5-M 的原始默认设置 40 。实验表明，这种方法可以在不在测试时牺牲图像质量的情况下实现快速训练。

1.8 实验设置

Compositional Image Generation：使用基于 Rule 的 Reward。
Visual Text Rendering：Reward 测量文本保真度。
Human Preference Alignment：使用 PickScore 作为 Reward Model。PickScore 提供了评估多个标准的总体分数，例如图像与提示的对齐及其视觉质量。
图像质量评价指标：4 个图像质量指标：Aesthetic Score[11]，DeQA[12]，ImageReward[13]，UnifiedReward[14]。

1.9 实验结果

图 2 和图 3 展示出 Flow-GRPO 的 GenEval 性能在训练期间稳步提高，最终结果优于 GPT-4o。同时，也可以保持住 DrawBench 上的图像质量指标和偏好分数。

图2：实验结果。(a) GenEval 性能在整个 Flow-GRPO 的训练中稳步上升，优于 GPT-4o；(b) DrawBench 上的图像质量指标基本保持不变；(c) DrawBench 上的人类偏好分数在训练期间有所提高

图 4 提供了定性比较。

除了组合图像生成之外，图 5 详细说明了视觉文本渲染和人类偏好任务的评估。Flow-GRPO 在不降低 DrawBench 上的图像质量指标和偏好分数的情况下，提高了文本渲染能力。

图5：Compositional Image Generation, Visual Text Rendering, 以及 Human Preference 的结果对比

定性示例如图 6，7，8 所示。

对于人类偏好任务，在没有 KL 正则化的情况下，图像质量没下降。但作者发现如果不使用 KL 正则化会导致视觉多样性崩溃。这些结果都表明，Flow-GRPO 可以提高所需能力，同时使得图像质量或视觉多样性的退化很小。

图6：使用 GenEval 奖励训练的 SD3.5-M 和 SD3.5-M + Flow-GRPO 之间的额外定性比较

图7：使用 OCR 奖励训练的 SD3.5-M 和 SD3.5-M + Flow-GRPO 的额外定性比较

图8：使用 PickScore 奖励训练的 SD3.5-M 和 SD3.5-M + Flow-GRPO 之间的额外定性比较

参考

Deepseekmath: Pushing the limits of mathematical reasoning in open language models
Flow matching for generative modeling
Flow straight and fast: Learning to generate and transfer data with rectified flow
Scaling rectified flow transformers for high-resolution image synthesis
Flux. https://github.com/black-forest-labs/flux
Wan: Open and advanced large-scale video generative models
Hunyuanvideo: A systematic framework for large video generative models
Training diffusion models with reinforcement learning
Stochastic differential equations
Score-based generative modeling through stochastic differential equations
Laion aesthetics
Teaching large language models to regress accurate image quality scores using score distribution
Imagereward: Learning and evaluating human preferences for text-to-image generation
Unified reward model for multimodal understanding and generation