大数跨境

NTU最新力作:RL新范式!GoRL如何打破"稳定"与"表达力"的零和博弈?

NTU最新力作:RL新范式!GoRL如何打破"稳定"与"表达力"的零和博弈? 拓扑学术
2025-12-10
51
导读:Arxiv最新:RL新范式!GoRL如何打破"稳定"与"表达力"的零和博弈?

Arxiv最新:RL新范式!GoRL如何打破"稳定"与"表达力"的零和博弈?

封面

在强化学习(RL)里,我们似乎总是面临一个残酷的二选一:要么选择高斯策略,求稳但表达力有限;要么选择生成式策略(如扩散策略 Diffusion Policy),够强但主要为模仿学习(行为克隆)设计,在线训练极不稳定。这篇论文提出了一种结构性的解耦框架——GoRL。它不强行魔改梯度,而是将“大脑”(策略优化)与“肢体”(动作生成)分离,实现了既稳又强的控制效果。在 HopperStand 等高难度任务上,Gaussian PPO 与 FPO 等基线的平均回报长期停滞在 300 以下,而 GoRL 最终突破 870,优势极其显著。 🚀


论文标题: GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies
作者: Chubin Zhang, Zhenglin Wan, Feng Chen, Xingrui Yu, Ivor Tsang, Bo An
机构: 北京邮电大学, 南洋理工大学, 新加坡科技局
原文链接:
https://arxiv.org/abs/2512.02581
开源代码链接:
https://github.com/bennidict23/GoRL

🔍 引言:RL控制的“梦想与现实”

在连续控制领域,我们都梦想着 Agent 能像人类一样,拥有处理复杂情况的“多模态”能力——面对障碍物,既能向左闪避,也能向右跳跃,而不是卡在中间不知所措。

然而,现实是骨感的,我们手中的工具往往难以两全:

🏹 高斯策略(普通弓箭):目前的主流(如 PPO),虽然梯度平滑、训练稳定,但本质是单峰的。面对需要多模态动作的复杂环境,它表现平平。
🔫 生成式策略(重型狙击枪):引入 Diffusion 或 Flow Matching 后,表达能力爆表。但在在线 RL (Online RL) 中,由于数据分布不断变化,直接对几十步去噪过程求导会导致梯度极度不稳定,训练极易崩塌 📉。

核心痛点“表达能力”与“优化稳定性”似乎是一场零和博弈。 现有的端到端方法(如 FPO)试图通过近似梯度来强行训练,但往往牺牲了熵正则化(Entropy Regularization),导致在长视界任务中容易失效。这正是 GoRL 要解决的——它给出了一个无需复杂梯度近似的优雅解法。


🛠️ 方法详解:GoRL的“双核”炼金术

GoRL 的核心逻辑非常直观:既然生成模型的梯度难算,那我们就不直接算它,让生成模型干它擅长的事!

作者将策略拆解为两个部分:Encoder(大脑) 负责决策意图,Decoder(肢体) 负责将意图转化为复杂动作。整个训练过程采用**双时间尺度(Two-Time-Scale)**交替进行。

第一步:潜在空间优化 (Latent Optimization) —— 稳练脑 🧠

操作:冻结 Decoder,只训练 Encoder。
原理:Encoder本质上是稳定易优化的一个高斯策略,其输出是后续生成模型的先验分布,在简单的潜在空间输出高斯分布 , 通过优化生成模型的先验分布来优化后验动作分布的表现。因为 Encoder 结构简单,我们可以直接用成熟的 PPO 算法训练。
核心优势:论文证明,当 Decoder 固定时,潜在空间的策略梯度是真实策略梯度的无偏估计。这意味着 GoRL 继承了 PPO 的信赖域稳定性,完美保留了熵正则化,保证了持续探索的能力。

第二步:解码器精炼 (Decoder Refinement) —— 强练体 💪

操作:冻结 Encoder,只训练 Decoder。
原理固定先验分布,通过优化生成模型的生成过程来优化后验动作分布的表现。利用收集到的高回报数据,将 Decoder 视为监督学习任务来训练, 让生成模型做擅长的事情。
关键设计(Fixed Prior):为什么要强制 Decoder 从固定的标准正态分布 学习映射?

直觉解释:如果用不断变化的 latent 分布去训练 Decoder,容易形成“自我复现的停滞循环”(Stagnation Loop);固定先验相当于给 Decoder 一个“稳定锚点”,让它持续逼近“高回报动作分布”,而非过拟合当前的策略。

GoRL框架图
GoRL框架图

📊 实验成果:性能与多模态的双重胜利

作者在 DMControl Suite 上对比了高斯 PPO 及最新的生成式基线(FPO, DPPO),结果令人印象深刻!🎯

实验曲线对比
实验曲线对比
1

性能暴涨 📈
在极具挑战性的 HopperStand 任务中,传统的 Gaussian PPO 和 FPO 由于无法有效探索或后期塌陷,平均回报长期停滞在 300分 以下。而 GoRL(Diff) 稳步上升,最终突破 870分,证明了其在长视界复杂控制任务上的统治力。

2

多模态分布演化 🌊
可视化动作分布清晰展示了策略的演变:

动作分布演化
动作分布演化
  * **PPO**:受限于单峰假设,始终无法分化。  * **GoRL**:随着训练进行,清晰地演化出了**双峰 (Bimodal)** 分布,真正掌握了多模态控制策略。

🔬 深度分析:为什么端到端在线优化容易塌陷?

论文观察到,端到端优化的代表性方法 FPO 在 6 个测试任务中的 4 个都出现了中后期性能崩塌(Collapse)。

作者将其归因于:为了绕过梯度计算,FPO 使用了 Surrogate Objective(替代目标),这导致它在在线分布漂移下可能与真实策略梯度失配;同时,Flow Matching 本身缺乏对策略熵的直接控制机制,导致探索能力在训练后期迅速枯竭。相比之下,GoRL 在潜在空间做标准 PPO,天然保留了熵正则化,保证了持续探索的能力。


💎 Q&A

1. GoRL 的适用范围?

答:GoRL 是一个 Algorithm-Agnostic (算法无关) 的框架。你可以自由选择 Diffusion 或 Flow Matching 作为 Decoder(文中均有实现)。在强化学习算法侧,虽然文中以 PPO 为例,但论文讨论了未来向 SAC 等 Off-policy 方法扩展的可能性。适用范围提示:当前主要验证了 On-policy + 低维状态的控制任务。

2. 既然 Encoder 每次都要重置,会不会学得很慢?

答:不会。因为 Decoder(肢体)在不断变强,它能把简单的标准正态分布映射成越来越牛的动作。每次重置 Encoder,相当于让大脑在一个已经很强的身体上重新适应(Behavioral Warm Start),实际上加速了收敛。

3. GoRL 的代价是什么?

答:天下没有免费的午餐。GoRL 需要维护两个网络(Encoder 和 Decoder),且采用交替训练模式,这意味着计算开销和工程复杂度会高于端到端的 MLP 策略。但这换来的是生成式策略在 Online RL 中真正的可用性与高性能。


💡 思路启发

GoRL 的成功给我们提供了一个处理复杂系统的思路:不要试图硬刚数学上极其复杂的梯度路径。
通过引入中间层(Latent Space),将“难优化”的生成部分和“需优化”的决策部分拆开处理,反而能取得意想不到的效果。这对于我们在大模型微调、复杂系统控制等领域的设计都有很好的借鉴意义。


🏅 点评

论文创新性:★★★★★
提出了“解耦优化与生成”的结构性解法,巧妙避开了在线生成式策略的梯度难题。
实验合理度:★★★★★
实验对比了强力基线(FPO/DPPO),在长视界任务上的 3 倍性能提升非常有说服力,多模态可视化直观展示了生成式策略的优势。
学术研究价值:★★★★★
为 Generative RL 领域提供了一个通用的、算法无关的框架,是解决 Online RL 不稳定性问题的重要里程碑。
应用价值:★★★★☆
虽然计算开销略高于 MLP,但其强大的表达能力使其成为解决复杂控制问题的首选方案。
复现难度:★★★☆☆
框架清晰,作者提供了开源代码,不依赖特定的魔改算子(如 ODE 反向传播),复现门槛相对适中。

📚 参考文献

1
McAllister et al. "Flow Matching Policy Gradients" (FPO)
2
Ren et al. "Diffusion Policy Policy Optimization" (DPPO)
3
Schulman et al. "Proximal Policy Optimization Algorithms" (PPO)

恭喜你!又跟着哆啦b梦读完了一篇前沿论文!
后续作者也会进行分享会,欢迎关注~~~

如果觉得对你有帮助,请积极关注、推荐(点个在看)或者转发哦~ 您的支持是我持续输出的动力!🤝

【声明】内容源于网络
0
0
拓扑学术
拓扑学术是一家专业的人工智能科研教育服务团队,由一批顶尖的海内外博士博后创办,为本科生研究生等高端AI人才提供高水平科研服务,涵盖科研辅导,保研申博留学工作职业规划等多种服务。
内容 53
粉丝 0
拓扑学术 拓扑学术是一家专业的人工智能科研教育服务团队,由一批顶尖的海内外博士博后创办,为本科生研究生等高端AI人才提供高水平科研服务,涵盖科研辅导,保研申博留学工作职业规划等多种服务。
总阅读975
粉丝0
内容53