大数跨境

让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26 量子位
2026-04-06
125
导读:从「局部合理」到「全程流畅」
MAGE团队 投稿 | 量子位 | 公众号 QbitAI

现有生成式离线强化学习方法在处理复杂连续任务的长程规划时存在明显短板,其生成轨迹易陷入局部合理但全局偏离的困境,过度聚焦短期步骤而忽视长期目标。

针对该问题,厦门大学与香港科技大学联合提出新型离线强化学习算法MAGE(Multi-scale Autoregressive Generation,魔法师)。该算法采用自顶向下的“由粗到细”生成策略,先构建宏观规划再细化微观动作,符合人类认知逻辑——如同素描先绘制整体轮廓再刻画细节。

△ MAGE的思考过程

揭示AI长程规划缺陷的迷宫实验

研究团队设计迷宫寻宝实验验证模型缺陷:智能体需从随机起点出发,通过全局空间理解,依序收集银币、金币并抵达终点。现有模型表现凸显三大短板:

  • Decision Transformer因单向自回归特性缺失全局上下文,完全迷失方向;
  • Decision Diffuser受局部生成偏差影响,虽抵达终点但遗漏关键金币;
  • Hierarchical Diffuser因双层结构僵化、高低层策略脱节,甚至出现物理违规的“穿墙”现象。

MAGE通过多尺度架构解决上述问题:首先在粗粒度层生成包含关键节点的宏观轨迹轮廓,再逐层细化微观动作,确保全局连贯性。

MAGE的核心架构解析

△ MAGE架构图

多尺度轨迹自编码器(MTAE):将长序列轨迹转化为多尺度离散Token,粗尺度Token掌控全局长程结构,细尺度Token建模短期动态细节。

多尺度条件引导自回归生成:基于目标回报与初始状态的Transformer序列生成,确保每步动作均导向最终目标。

条件引导细化机制:通过轻量级适配器模块与条件引导损失函数(Lcond),强制初始状态精确对齐真实环境,结合潜在逆动力学模型输出最终动作。

实验性能与部署优势

研究在Adroit、Franka Kitchen、AntMaze等5大离线强化学习基准测试中,对比15种基线算法验证MAGE效能。

多任务综合表现卓越

在Adroit高维机械臂任务中,MAGE克服稀疏奖励挑战实现显著性能提升;Franka Kitchen组合任务中凭借全局-局部联合建模优势大幅领先;迷宫导航任务全面超越现有方法,验证长序列规划能力。

实时推理效率优势

MAGE运行速度较Hierarchical Diffuser提升50倍,较Decision Diffuser提升80倍,单步推理仅27毫秒,完全满足机器人控制所需的20Hz实时性要求。

研究展望

MAGE通过多尺度轨迹建模与条件引导的创新融合,实现连贯可控的高回报轨迹生成。该技术突破有望推动具身智能发展,使机器人具备自主全局规划能力。

论文链接:https://arxiv.org/abs/2602.23770
开源代码:https://github.com/xmu-rl-3dv/MAGE
实验室主页:https://asc.xmu.edu.cn/

作者:厦门大学空间感知与计算实验室(ASC Lab)林晨兴、高鑫辉(硕士生),通讯作者沈思淇副教授,合作成员张海鹏、李欣然(香港科技大学)、王海涛、梅松竹、刘伟权、王程。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14971
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读170.2k
粉丝0
内容15.0k