

TRO-202508 | 物理嵌入强化学习，突破多机器人可扩展性协同瓶颈

外贸达人Cici

2025-08-29

导读：近期发表在 IEEE Transactions on Robotics 的研究，提出了一种物理嵌入的多智能体强化学习方案，完美解决了“集中式控制无法实现数量扩展、独立式控制浪费邻域信息”的痛点。

基于物理嵌入强化学习的多机器人分布式协作方案

在探索建图、农业放牧、搜救等场景中，多机器人系统比单机器人更高效可靠——但如何让机器人“强协同不内耗、大规模不崩盘”，一直是业界难题。近期发表在 IEEE Transactions on Robotics 的研究，提出了一种物理嵌入的多智能体强化学习（Physics-Informed MARL） 方案，完美解决了“集中式控制无法实现数量扩展、独立式控制浪费邻域信息”的痛点，还能直接从仿真零样本迁移到真实机器人。

论文链接：https://doi.org/10.1109/TRO.2025.3582836
开源代码：https://github.com/EduardoSebastianRodriguez/phMARL
补充视频：https://youtu.be/pSzP3LBVyZg

🌲 研究背景：多机器人协同的“老大难”问题

现有多智能体强化学习（MARL）面临两大核心挑战：

可扩展性瓶颈：集中式控制需全局状态，机器人数量增加时计算量指数级上升；独立式控制忽略邻域信息，协作任务（如共同推箱子、避障）性能拉胯。
物理一致性缺失：传统神经网络是“黑箱”，不考虑机器人能量守恒、动力学约束，容易出现不切实际的动作（如瞬间加速、无碰撞穿透），仿真到现实迁移困难。

这篇研究的核心思路：

用物理规律约束学习过程；
用自注意力筛选邻域信息；
令控制策略“天生分布式、自带物理属性”。

🚀 核心贡献：物理+注意力+强化学习的融合

研究提出的pH-MARL（Physics-Informed MARL）方案，有三个颠覆性设计，总体方案如下。

1. 端口哈密尔顿结构：让机器人“懂物理”

机器人是物理系统，能量守恒是基本规律。方案将每个机器人建模为端口哈密尔顿系统，通过能量交换描述机器人间的交互：

用“互联矩阵J”表示机器人间的能量传递（如推箱子时的力交互）；
用“耗散矩阵R”表示能量损耗（如摩擦、阻力）；
用“哈密尔顿函数H”表示总能量（动能+势能）。

这种建模方式确保机器人动作符合物理规律，不会出现违背力学原理的怪异行为，为仿真到现实迁移打下基础。

2. 自注意力机制：让机器人“不瞎看”

多机器人的邻域关系是时变的（如机器人移动时邻居会变化），传统方法要么看全局（算力爆炸）、要么看固定邻居（不灵活）。方案用自注意力实现“动态稀疏感知”：

每个机器人只关注k跳邻居（如1-hop即直接相邻的机器人）；
通过“查询Q-键K-值V”计算邻居信息的重要性，自动忽略无关数据；
注意力参数与机器人数量无关，再多机器人也能高效处理。

3. 改进软演员-评论算法：不用“拆分价值函数”

传统MARL为处理多智能体，需拆分价值函数（如每个机器人一个Q函数），导致泛化差。方案将整个机器人团队视为“单个智能体”：

评论器（Critic）是集中式的，学习全局任务价值（如“箱子是否推到目标”）；
演员（Actor）是分布式的，每个机器人用自注意力和哈密尔顿参数化自己的策略；
回放缓冲区不仅存储状态/动作/奖励，还记录机器人交互图（邻域关系），保留机器人间的相关性。

这种设计既利用了全局信息指导学习，又保证了策略的分布式执行，不用拆分函数就能处理协作任务。

物理嵌入的强化学习策略训练流程

🎯 实验验证：七大场景+真实机器人，性能碾压SOTA

研究做了全面的实验验证，覆盖协作、竞争、混合任务，从仿真到真实平台，结果惊艳。

1. 消融实验：物理+注意力组合有多强？

在“反向运输”“环境采样”“导航避障”3个场景中，对比了4种方案：

pH-MARL（本文方案）
MLP（传统全连接）
MSA（模块化自注意力）
GSA（图+注意力）

关键结果（4个机器人场景，10次评估平均奖励）：

方法	反向运输	环境采样	导航避障
pH-MARL	213 ± 21	161 ± 41	-53 ± 101
MLP	64 ± 38	73 ± 25	-280 ± 98
MSA	57 ± 43	82 ± 32	-353 ± 99
GSA	90 ± 49	89 ± 38	-204 ± 87

可见pH-MARL在所有场景中碾压其他方案：

反向运输：其他方案常因动作不物理导致“推不动箱子”，pH-MARL能稳定推到目标；
导航避障：pH-MARL碰撞惩罚最低（-53），MSA因忽略物理约束碰撞最多（-353）。

扩展性测试更震撼，训练时用4个机器人，部署时机器人数量从4增加到16时：

pH-MARL和GSA能保持稳定奖励，MLP/MSA因输入维度固定直接崩溃；
即使16个机器人挤在2×2m的小空间（每个机器人半径15cm），pH-MARL仍能避障并完成任务。

2. 对比实验：碾压6种SOTA方案

在“食物收集”“草原逃生（避捕食者）”“对抗竞争（两队抢食物）”3个场景中，对比了MADDPG、MFAC、EPC、DARL1N、MAPPO等SOTA：

其他方案：需针对每个机器人数量（3/6/12/24/48）单独训练；
pH-MARL：仅用4个机器人训练，直接部署到所有数量。

关键结果：

机器人数量接近训练值（3/6/12）：pH-MARL奖励比所有SOTA高；10%-50%（如食物收集场景，12个机器人时pH-MARL奖励5，MAPPO仅3）；
机器人数量远超训练值（24/48）：pH-MARL仍优于MADDPG/MFAC，与EPC/DARL1N持平；
对抗场景（48个机器人）：pH-MARL是唯一能稳定避撞+抢食物的方案，MAPPO因算力不足完全失效。