

Sim2real基础与学习路线

Xbotics具身智能实验室

2025-11-18

导读：仿真平台与机器人接口学习目标能够部署机器人仿真环境，定义训练任务接口，进行高效的策略评估和训练

阶段一：仿真平台与机器人接口

学习目标

能够部署机器人仿真环境，定义训练任务接口，进行高效的策略评估和训练。

主流仿真平台对比

平台	特点	适用方向
MuJoCo	精确物理、轻量、高性能，易集成	动作控制、学术研究
Isaac Gym	GPU并行仿真，支持大规模并发训练	灵巧操作、大模型预训练
Isaac Sim	与Omniverse深度集成，支持视觉渲染与RTX加速	Sim2Real、视觉任务
PyBullet	免费、跨平台、Python友好	教学、轻量训练

搭建训练环境所需模块

环境定义：状态空间、动作空间、reward设计

控制接口：通过gym.Env封装物理接口

可视化与评估：保存视频、实时可视化、metrics对比

MuJoCo 仿真项目（Ant / Walker）

简介：该项目基于 MuJoCo 环境，实现了 Ant 机器人的 PPO 强化学习训练。

特点：

详细的训练过程记录和参数设置。

适合初学者了解 MuJoCo 环境下的强化学习训练流程。(CSDN)

Isaac Gym 多机械臂抓取任务

2. https://github.com/patrickeala/IsaacGymGrasp

简介：该项目使用 Isaac Gym 平台，模拟机械臂进行抓取任务。

特点：

提供了完整的环境搭建和训练代码。

适合学习多机械臂在仿真环境中的抓取策略训练。(elephantrobotics.com)

PyBullet + URDF 机械臂视觉抓取

3.FR5_Reinforcement-learning

简介：该项目基于 PyBullet 和 Stable Baselines3，实现了法奥机械臂的强化学习抓取训练。

特点：

集成了视觉输入和机械臂控制。

适合学习视觉引导下的机械臂抓取任务。(GitHub)

4.tb3_open_manipulator_pybullet

简介：该项目在 PyBullet 中模拟了 TurtleBot3 与 OpenManipulator 的联合控制。

特点：

提供了机械臂的 URDF 模型和控制接口。

适合学习移动平台与机械臂的协同控制。(GitHub, 知乎专栏)

实战任务建议

结合上述项目，您可以尝试以下实战任务：

MuJoCo 环境下的 Ant/Walker 机器人行走：使用 MuJoCo-Ant-PPO 项目，训练 Ant 机器人在 MuJoCo 环境中实现稳定行走。

Isaac Gym 中的多机械臂抓取任务：参考 IsaacGym-Panda-Grasping 项目，构建多机械臂仿真任务，训练抓取策略。

PyBullet 中的 URDF 机械臂视觉抓取测试：利用 FR5_Reinforcement-learning 项目，在 PyBullet 中集成 URDF 机械臂，进行视觉抓取测试。(GitHub)

阶段二：Sim2Sim

一、什么是 Sim2Sim？

Sim2Sim 指的是从一个仿真环境到另一个仿真环境的知识迁移，其目标是提升在不同仿真器之间的策略通用性和鲁棒性 (ai.stackexchange.com)。

在 Sim2Real 中，难点在于仿真和现实环境存在现实差距；

而在 Sim2Sim 中，这种差距则体现在仿真器之间的物理模型、动力学积分方法、观测噪声等差异 (cs224r.stanford.edu)。

通过在不同仿真平台（如 MuJoCo、Isaac Gym 或 PyBullet）之间转移策略，可以在完全可控环境下研究跨环境泛化问题。

二、Sim2Sim 的学习价值

诊断迁移失败原因：在仿真内部失败意味着策略对物理模型敏感；

调优跨平台鲁棒性：通过随机化或结构化方法增强泛化；

为 Sim2Real 铺路：如果策略在不同仿真间表现稳定，更容易迁移到现实。

学习步骤详解

安装多个仿真环境：如 Isaac Gym、MuJoCo、PyBullet。

训练基础策略：如四足机器人任务，在 Isaac Gym 中使用 PPO 自主训练。

测试迁移：将模型加载到 MuJoCo 中进行 zero-shot 测试，并记录差异。

施加随机化：固定随机扰参数（摩擦、质量、时间步长等）在训练阶段引入变化。

应用静态摩擦 aware 模型：针对摩擦差异进行域内补偿 (cs224r.stanford.edu)。

重复验证：对比无随机化、随机化、以及静态摩擦 aware 模型的迁移性能。

扩展视觉输入维度：以 SplitNet 实现视觉 sim2sim，并与策略迁移同步。

Sim2Sim 案例项目推荐

1. SplitNet – 视觉导航领域的 Sim2Sim 专案

功能：将视觉编码（Perception）与策略解码（Policy）解耦，实现不同仿真环境间迁移

亮点：支持 Task2Task（任务迁移），在分页少的情况下即可迁移效果优于端到端方案 (github.com, paperswithcode.com)

链接：https://github.com/facebookresearch/splitnet (github.com)

2. DRL-PPO-sim2sim-imitationlearning – 悬臂机器人 Sim2Sim

功能：基于 PPO 进行 Ant-v4/RL 算法训练，测试模型在不同环境参数下（e.g. 干/湿地、质量变化）迁移能力

亮点：分 Part 测试 sim2sim 泛化 + 使用模仿学习（Behavior Cloning）强化迁移效果 (github.com)

链接：https://github.com/basverkennis/DRL-PPO-sim2sim-imitationlearning (github.com)

3. Unitree RL GYM – 四足机器人跨仿真迁移

功能：支持在 Isaac Gym → MuJoCo → 实机的迁移流程（Train → Play → Sim2Sim → Sim2Real）

亮点：覆盖多型号 Unitree 机器人，集成 Sim2Sim 验证，有中文 README (github.com)

链接：https://github.com/unitreerobotics/unitree_rl_gym (github.com)

4. Humanoid-Gym – 哈比机器人仿真与 Sim2Sim

功能：Isaac Gym 上 humanoid locomotion，支持 zero-shot Sim2Real，并提供 Sim2Sim 测试（如 Isaac → MuJoCo）

亮点：实验已验证在真实机器人 XBot-S/XBot-L 上零样本迁移，Sim2Sim 多平台适配性强 (github.com)

链接：https://github.com/roboterax/humanoid-gym (github.com)

5. Sim2Sim-VLNCE – 视觉语言导航（VLN）Sim2Sim

功能：在 Habitat 环境中训练，迁移政策用于不同虚拟空间（Sim2Sim）

亮点：聚焦 Vision-and-Language Navigation，适合多模态输入策略泛化研究 (github.com)

链接：https://github.com/jacobkrantz/Sim2Sim-VLNCE (github.com)

6. AgiBot X1 Train – 板式机器人 Sim2Sim 控制

功能：训练机器人平衡控制，并可在 MuJoCo 中运行 sim2sim 验证脚本

亮点：结构清晰，便于扩展自定义环境，实现 sim2sim 指标验证 (github.com)

链接：https://github.com/AgibotTech/agibot_x1_train (github.com)

7. OmniIsaacGymEnvs DofbotReacher – Isaac Gym 控制任务

功能：多个维度控制任务训练，使用 PPO 在 Isaac Sim 上运行

亮点：便于扩展 Sim2Sim 实验，比如切换到 MuJoCo 或 PyBullet 进行验证 (github.com)

链接：https://github.com/j3soon/OmniIsaacGymEnvs-DofbotReacher (github.com)

如何开始使用它们？

项目	推荐使用场景	入门建议
SplitNet	Sim2Sim视觉迁移	安装 Habitat + SplitNet，测试 sim-to-sim performance
DRL-PPO	物理参数敏感性实验	修改 mass/friction，评估 PPO 泛化
Unitree RL GYM	实用机器人 Sim2Sim	模型训练于 Isaac Gym，随后在 MuJoCo 验证
Humanoid-Gym	平衡 locomotion 的 Sim2Sim/S2R	训练后可扩展环境随机化测试
Sim2Sim-VLNCE	多模态视觉语言任务	试点任务迁移与语义泛化
AgiBotX1	基础控制 + Sim2Sim 验证	在不同物理设置下运行 sim2sim.py
OmniIsaacGymEnvs	多任务控制 · Sim2Sim	可快速搭建 RL 训练流程，便于扩展验证

下一步建议

选择项目启动方向：比如如果你关注视觉迁移，可先尝试 SplitNet；想做四足机器人则选 Unitree。

搭建依赖环境（Isaac Gym/MuJoCo/Habitat等）。

运行作者 demos，并记录 baseline performance。

插入 Sim2Sim 验证：如在另一仿真器或参数随机化环境中加载并测试策略。

改进实验设置：加入物理随机化、视觉变化、学习比对等方法加强效果。

阶段三：Sim2Real

一、Sim2Real 的定义与背景

Sim2Real（Simulation to Reality）是强化学习（RL）在机器人领域的一类迁移学习问题，旨在解决现实环境中采样效率低、安全风险高的问题。

在仿真中训练可避免采样效率低、安全性差、耗时长等挑战；

然而，仿真与现实存在“reality gap”，即物理/视觉建模误差导致策略直接迁移效果差，属于典型的域差异问题。

虽然关注点是仿真到现实，但上述大多数方法同样适用于 sim2sim 和 real2real 等迁移场景。

二、Sim2Real 方法分类（五大类）

Domain Adaptation（域适配）

通过在仿真与现实环境中学习共同的隐表示，将状态映射到共享潜在空间，实现迁移（如斐尔等人提出的方法）。

Progressive Network（增量网络）

采用 Progressive Neural Network 结构，先在简单仿真任务训练、再扩展到复杂现实任务，渐进迁移。

Inverse Dynamics Model（逆动力学）

在现实环境中学习逆动力学模型，将仿真策略输出的下一步状态映射为现实可执行动作。

Domain Randomization（领域随机化）

随机化仿真环境中的视觉（纹理、光照、摄像机参数）和物理（摩擦、质量等），以训练出对变化具有鲁棒性的策略。

（可增）其他策略如 Curriculum Learning、Meta‑Learning、Foundation‑Model 驱动等，但我们当前覆盖前五类为主。

三、核心Sim2Real论文算法解读

Tzeng等人 (2015) – Domain Adaptation + 对比学习

通过 pose estimation loss、domain confusion loss 和 contrastive loss 联合训练，共同学习仿真与现实图像的隐空间结构映射，从而实现真实策略迁移。

Gupta等人 (2017) – Invariant Representation with Dynamic Time Warping

使用 DTW（动态时间规整）对齐模拟与现实状态序列，训练共享的隐写映射及编码器，以迁移 RL 策略。

Rusu等人 (2016) – Progressive Nets for Pixels→现实

采用增量网络结构，以仿真任务初始化网络，再将参数用作现实任务训练初始化，并连接仿真任务隐藏层传递知识。

Christiano等人 (2016) – 深度逆动力学模型

通过在现实环境中收集少量状态–动作–下一状态三元组，训练逆模型，将仿真策略生成的目标状态转化为现实可执行动作。

Peng等人 (2018) – Dynamics Randomization

对关键物理参数（摩擦系数、质量等）进行随机采样，训练RL策略最大化在分布上的累计奖励，从而增强鲁棒性。

Tobin等人 (2017) – 视觉领域随机化

对仿真环境中纹理、摄像机参数、光源、噪声等进行随机混合，使视觉模型（例如3D目标定位）在现实环境下泛化。

四、Sim2Real 应用与挑战概括

大类技术路线：Domain‑Adaptation、Progressive、Inverse‑Dynamics、Domain‑Randomization、增量+RL 网络。

关键设计要素：

视觉 vs 物理对齐（图像 vs 动力学）：不同任务关注点不同；

监督对齐 vs 无监督对齐（如使用 contrastive vs DTW）；

仿真精度 vs 随机性：高 fidelity + 强随机化可互补；

并行训练资源的重要性（如分布式 PPO）；

Foundation 模型融入为未来趋势。

未解关键问题：

仿真 fidelity、模拟速度 vs 精度平衡

安全性、行程自适应、任务稀疏 reward 等问题与真实关联

利用 LLM 和其他大型基础模型提供语义、奖励、结构引导

以下是精选的 Sim2Real 案例项目，从视觉感知、机械手、高级集成平台到实用控制，涵盖不同技术路径，均来自 GitHub，你可以直接克隆、运行，快速验证 Sim2Real 效果。

1. NVlabs/handover‑sim2real

功能：实现从仿真到现实的点云驱动机器人交接动作学习（CVPR 2023）

亮点：提供预训练模型、训练脚本；集成 DDPG 和规划器，模拟与真实端对齐

🔗 https://github.com/NVlabs/handover-sim2real (github.com)

2. facebookresearch/spot‑sim2real

功能：Boston Dynamics Spot 机器人 Sim2Real 框架，支持视觉导航与复杂任务调用

亮点：结合 ROS 通信、LLM/视觉感知驱动任务协调；实现仿真代码与实机一致部署

🔗 https://github.com/facebookresearch/spot-sim2real (github.com)

3. UT‑Austin‑RobIn/lang4sim2real

功能：结合自然语言提示提升 Sim2Real 迁移效果（RSS 2024）

亮点：支持 robosuite、robomimic 和真实 Panda 机械臂；集中在语言指导下的任务迁移

🔗 https://github.com/UT-Austin-RobIn/lang4sim2real (github.com)

4. ammar-n-abbas/sim2real‑ur‑gym‑gazebo

功能：将 UR5 机械臂在 Gazebo 中训练的 RL 抓取策略迁移到真实环境

亮点：支持障碍物/人类协作避碰，多算法 (TQC 等)；直接面向安全关键系统部署

🔗 https://github.com/ammar-n-abbas/sim2real-ur-gym-gazebo (github.com)

5. mehrab-abrar/Sim2Real (Quadruped)

功能：冻湖游戏（Frozen Lake）环境中训练四足机器人策略并移植真实导航实验

亮点：低成本开源四足机器人 + 柏林图格网导航，零传感器定位无映射依赖

🔗 https://github.com/mehrab-abrar/Sim2Real (github.com, arxiv.org)

开始步骤建议

项目	推荐方向	第一步
handover-sim2real	点云 + 物体交接	克隆仓库 → 安装环境 → 运行 demo
spot-sim2real	视觉导航 + LLM as 控制器	配置 Spot 或仿真模式 → 运行 keyboard teleop
lang4sim2real	语言提示融合 Sim2Real	仿真和实机环境 setup → 跑例子收集数据
UR‑Gym‑Gazebo	仿真 RL 到实机	训练策略 → 运行 sim2real 验证脚本
Quadruped Frozen Lake	网格导航迁移	克隆项目 → 上传四足板 → 实地跑动验证

下一步建议

选一个项目优先做，例如 UR5 或四足机器人，根据你有的设备。

搭建环境（ROS、Gazebo、PyBullet、Spot SDK）。

运行 demo，记录仿真与实机的性能差别。

插入 Sim2Real 增强方法，如 Domain Randomization、逆动力模型或语言提示。

迭代优化，比较技术与性能变化。

告诉我你的设备环境（如是否有机械臂/Spot机器人/四足机器人），我可以为你准备具体启动脚本、依赖安装命令或训练例子快速上手某个项目！

【声明】内容源于网络

Xbotics具身智能实验室

学习机器人与具身智能技术：1、国内独家机器人具身智能社群圈子人脉。2、Xbotics具身智能社区知识库 https://yv6uc1awtjc.feishu.cn/wiki/WPTzw9ON0ivIVrkLjVocNZh8nLf。

内容 353

粉丝 0

Xbotics具身智能实验室学习机器人与具身智能技术：1、国内独家机器人具身智能社群圈子人脉。2、Xbotics具身智能社区知识库 https://yv6uc1awtjc.feishu.cn/wiki/WPTzw9ON0ivIVrkLjVocNZh8nLf。

总阅读163

粉丝0

内容353

Sim2real基础与学习路线

阶段一：仿真平台与机器人接口

学习目标

主流仿真平台对比

搭建训练环境所需模块

MuJoCo 仿真项目（Ant / Walker）

Isaac Gym 多机械臂抓取任务

PyBullet + URDF 机械臂视觉抓取

实战任务建议

阶段二：Sim2Sim

一、什么是 Sim2Sim？

二、Sim2Sim 的学习价值

推荐项目 & 论文工具

学习步骤详解

Sim2Sim 案例项目推荐

如何开始使用它们？

下一步建议

阶段三：Sim2Real

一、Sim2Real 的定义与背景

二、Sim2Real 方法分类（五大类）

三、核心Sim2Real论文算法解读

四、Sim2Real 应用与挑战概括

开始步骤建议

下一步建议