机器人开发常面临环境配置复杂、真机调试困难的问题。开发者常因驱动版本不兼容、ROS节点通信异常等细节耗费数天,且在不同设备间重复踩坑,严重拖慢项目进度。
中山大学HCP实验室推出的PhyAgentOS开源操作系统,通过结构化设计将部署周期从数天缩短至数小时,彻底解决"调参地狱"痛点。
PhyAgentOS已全面开源,支持算法贡献与机器人适配。
GitHub仓库:https://github.com/SYSU-HCP-EAI/PhyAgentOS
让机器人开发回归“智能”本质
端到端视觉语言动作模型(VLA)在Demo中表现优异,但真机部署常因环境差异导致失败。开发者往往陷入"具身调参"困境:调模型、调驱动、调环境,最终沦为"机器人接线员"。PhyAgentOS提供系统化解决方案:
几小时部署:从代码克隆到机器人运行全程自动化;
零代码迁移:切换机器人本体仅需修改配置;
多机协同:支持多机器人系统动态分工与经验共享;
白盒决策:全流程可追溯、可调试。
Showcase:真机部署,开箱即用
已验证支持多种主流机器人平台,实现一键部署:
Demo 1: AgileX PIPER 一键部署
通过hal_watchdog.py自动识别硬件配置,无需编写底层驱动代码。
Demo 2: 基于SAM3的自然语言抓取
执行"抓取桌子上的苹果"等指令时,自动完成语义解析、目标定位与抓取约束生成。
Demo 3: 基于ReKep的约束求解抓取(Dobot Nova 2)
采用几何约束求解技术,实现精确位姿控制。
PhyAgentOS架构图 - 认知层(Track A)与物理执行层(Track B)解耦设计
核心革新:从"端到端黑盒"到"协议化白盒"
传统VLA模型将感知、推理、控制压缩为单一神经网络,存在不可解释、迁移难等问题。PhyAgentOS通过六层结构化协议实现系统革新:
▪ TASK.md:任务编排黑板
▪ ENVIRONMENT.md:场景图化环境表征
▪ SKILL.md:硬件无关抽象工作流
▪ ACTION.md:物理约束目标定义
▪ LESSONS.md:任务经验库
▪ EMBODIED.md:硬件本体说明书
该设计使云端模型输出几何约束与语义意图(如"保持杯口水平"),边缘侧通过求解器实时转化轨迹,实现类似自动驾驶"决策-规划"分离的系统架构升级。
四层架构设计
▪ 感知层:融合多模态信息构建场景图,输出至ENVIRONMENT.md;
▪ 决策层:兼容OpenAI/Claude等主流模型,独立校验物理可行性;
▪ 规划层:将指令分解为技能序列,支持动态重规划;
▪ 执行层:通过hal_watchdog看门狗进程轻量接入硬件SDK。
目标用户全景
面向机器人开发全链条角色提供差异化价值:
高校教学:提供开箱即用的教学套件与中文文档,实现从课程设计到科研项目的无缝衔接;
研究人员:标准化接口支持新算法快速验证,约束求解机制精准定位失败原因;
工程团队:作为具身智能中间层,上接大模型下接硬件平台,显著降低产品落地门槛;
硬件厂商:通过标准化BaseDriver接口实现智能注入,已适配AgileX PIPER、Dobot Nova 2等设备。
快速部署三步流程
git clone https://github.com/SYSU-HCP-EAI/PhyAgentOS.git cd PhyAgentOS pip install -e . python scripts/init_workspace.py python hal/hal_watchdog.py --driver simulation python PhyAgentOS/agent/main.py
仿真与真机无缝统一
通过切换--driver参数即可实现PyBullet/Isaac Sim等仿真环境与真实机器人间的智能迁移,业务逻辑无需修改。开发者可在仿真环境中充分迭代后一键部署至真机,规避碰撞风险。

