大数跨境

Agent终于长出了身体:Jiuwen Symbiosis背后的思考与实践

Agent终于长出了身体:Jiuwen Symbiosis背后的思考与实践 量子位
2026-06-13
63
导读:一起构建下一代物理世界的智能系统
允中 发自 凹非寺
量子位 | 公众号 QbitAI

若在三年前询问 AI 的终极形态,答案多半指向更大的参数、更长的上下文与更强的推理能力。从 GPT-3.5 到 Qwen,大模型已精通代码、数学甚至哲学探讨,却仍无法完成“倒一杯水”这样的物理动作。

这揭示了当前 AI 的核心局限:缺乏实体。

AI 没有身体。

今日,openJiuwen 社区正式开源Jiuwen Symbiosis。这是一个专为高阶物理 AI(Physical AI)打造的共生架构,旨在为 AI 赋予感知与行动的“骨骼与肌肉”,推动其从虚拟数字世界迈向真实物理世界。

Moravec 悖论:最难的不是高数,而是走路

1988 年,机器人学家 Hans Moravec 提出著名的"Moravec 悖论”:对计算机而言,下棋与高等数学易如反掌,而人类婴儿即可完成的行走、抓取、避障与保持平衡却异常困难。

原因在于,后者并非逻辑推导的产物,而是数百万年进化形成的身体智能。这也是大模型时代的“缸中之脑”困境:拥有超高智商,却因缺乏实体而对物理世界的摩擦力、重力与空间几何一无所知。

从“缸中之脑”到“身体力行”:智能的进化史

智能对机器本体控制的演进,本质是从数字世界向物理现实的跨越:

1.0 手搓任务(人工辅助):依赖人类理解进行原子化控制操作。

2.0 虚拟环境演练(Sim2Real):在 Habitat、AI2-THOR 等仿真环境中训练,赋予模型空间概念与指令执行能力。但该阶段存在显著瓶颈:

  • 缺乏跨本体泛化能力:技能固化,无法将已学的“开抽屉”与“抓取”零样本组合为新任务。
  • 长程复合任务能力不足:擅长短程原子操作,面对多步骤复杂任务时缺乏拆解、编排与异常回退能力,仅能模仿无法规划。
  • 故障定位困难:端到端黑盒结构导致感知、理解、推理或控制任一环节失败均难以溯源。
  • 稳定性差:兼顾认知决策与运动控制难度大,任务成功率低。

3.0 共生时代(Jiuwen Symbiosis):模糊虚实边界,让 Agent 真正理解物理法则,直接输出控制硬件底层拓扑的动作序列。

Agent 时代的到来

2023 年后,Agent 成为 AI 领域热点。随着 Tool Calling、Function Calling 等技术的出现,Agent 获得了操作数字世界的能力。然而,真正的突破在于让 Agent 走进物理世界。

传统 Agent 流程局限于文本交互,而 Physical AI Agent 需直面真实环境,进行实时交互反馈。openJiuwen 团队指出,简单的“传感器 -VLM-LLM-Planner-ROS"链路在实际执行中易沦为复杂的 JSON 堆积,导致决策过程不透明、故障原因成谜。

传统 Agent 简化流程:

Physical AI Agent 交互流程:

Jiuwen Symbiosis:让 Agent 拥有透明的态势感知系统

Jiuwen Symbiosis 的核心理念是:Agent 的思考过程应可观察、可调试、可协作。团队通过显式暴露内部状态,打破黑盒限制。其核心骨架被称为态势感知环(Situation Awareness Loop),认知层与执行层通过共享 Workspace 高效协作。

多模态感知(Multimodal Perception)

作为物理 AI 的基础,该模块使 Agent 主动感知世界。它将理解与决策分离,在行动前充分解析场景,产出包含对象、位姿、置信度等的结构化世界状态。

安全规划(Safe Planning)

基于任务指令与结构化状态进行规划,动态赋值技能参数,并严格校验物理可行性与安全性,自动拒绝不可执行方案。

物理执行(Physical Action)

调用原子能力工具,按照规划建议完成位移、抓取、放置及交互等一系列连续可控的物理运动。

状态观察(Observation)

采集并结构化提取动作执行后的真实世界状态。通过视觉传感器识别物体位姿变化与环境反馈,为偏差计算提供客观依据。

观测反馈(Feedback)

构建闭环修正机制,将执行偏差与异常状态回传至推理规划模块。实现参数实时调整、序列动态优化及自主恢复,形成“感知 - 规划 - 执行 - 观测 - 反馈”完整闭环,持续提升鲁棒性。

空间记忆(Spatial Memory)

通过物体级感知构建 3D 场景图(3D Scene Graph),利用变化检测技术自动化维护空间关系。结合时间压缩与层级聚合,形成多时空尺度的任务驱动上下文。

具备上述能力的 Physical AI Agent 将实现零样本跨本体泛化、复杂任务自主拆解、降低数据依赖以及自我总结进化。

用户视角:Jiuwen Symbiosis 如同“懂人话、看得见物理世界、长了四肢的智能助手”。用户无需示教,仅需自然语言下达指令,它即可自主完成全流程任务。

Symbiosis:共生,而非控制

"Symbiosis"意为共生。未来的人机关系并非单向控制,而是长期的持续协作。

传统控制模式:

共生协作模式:

在此系统中,Agent 能理解目标、主动规划、请求帮助并从反馈中学习。人类教导机器人"How"而非传统的"What",允许试错与经验沉淀,最终实现自我演进。

鉴于物理 AI 生态需开放协作(类比 Linux 与 ROS),openJiuwen 决定开源 Jiuwen Symbiosis,打造透明的 Physical AI 框架与大模型桥梁。此外,该架构实现了算力生态的亲和共生,其轻量化视觉模型可部署于端侧,适配 Ascend 等多种生态,输出结果兼容主流检测格式。

Jiuwen Symbiosis 与昇腾、鲲鹏

针对真实机器人场景中功耗与带宽的限制,Jiuwen Symbiosis 采用端云协同架构:云端负责大规模推理与复杂规划,端侧专注实时感知与执行。这一设计与昇腾、鲲鹏的异构计算能力天然匹配:

  • 昇腾 NPU:提供高 TOPS 推理能力,承担目标检测、视觉理解等高频任务。
  • 鲲鹏 CPU:负责工具调度、任务编排、状态管理及控制逻辑,确保低延迟、高可靠执行。

该系统继承了 OpenJiuwen 在国产生态上的优化成果,可将规划负载卸载至昇腾 NPU,而将 Runtime、Memory 等逻辑运行于鲲鹏 CPU,避免了传统 GPU 方案的资源争抢瓶颈。这种分层架构显著降低了端侧部署成本与功耗,使其能自然运行于各类机器人及边缘智能设备中。

未来

今天的 Agent 已学会阅读与思考,下一步将是学会行动。当感知、认知与行动形成闭环,真正的 Physical AI 时代方才开启。

若您在探索 Embodied AI、Robotics Agent、VLA/VLM、World Model、Physical Intelligence、ROS2 或多智能体系统等领域,欢迎加入 openJiuwen 社区,共同构建下一代物理世界智能系统。华为云 AgentArts 也已引入 openJiuwen 能力,可通过华为云官网体验。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 16129
粉丝 1
量子位 各类跨境出海行业相关资讯
总阅读261.7k
粉丝1
内容16.1k