新智元报道
新智元报道
【新智元导读】装上OpenClaw的宇树人形机器人首次实现空间与时间联合感知,具备「世界记忆」能力——可识别物体、人物、位置及事件发生的时间序列。这一突破标志着具身智能迈向物理世界理解的关键一步。
全球开源机器人领域迎来重大进展:搭载OpenClaw系统的宇树人形机器人,首次实现对空间与时间的联合理解。
该机器人融合LiDAR激光雷达、双目摄像头与RGB相机数据,构建动态三维环境模型。它不仅能定位房间、人和物体,还能记录“何时发生了何事”,形成具备时空维度的结构化记忆。
团队将该能力命名为Spatial Agent Memory(空间智能体记忆),即机器人首次拥有可检索、可推理的「世界记忆」。
这一成果由开源项目OpenClaw实现,并获其核心开发者Peter Steinberger公开转发,被业界视为具身智能里程碑式突破:OpenClaw正式具备物理空间与时间感知能力。
天网,刚刚开源了?
项目发布后引发社区热议,观点呈现两极分化:
一派认为这是边缘AI的重大跃迁——机器人首次在真实环境中实现时空语义联合建模,是梦寐以求的具身智能突破;
另一派则表达审慎担忧:若机器人能持续记录家庭成员行为规律、出入时间、物品摆放等细节,在缺乏伦理与监管框架前提下,可能带来隐私与安全风险。
值得注意的是,OpenClaw为完全开源系统,硬件无关——适配各类激光雷达、立体视觉与RGB传感器,可部署于Unitree G1人形机器人、四足机器狗、无人机,甚至旧款iPhone激光雷达设备。
系统不依赖ROS,支持全动态障碍物避让与SLAM(即时定位与地图构建)。
任何兼容平台,只要运行OpenClaw,即可获得时空感知能力。
开源机器人,正在走向天网时刻
当机器人能主动告知:“你的车钥匙昨晚落在厨房桌上”,用户或感便捷;
但若它进一步指出:“上周一晚8点有陌生人到访”“你平均每日在厨房停留47分钟”,则凸显其长期观察与记忆能力带来的深层影响。
这种能力并非视频回放,而是基于空间+时间+语义的联合记忆——机器人正在构建并持续更新一个动态演化的世界模型。
以前的机器人,为什么不太聪明
传统机器人存在三大瓶颈:
- 静态记忆局限:大语言模型(LLM)仅保留训练数据,无法记忆用户实时交互行为(如钥匙放置位置);
- 空间认知缺失:擅长语言推理,却难以理解“厨房在客厅左侧”等物理关系;
- 多模态处理不足:传统RAG仅检索文本,而真实场景需处理海量视频流、深度图、三维点云与时间序列数据。
SpatialRAG黑科技,给机器人装上3D云脑
团队提出核心技术:Spatial Agent Memory 与 SpatialRAG。
系统将视频、雷达检测、图像帧与里程计数据统一映射为体素(Voxel)化三维空间,每个体素附带空间矢量嵌入与语义标签,形成涵盖对象、房间、几何结构、时间戳、图像与点云的多维向量知识库。
该架构构成机器人理解物理世界所需的记忆骨架,支持跨维度检索:object(物体)、room(房间)、semantic(语义)、geometry(几何)、time(时间)、image(图像)、pointcloud(点云)。
由此,机器人可回答:
- “我钥匙丢哪儿了?”
- “上周一谁来过我家?”
- “谁在厨房待的时间最长?”
- “垃圾该什么时候倒?”
网友质疑:天网降临,还是老头漫步?
部分用户质疑系统实时性与工程可行性,例如延迟高、响应慢等。
开发团队回应:OpenClaw定位为高层智力协调器,非底层运动控制器;动作执行可异步运行,不影响整体流畅性。
关于采用LLM而非专用模型的疑问,团队解释:难点不在模型部署,而在维持持续、稳定的物理上下文——即“什么时间、什么地点、发生了什么”的长期一致性建模。
OpenClaw提供完整代理基础设施(Agent Infrastructure),包括子代理编排、MCP(多点协作协议)、工具安全审计与插件系统,使其更适合作为机器人“前额叶”中枢。
一位资深机器人工程师指出:最大挑战并非算法创新,而是系统在真实世界的鲁棒性——需应对传感器冲突、光照变化、动态障碍、数据噪声与硬件故障等复杂变量。
具身智能的最后一公里
“具身”本质在于持续感知与作用于物理世界。此次突破表明:让大模型上硬件并不难,难的是构建持久、跨时空的物理上下文。
当机器人开始理解因果关系、记住空间位置、关联时间序列,它就从“会走路的音箱”,进化为真正的物理代理(Physical Agent)。
天网未必突然降临,但路径已然清晰:看见世界 → 记住世界 → 改变世界。
当这些能力全部开源,构建机器人大脑的门槛正前所未有地下降。
这一刻,或将成为机器人时代真正开启的起点——家用机器人的普及,正被这只“开源爪子”悄然撬动。

