大数跨境

机器人原生世界动作模型问世!首创时空一体架构,复旦系团队出品

机器人原生世界动作模型问世!首创时空一体架构,复旦系团队出品 量子位
2026-05-31
45
导读:半年斩获5轮融资

通用人工智能的竞争焦点已从虚拟数字空间延伸至真实物理世界。具身智能与机器人大脑成为 AGI 赛道的核心决胜高地。

针对当前主流 VLA 模型及通用世界模型在空间感知精度、物理逻辑约束、长时序规划及真机鲁棒性等方面的痛点,深耕世界动作模型底层技术五年的复旦系科创企业——眸深智能,正式推出STI-WM 时空一体世界动作模型(Spatiotemporally Integrated World Model)

作为专为机器人原生打造的通用具身大脑,该模型以时空一体化建模、物理一致性约束及端到端原生融合为核心,突破传统技术瓶颈,为物理世界 AGI 落地提供最优技术路径。

顶尖团队加持,学术成果稳居全球第一梯队

眸深智能的核心团队源自复旦大学深度学习实验室,构建了“学术科研、工程落地、产业商业化”三位一体的顶级架构:

  • 科研底层:由复旦大学未来信息创新学院教授、深度学习实验室主任陈涛坐镇;
  • 工程落地:由原英特尔中国首席科学家张益民博士及来自英伟达的技术负责人掌舵;
  • 商业布局:由 95 后复旦连续创业者穆泽林主导。

团队超九成核心研发人员来自复旦大学,汇聚百余名校硕博人才。自 2021 年起,团队便前瞻性布局世界模型、三维感知及时序动作生成三大底层技术。

多年来,团队斩获多项全球顶尖荣誉:推出全球首个人形动作生成大模型 MotionGPT 及三维世界模型 HL3DWM;荣获 ICCV2023 全球三维目标识别冠军、CVPR2024 三维密集语义推理冠军,并斩获 IJCAI2025 杰出论文奖,是近五年国内唯一获此殊荣的具身智能团队。其原创成果被英伟达 DAIR 等国际顶尖实验室引用,技术实力稳居全球第一梯队。

△ 眸深大脑全自主抓取与自主修正

重构技术范式:开创世界动作模型原生路线

当前行业多采用“通用世界模型+VLA 拼接”的改良模式,存在模态割裂、信息损耗严重且缺乏真实物理约束等问题,难以满足真机落地需求。

眸深智能从 AGI 本质出发,率先确立世界动作模型原生融合路线。团队认为,机器人与物理世界的交互最终落地为动作,唯有精准理解时空演化规律、遵守物理逻辑并实现端到端原生映射,才能解决泛化性差与落地难的顽疾。

早在 2022 年,团队便创新性提出全球首个影空间语言 - 动作端到端映射 MLD 模型(发表于 CVPR 2023),该核心思路于 2025 年 5 月被英伟达 DAIR 实验室核心工作引用验证。历经五年迭代与七代技术更新,眸深智能在多模态端到端融合、高精度动作生成及时序逻辑推演领域积累深厚,各项指标持续领跑行业。

四维统一架构,破解真机落地核心痛点

不同于依托大语言模型二次改造的适配性方案,STI-WM 时空一体世界动作模型是完全面向机器人长时序规划、在线闭环控制及真实物理交互打造的原生框架,实现了空间结构、时间演化、物理一致性、执行鲁棒性的四维一体化统一。

该模型兼容 RGB 图像、深度点云及机器人本体多模态感知输入,将复杂环境信息编码为紧凑高效的时空潜在世界状态。上层支撑百秒级长时程任务推演与全局轨迹规划,下层输出精准可控的精细化动作片段。同时,依托实时环境观测动态纠偏与在线重规划,构建出“理解世界—推演未来—规划动作—执行纠错”的完整物理智能闭环。

相较于 Dreamer 系列偏重环境预测、LWM/PWM 等时空割裂的抽象模型以及仅追求视觉逼真的视频生成模型,STI-WM 跳出纯视觉推演误区,以三维几何约束、动力学校验及真机闭环执行为核心,彻底解决信息失真与落地困难问题,让机器人真正实现看懂三维空间、遵守物理规则、自主规划任务及稳定闭环执行。

△ 眸深 STI-WM1.0 时空一体世界动作模型架构

六大核心技术壁垒,赋能规模化落地

依托五年全链路自研积淀,STI-WM 构建起行业难以复刻的六大技术优势:

  1. 时空一体化原生建模:空间结构与时间动态实时耦合,消除多模块拼接的信息损耗,大幅提升推理效率与决策精准度;
  2. 原生三维感知能力:基于点云直接还原真实物理空间,彻底规避 2D 视觉深度缺失与空间误判缺陷;
  3. 内置物理一致性引擎:融合碰撞检测与动力学约束,从底层杜绝不合理动作与环境崩坏,保障真机执行安全;
  4. 长时程高阶规划:突破传统短片段局限,支持百秒级连续复杂任务自主推演,适配真实场景作业需求;
  5. 端侧轻量化部署:通过自研模型压缩与量化蒸馏技术,实现百亿级大模型低成本落地机器人端侧芯片,降低算力门槛;
  6. 小样本强泛化能力:依托虚拟世界大规模预训练加少量真机微调,高效适配陌生场景与长尾任务,大幅降低数据依赖。
△ 眸深“一脑多形”跨本体通用大脑

资本商业双爆发,产业化进程提速

凭借底层架构原创创新、全栈自研技术壁垒及可落地的商业化能力,眸深智能迎来高速发展期。公司半年内完成 5 轮融资,其中 3 亿元 Pre-A 轮融资获 5 倍超额认购,获得国家级投资平台、头部产业资本及券商机构的高度认可。

商业化落地同步驶入快车道。公司已与宇树科技、禾川科技、颐家养老等行业头部企业达成深度合作,技术覆盖工业制造、居家康养及商业服务等多元场景。目前,眸深智能已与近十家上市公司达成战略合作,其中包括五家以上千亿级产业龙头。未来三年预计可锁定 10 亿元订单支撑,技术产业化速度远超行业平均水平。

△ 眸深智能与居家养老头部企业颐家战略合作

当下,AGI 竞争正式进入物理智能新时代,以世界动作模型为核心的原生具身大脑已成为通用机器人的核心底座。

未来,眸深智能将持续迭代 STI-WM 模型体系,全面赋能人形机器人、四足机器人、工业机械臂及服务机器人等全品类硬件,加速通用具身智能的规模化落地,推动中国原生物理 AI 技术领跑全球,开启物理世界 AGI 全新纪元。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 16052
粉丝 1
量子位 各类跨境出海行业相关资讯
总阅读243.2k
粉丝1
内容16.1k