大数跨境
0
0

AAAI 2026 Oral | 华科&小米提出具身智能新范式:教机器人「时间管理」,做饭打扫两不误!

AAAI 2026 Oral | 华科&小米提出具身智能新范式:教机器人「时间管理」,做饭打扫两不误! 极市平台
2025-11-25
1
↑ 点击蓝字 关注极市平台
来源丨粉丝投稿
编辑丨极市平台

极市导读

 

华中科大+小米提出ORS3D任务与60K数据集,把子任务拆成“可并行/独占”两类;GRANT模型用调度令牌调用外部运筹求解器,零训练将任务完成时间压缩30%,3D定位精度仍升1.4%,让机器人首次学会“统筹方法”。>>加入极市CV技术交流群,走在计算机视觉的最前沿

论文链接:https://arxiv.org/abs/2511.19430

代码链接:https://github.com/H-EmbodVis/GRANT

在做饭时,人们通常会在微波炉加热食物的同时去清洗水槽,而不是呆板地盯着微波炉倒计时。然而,目前的具身智能机器人却往往只能“一根筋”地按顺序做完一件事,再做下一件。

近日,华中科技大学(白翔团队)联合小米的论文《Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution》被 AAAI 2026 录用为口头报告(Oral Presentation)。该工作首次将运筹学(Operations Research, OR)知识引入 3D 具身任务规划中。研究团队提出了一个新的任务,即基于运筹学知识的3D定位任务调度(ORS3D),以及对应的大规模数据集ORS3D-60k,并设计了基于统筹学规划的多模态3D大模型(GRANT)。通过“大模型+求解器”的协同,GRANT 让机器人学会了“统筹方法”,将任务执行效率大幅提升了30.53%!

01 痛点:为什么机器人不懂“统筹方法”?

在具身智能(Embodied AI)领域,任务规划(Task Planning)是让机器人理解人类指令并执行动作的关键。然而,现有的研究和数据集往往将任务过度简化,假设机器人只能串行(Sequential)地完成子任务,如图1(a)。

图1 传统顺序执行方式VS.基于运筹学的执行方式
图1 传统顺序执行方式VS.基于运筹学的执行方式

例如,面对指令:“把微波炉打开热饭(需要35分钟),然后把水槽洗干净(需要 20 分钟)”。

  • 现有方法: 先开微波炉 -> 等35分钟 -> 关微波炉 -> 洗水槽。总耗时:55 分钟以上。
  • 人类做法:开微波炉 -> 在等待微波炉工作的 35 分钟内洗水槽 -> 关微波炉。总耗时:35 分钟左右。

这种差距的核心在于:现有机器人缺乏运筹学(Operations Research,OR)知识,无法识别哪些任务可以“并行(Parallelizable)”,哪些必须“独占注意力(Non-parallelizable)”。同时,机器人不仅要规划时间,还得在复杂的 3D 场景中精准找到物体的位置(3D Grounding)。

为了解决这个问题,本文提出了一个新的挑战性任务:基于运筹学知识的 3D 定位任务调度(ORS3D)。

图2:基于运筹学知识的 3D 定位任务调度示意图
图2:基于运筹学知识的 3D 定位任务调度示意图

02 贡献:大规模数据集 ORS3D-60K

图3:不可并行任务与可并行任务的典型例子
图3:不可并行任务与可并行任务的典型例子

为了训练机器人掌握这种复杂的“时间管理术”,研究团队构建了首个融合运筹学知识的大规模 3D 具身数据集——ORS3D-60K。

图4:本文所构造的ORS3D-60k与其他数据集的对比
图4:本文所构造的ORS3D-60k与其他数据集的对比

这并非简单的指令堆砌,而是一个涵盖了 4,376 个真实室内场景与 60,825 个复合任务的庞大知识库。与以往平均长度不足百词的简单指令不同,ORS3D-60K 中的平均指令长度高达 311 个单词,其中不仅交织着对物体外观、方位的复杂描述,更隐含着严格的时间约束。

数据集中每一条任务都经过了严格的运筹学求解器验证,不仅区分了“需持续关注”与“可后台运行”的子任务属性,还提供了数学上最优的调度方案作为标注。这迫使模型不能再走一步看一步,而必须在理解 3D 空间的同时,对全流程进行全局的最优规划。

独特的“并行/串行”任务逻辑是该数据集的核心创新(如图3)。团队根据运筹学原理,将子任务细分为两类:

  • 非并行化子任务(Non-parallelizable):需要机器人持续操作,如“擦桌子”、“整理书架”。
  • 并行化子任务(Parallelizable): 仅需启动和检查,中间等待时间可释放算力去处理别的事,如“微波炉热饭”、“洗衣机洗衣服”。

模型必须精准识别这些属性,利用“并行化任务”的等待空窗期来插入其他任务,从而求得时间最优解。

03 方法:给3D多模态大模型装上“调度外挂”

为了解决这一难题,作者提出了一种名为 GRANT (Grounded Task Scheduling Agent) 的3D多模态大模型,如图5。现有的多模态大模型虽然擅长理解语言和场景,但数学推理和复杂优化能力较弱(也就是算不清最优解)。GRANT 通过一种巧妙的调度令牌机制(Scheduling Token Mechanism, STM)解决了这个问题。

图5 本文方法示意图
图5 本文方法示意图

GRANT 的架构包含四个核心部分:

  1. 3D 场景编码器: 理解环境点云。
  2. 大语言模型(LLM): 作为大脑进行统一理解。
  3. 调度令牌机制(STM):LLM 不直接硬算时间,而是预测子任务的属性(是否可并行、耗时多少),然后通过一个特殊的 令牌调用外部的优化求解器(Optimization Solver)。求解器利用动态规划算法瞬间算出最优时间表,再传回给 LLM。
  4. 3D 定位头: 根据 LLM 的指令,在 3D 场景中生成目标物体的掩码(Mask)。

简单来说,GRANT 让大模型负责“懂人话、认东西”,让求解器负责“算时间、排工序”,两者结合,实现了最优解。

04 实验结果:效率暴涨

在 ORS3D-60K 数据集上的实验表明(如图6),GRANT 展现出了 SOTA(State-of-the-art)性能:

  • 时间效率(Time Efficiency): 相比基线方法(如 Grounded 3D LLM),GRANT 的任务完成效率提升了惊人的 30.53%。
  • 3D 定位精度: 在引入调度机制后,并没有牺牲感知能力,3D Grounding 准确率反而提升了 1.38%。
  • 综合性能: 在语言理解、调度和定位的综合指标上提升了 10.46%。
图6:在ORS3D-60上的实验结果
图6:在ORS3D-60上的实验结果
图7: GRANT 的实际调度效果展示。模型敏锐地利用了“微波炉热饭”的30分钟空窗期,并行处理了其他清洁任务,将总耗时从74分钟压缩至45分钟(效率提升39%),并在每一步都实现了高精度的3D物体定位(黄色区域所示)
图7: GRANT 的实际调度效果展示。模型敏锐地利用了“微波炉热饭”的30分钟空窗期,并行处理了其他清洁任务,将总耗时从74分钟压缩至45分钟(效率提升39%),并在每一步都实现了高精度的3D物体定位(黄色区域所示)

05 总结与展望

这项工作揭示具身智能研究正在从单一的“语义理解”向高阶的“运筹决策”跨越。本文首先定义了 ORS3D 任务,旨在将运筹学(OR)知识引入具身智能领域,要求智能体在理解自然语言指令并进行3D定位的同时,能够根据子任务的“并行”或“非并行”属性进行高效的时间调度。为支持这一研究,本文构建了 ORS3D-60K 数据集,提供了包含60,825个复合任务的测试基准,弥补了现有数据集中缺乏运筹学调度与3D空间联合考察的空白。在方法层面,提出了 GRANT 框架,通过设计“调度令牌机制(STM)”,尝试建立多模态大模型与外部优化求解器之间的桥梁,利用求解器处理大模型难以应对的复杂数学规划问题。随着未来团队将这一框架从仿真推向物理实体机器人,真正具备“时间管理大师”能力的智能管家将很快走出实验室,精准高效地服务于人类的日常生活。


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读8.7k
粉丝0
内容8.2k