AAAI 2026 Oral | 华科&小米提出具身智能新范式：教机器人「时间管理」，做饭打扫两不误！

极市平台

2025-11-25

↑ 点击蓝字关注极市平台

来源丨粉丝投稿

编辑丨极市平台

极市导读

华中科大+小米提出ORS3D任务与60K数据集，把子任务拆成“可并行/独占”两类；GRANT模型用调度令牌调用外部运筹求解器，零训练将任务完成时间压缩30%，3D定位精度仍升1.4%，让机器人首次学会“统筹方法”。>>加入极市CV技术交流群，走在计算机视觉的最前沿

论文链接：https://arxiv.org/abs/2511.19430

代码链接：https://github.com/H-EmbodVis/GRANT

在做饭时，人们通常会在微波炉加热食物的同时去清洗水槽，而不是呆板地盯着微波炉倒计时。然而，目前的具身智能机器人却往往只能“一根筋”地按顺序做完一件事，再做下一件。

近日，华中科技大学（白翔团队）联合小米的论文《Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution》被 AAAI 2026 录用为口头报告（Oral Presentation）。该工作首次将运筹学（Operations Research, OR）知识引入 3D 具身任务规划中。研究团队提出了一个新的任务，即基于运筹学知识的3D定位任务调度（ORS3D），以及对应的大规模数据集ORS3D-60k，并设计了基于统筹学规划的多模态3D大模型（GRANT）。通过“大模型+求解器”的协同，GRANT 让机器人学会了“统筹方法”，将任务执行效率大幅提升了30.53%！

01 痛点：为什么机器人不懂“统筹方法”？

在具身智能（Embodied AI）领域，任务规划（Task Planning）是让机器人理解人类指令并执行动作的关键。然而，现有的研究和数据集往往将任务过度简化，假设机器人只能串行（Sequential）地完成子任务，如图1(a)。

例如，面对指令：“把微波炉打开热饭（需要35分钟），然后把水槽洗干净（需要 20 分钟）”。

现有方法：先开微波炉 -> 等35分钟 -> 关微波炉 -> 洗水槽。总耗时：55 分钟以上。
人类做法：开微波炉 -> 在等待微波炉工作的 35 分钟内洗水槽 -> 关微波炉。总耗时：35 分钟左右。

这种差距的核心在于：现有机器人缺乏运筹学（Operations Research，OR）知识，无法识别哪些任务可以“并行（Parallelizable）”，哪些必须“独占注意力（Non-parallelizable）”。同时，机器人不仅要规划时间，还得在复杂的 3D 场景中精准找到物体的位置（3D Grounding）。

为了解决这个问题，本文提出了一个新的挑战性任务：基于运筹学知识的 3D 定位任务调度（ORS3D）。

02 贡献：大规模数据集 ORS3D-60K

为了训练机器人掌握这种复杂的“时间管理术”，研究团队构建了首个融合运筹学知识的大规模 3D 具身数据集——ORS3D-60K。

这并非简单的指令堆砌，而是一个涵盖了 4,376 个真实室内场景与 60,825 个复合任务的庞大知识库。与以往平均长度不足百词的简单指令不同，ORS3D-60K 中的平均指令长度高达 311 个单词，其中不仅交织着对物体外观、方位的复杂描述，更隐含着严格的时间约束。

数据集中每一条任务都经过了严格的运筹学求解器验证，不仅区分了“需持续关注”与“可后台运行”的子任务属性，还提供了数学上最优的调度方案作为标注。这迫使模型不能再走一步看一步，而必须在理解 3D 空间的同时，对全流程进行全局的最优规划。

独特的“并行/串行”任务逻辑是该数据集的核心创新（如图3）。团队根据运筹学原理，将子任务细分为两类：

非并行化子任务（Non-parallelizable）：需要机器人持续操作，如“擦桌子”、“整理书架”。
并行化子任务（Parallelizable）：仅需启动和检查，中间等待时间可释放算力去处理别的事，如“微波炉热饭”、“洗衣机洗衣服”。

模型必须精准识别这些属性，利用“并行化任务”的等待空窗期来插入其他任务，从而求得时间最优解。

03 方法：给3D多模态大模型装上“调度外挂”

为了解决这一难题，作者提出了一种名为 GRANT (Grounded Task Scheduling Agent) 的3D多模态大模型，如图5。现有的多模态大模型虽然擅长理解语言和场景，但数学推理和复杂优化能力较弱（也就是算不清最优解）。GRANT 通过一种巧妙的调度令牌机制（Scheduling Token Mechanism, STM）解决了这个问题。

GRANT 的架构包含四个核心部分：

3D 场景编码器：理解环境点云。
大语言模型（LLM）：作为大脑进行统一理解。
调度令牌机制（STM）：LLM 不直接硬算时间，而是预测子任务的属性（是否可并行、耗时多少），然后通过一个特殊的令牌调用外部的优化求解器（Optimization Solver）。求解器利用动态规划算法瞬间算出最优时间表，再传回给 LLM。
3D 定位头：根据 LLM 的指令，在 3D 场景中生成目标物体的掩码（Mask）。

简单来说，GRANT 让大模型负责“懂人话、认东西”，让求解器负责“算时间、排工序”，两者结合，实现了最优解。

04 实验结果：效率暴涨

在 ORS3D-60K 数据集上的实验表明（如图6），GRANT 展现出了 SOTA（State-of-the-art）性能：

时间效率（Time Efficiency）：相比基线方法（如 Grounded 3D LLM），GRANT 的任务完成效率提升了惊人的 30.53%。
3D 定位精度：在引入调度机制后，并没有牺牲感知能力，3D Grounding 准确率反而提升了 1.38%。
综合性能：在语言理解、调度和定位的综合指标上提升了 10.46%。

图7: GRANT 的实际调度效果展示。模型敏锐地利用了“微波炉热饭”的30分钟空窗期，并行处理了其他清洁任务，将总耗时从74分钟压缩至45分钟（效率提升39%），并在每一步都实现了高精度的3D物体定位（黄色区域所示）

05 总结与展望

这项工作揭示具身智能研究正在从单一的“语义理解”向高阶的“运筹决策”跨越。本文首先定义了 ORS3D 任务，旨在将运筹学（OR）知识引入具身智能领域，要求智能体在理解自然语言指令并进行3D定位的同时，能够根据子任务的“并行”或“非并行”属性进行高效的时间调度。为支持这一研究，本文构建了 ORS3D-60K 数据集，提供了包含60,825个复合任务的测试基准，弥补了现有数据集中缺乏运筹学调度与3D空间联合考察的空白。在方法层面，提出了 GRANT 框架，通过设计“调度令牌机制（STM）”，尝试建立多模态大模型与外部优化求解器之间的桥梁，利用求解器处理大模型难以应对的复杂数学规划问题。随着未来团队将这一框架从仿真推向物理实体机器人，真正具备“时间管理大师”能力的智能管家将很快走出实验室，精准高效地服务于人类的日常生活。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货