极市导读
华中科大+小米提出ORS3D任务与60K数据集,把子任务拆成“可并行/独占”两类;GRANT模型用调度令牌调用外部运筹求解器,零训练将任务完成时间压缩30%,3D定位精度仍升1.4%,让机器人首次学会“统筹方法”。>>加入极市CV技术交流群,走在计算机视觉的最前沿
论文链接:https://arxiv.org/abs/2511.19430
代码链接:https://github.com/H-EmbodVis/GRANT
在做饭时,人们通常会在微波炉加热食物的同时去清洗水槽,而不是呆板地盯着微波炉倒计时。然而,目前的具身智能机器人却往往只能“一根筋”地按顺序做完一件事,再做下一件。
近日,华中科技大学(白翔团队)联合小米的论文《Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution》被 AAAI 2026 录用为口头报告(Oral Presentation)。该工作首次将运筹学(Operations Research, OR)知识引入 3D 具身任务规划中。研究团队提出了一个新的任务,即基于运筹学知识的3D定位任务调度(ORS3D),以及对应的大规模数据集ORS3D-60k,并设计了基于统筹学规划的多模态3D大模型(GRANT)。通过“大模型+求解器”的协同,GRANT 让机器人学会了“统筹方法”,将任务执行效率大幅提升了30.53%!
01 痛点:为什么机器人不懂“统筹方法”?
在具身智能(Embodied AI)领域,任务规划(Task Planning)是让机器人理解人类指令并执行动作的关键。然而,现有的研究和数据集往往将任务过度简化,假设机器人只能串行(Sequential)地完成子任务,如图1(a)。
例如,面对指令:“把微波炉打开热饭(需要35分钟),然后把水槽洗干净(需要 20 分钟)”。
-
现有方法: 先开微波炉 -> 等35分钟 -> 关微波炉 -> 洗水槽。总耗时:55 分钟以上。 -
人类做法:开微波炉 -> 在等待微波炉工作的 35 分钟内洗水槽 -> 关微波炉。总耗时:35 分钟左右。
这种差距的核心在于:现有机器人缺乏运筹学(Operations Research,OR)知识,无法识别哪些任务可以“并行(Parallelizable)”,哪些必须“独占注意力(Non-parallelizable)”。同时,机器人不仅要规划时间,还得在复杂的 3D 场景中精准找到物体的位置(3D Grounding)。
为了解决这个问题,本文提出了一个新的挑战性任务:基于运筹学知识的 3D 定位任务调度(ORS3D)。
02 贡献:大规模数据集 ORS3D-60K
为了训练机器人掌握这种复杂的“时间管理术”,研究团队构建了首个融合运筹学知识的大规模 3D 具身数据集——ORS3D-60K。
这并非简单的指令堆砌,而是一个涵盖了 4,376 个真实室内场景与 60,825 个复合任务的庞大知识库。与以往平均长度不足百词的简单指令不同,ORS3D-60K 中的平均指令长度高达 311 个单词,其中不仅交织着对物体外观、方位的复杂描述,更隐含着严格的时间约束。
数据集中每一条任务都经过了严格的运筹学求解器验证,不仅区分了“需持续关注”与“可后台运行”的子任务属性,还提供了数学上最优的调度方案作为标注。这迫使模型不能再走一步看一步,而必须在理解 3D 空间的同时,对全流程进行全局的最优规划。
独特的“并行/串行”任务逻辑是该数据集的核心创新(如图3)。团队根据运筹学原理,将子任务细分为两类:
-
非并行化子任务(Non-parallelizable):需要机器人持续操作,如“擦桌子”、“整理书架”。 -
并行化子任务(Parallelizable): 仅需启动和检查,中间等待时间可释放算力去处理别的事,如“微波炉热饭”、“洗衣机洗衣服”。
模型必须精准识别这些属性,利用“并行化任务”的等待空窗期来插入其他任务,从而求得时间最优解。
03 方法:给3D多模态大模型装上“调度外挂”
为了解决这一难题,作者提出了一种名为 GRANT (Grounded Task Scheduling Agent) 的3D多模态大模型,如图5。现有的多模态大模型虽然擅长理解语言和场景,但数学推理和复杂优化能力较弱(也就是算不清最优解)。GRANT 通过一种巧妙的调度令牌机制(Scheduling Token Mechanism, STM)解决了这个问题。
GRANT 的架构包含四个核心部分:
-
3D 场景编码器: 理解环境点云。 -
大语言模型(LLM): 作为大脑进行统一理解。 -
调度令牌机制(STM):LLM 不直接硬算时间,而是预测子任务的属性(是否可并行、耗时多少),然后通过一个特殊的 令牌调用外部的优化求解器(Optimization Solver)。求解器利用动态规划算法瞬间算出最优时间表,再传回给 LLM。 -
3D 定位头: 根据 LLM 的指令,在 3D 场景中生成目标物体的掩码(Mask)。
简单来说,GRANT 让大模型负责“懂人话、认东西”,让求解器负责“算时间、排工序”,两者结合,实现了最优解。
04 实验结果:效率暴涨
在 ORS3D-60K 数据集上的实验表明(如图6),GRANT 展现出了 SOTA(State-of-the-art)性能:
-
时间效率(Time Efficiency): 相比基线方法(如 Grounded 3D LLM),GRANT 的任务完成效率提升了惊人的 30.53%。 -
3D 定位精度: 在引入调度机制后,并没有牺牲感知能力,3D Grounding 准确率反而提升了 1.38%。 -
综合性能: 在语言理解、调度和定位的综合指标上提升了 10.46%。
05 总结与展望
这项工作揭示具身智能研究正在从单一的“语义理解”向高阶的“运筹决策”跨越。本文首先定义了 ORS3D 任务,旨在将运筹学(OR)知识引入具身智能领域,要求智能体在理解自然语言指令并进行3D定位的同时,能够根据子任务的“并行”或“非并行”属性进行高效的时间调度。为支持这一研究,本文构建了 ORS3D-60K 数据集,提供了包含60,825个复合任务的测试基准,弥补了现有数据集中缺乏运筹学调度与3D空间联合考察的空白。在方法层面,提出了 GRANT 框架,通过设计“调度令牌机制(STM)”,尝试建立多模态大模型与外部优化求解器之间的桥梁,利用求解器处理大模型难以应对的复杂数学规划问题。随着未来团队将这一框架从仿真推向物理实体机器人,真正具备“时间管理大师”能力的智能管家将很快走出实验室,精准高效地服务于人类的日常生活。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

