大语言模型赋能机器人实现语义化餐具布置
过去,机器人执行“布置餐桌”等任务需依赖精确的底层指令,例如“前进2米”“抬臂45度”“叉子置于盘右”等硬编码操作。
如今,只需发出自然语言指令——如“把这些餐具以合理形式摆好”,机器人即可通过与大语言模型(LLM)交互,调用常识性知识,自主完成符合人类习惯的布局规划与执行。
该技术由美国纽约州立大学宾汉姆顿分校张世琦教授团队联合多方提出,命名为LLM-GROP(Large Language Model Guided Robot Object Placement),首次将大语言模型的常识推理能力与任务与运动规划(TAMP)深度融合,在真实环境中多对象重新排列任务成功率高达84.4%。
突破:常识驱动的任务-运动协同规划
研究聚焦移动操作(MoMa)场景,即机器人需同步完成导航、避障、抓取与放置等复合动作。其核心创新在于:利用LLM对餐具摆放逻辑、社交空间距离、人体工学等常识的理解,指导高层任务决策;再结合计算机视觉确定基座站位策略,优化机械臂运动轨迹与操作稳定性。
张世琦教授指出:“系统首次实现LLM在动态障碍环境中的实时自适应调整,展现出强泛化能力。”
典型场景验证:十人餐桌布置
当面对已有顾客就座的十人餐桌时:
- 任务层规划:判断从左侧或右侧接近更安全,决定先放盘子还是杯子;
- 运动层规划:在椅子环绕的狭小空间中动态调整基座姿态,兼顾手臂伸展范围与碰撞规避,提升放置成功率。
实验结果与性能评估
团队在真实机器人平台与仿真环境中同步验证。真实世界测试涵盖三类复杂度递增的餐具布置任务(含障碍物干扰),LLM-GROP均能生成合理布局,并高效完成导航与操作。
人类主观评估显示,该方法在用户满意度上优于现有对象重排方案;仿真环境下,其执行耗时亦低于主流基线方法。
模型对比实验表明,GPT-4在多数任务中表现最优,Gemini与Claude则在特定子任务中具备差异化优势。
研究成果与合作团队
相关论文《LLM-GROP:利用大语言模型实现可视化的机器人任务与运动规划》(LLM-GROP: Visually Grounded Robot Task and Motion Planning with Large Language Models)已发表于机器人领域顶刊《International Journal of Robotics Research》(IJRR)。
论文共同第一作者包括:张笑寒博士(现就职于波士顿动力AI机器人实验室)、丁琰博士(现就职于鹿明机器人)、速水陽平(Yohei Hayamizu)与扎伊纳布·阿尔塔韦尔(Zainab Altaweel);张世琦教授为通讯作者。合作单位涵盖Agility Robotics、得克萨斯大学奥斯汀分校(Peter Stone、朱玉可教授)等。
图丨移动机械臂布置餐桌场景(来源:IJRR)
图丨机器人导航轨迹(虚线)在“用面包盘、叉子、刀和面包布置餐桌”任务中的应用(来源:IJRR)
表丨主观评估得分:简单任务最高3.8分,复杂任务最高3.93分(人类服务员为基准)(来源:IJRR)
图丨相关论文(来源:IJRR)
图丨论文共同第一作者,从左至右依次为:张笑寒、丁琰、速水陽平(Yohei Hayamizu)和扎伊纳布·阿尔塔韦尔(Zainab Altaweel)(来源:资料图)
未来方向
团队计划进一步拓展研究,涵盖:复杂环境下的闭环运动控制优化、抓取失败后的鲁棒恢复机制、高分辨率多模态视觉感知增强、以及边导航边操作(on-the-move manipulation)等开放问题。
张世琦教授表示:“这是大模型首次系统性应用于任务与运动联合规划,后续将持续探索其在真实服务场景中的深度落地。”

