Plan Verification for LLM-Based Embodied Task Completion Agents
Authors: Ananth Hariharan, Vardhan Dongre, Dilek Hakkani-Tür, Gokhan Tur
Deep-Dive Summary:
论文摘要与部分内容总结(中文)
以下是对论文《Plan Verification for LLM-Based Embodied Task Completion Agents》的摘要及部分内容的中文总结,保留了原文中的图片和表格部分在适当位置。
摘要
大型语言模型(LLM)生成的用于具身AI的任务计划以及相应的人类演示数据可能包含噪声,例如不必要的动作、冗余的导航和逻辑错误,这些都会降低策略质量。本文提出了一种迭代验证框架,其中一个Judge LLM对动作序列进行批评,而Planner LLM根据反馈进行修订,从而生成越来越清晰且空间上更连贯的轨迹。与基于规则的方法不同,我们的方法依赖自然语言提示,能够广泛泛化到各种错误类型,包括无关动作、矛盾和缺失步骤。在TEACh具身AI数据集的手动标注动作集上,我们的框架在四个最先进的LLM(GPT o4-mini, DeepSeek-R1, Gemini 2.5, LLaMA 4 Scout)上实现了高达90%的召回率和100%的精确率。迭代循环收敛迅速,96.5%的序列最多需要三次迭代,同时提升了时间效率和空间动作组织。关键是,该方法保留了人类的错误恢复模式,而不是消除它们,为未来在鲁棒纠正行为方面的研究提供了支持。通过将计划验证确立为LLM在空间规划和动作优化中的可靠能力,我们为具身AI的模仿学习提供了高质量训练数据的可扩展路径。
1 引言
近年来,大型语言模型(LLM)的进步使得复杂的多智能体系统能够处理具身AI中的任务计划。具身智能体在现实世界环境中部署时,常常需要执行一系列动作以实现高级目标。为了使这些智能体有效,其计划必须在任务完成方面准确、在时间和动作使用上高效,并且在避免不良或意外后果方面安全。随着LLM的发展,利用这些系统从自然语言输入生成和推理结构化计划的兴趣日益增加。然而,LLM生成的计划并非完美,常常需要验证。此外,用于训练具身智能体规划的数据集质量仍然是一个重大瓶颈,例如TEACh数据集包含大量次优行为。本文提出了一种基于双智能体协议的通用验证框架,通过Planning Agent生成候选计划,并由Judge LLM分析和标记冗余、无关或矛盾的动作,迭代修订直至无进一步异议。
Figure 1: Diagram of Planning Agent and Judge LLM Interaction Process for Plan Verification
我们的方法完全基于语言,与模型无关,不依赖手工设计的启发式规则或领域特定规则集,而是通过零-shot提示利用预训练LLM的推理能力。我们在TEACh数据集上评估了100个片段,涵盖15个高级家庭任务,并报告了四种LLM在Judge和Planning Agent角色中的效果。
2 相关工作
本文的计划验证工作与将LLM集成到复杂多步骤推理流程中的广泛努力相交叉,涉及LLM作为直接计划生成器、验证和优化迭代循环中的角色,以及LLM-as-a-Judge生态系统的背景和挑战。
3 方法论
我们的目标是通过识别和纠正与既定目标无关、冗余、矛盾或缺失的动作,自动优化人类编写的具身任务轨迹。我们将这一过程设计为两个基于语言模型的智能体之间的交互:Judge LLM对提议计划进行批评,Planning Agent根据批评生成更新计划。
3.1 问题形式化定义
令 表示动作序列(计划)的空间。一个计划 是一个有限序列。我们考虑错误集 ,包含计划中错误动作的位置。目标是给定自然语言目标 和初始计划 ,生成一个精炼计划 ,在实现 的同时最小化长度。
验证操作符 实现批评函数:
其中 ,每个批评指定一个动作索引 、纠正类型和理由。Planner确定性地应用这些批评:
迭代优化在第 次迭代时,Judge生成批评 ,Planner整合它们,错误计数形成非递增序列 ,经验上在96.5%的案例中在三次迭代内收敛。
4 结果
4.1 静态(零-shot)验证性能
4.2 迭代批评与修订性能
迭代优化平均提升了所有Judge-Planner组合的召回率5-10%,精确率保持稳定或略有提升。收敛行为分析显示,大多数序列在三次迭代内达到最终状态。
5 结论
本文提出了一种通用的、语言驱动的框架,通过结构化的LLM批评验证人类编写的具身任务计划。我们的结果表明,计划验证是LLM的一种独特语言级能力,对数据集整理和下游学习任务的智能体性能具有重要影响。
6 局限性
我们的研究局限于TEACh数据集的子集,评估结果依赖手动标注,存在主观判断和潜在不一致性。方法依赖Judge LLM的质量和零-shot提示,可能受到LLM固有偏见和知识截止日期的限制。未来研究需解决这些局限性以实现自然语言验证方法在多样化复杂现实任务中的潜力。
Original Abstract: Large language model (LLM) based task plans and corresponding human demonstrations for embodied AI may be noisy, with unnecessary actions, redundant navigation, and logical errors that reduce policy quality. We propose an iterative verification framework in which a Judge LLM critiques action sequences and a Planner LLM applies the revisions, yielding progressively cleaner and more spatially coherent trajectories. Unlike rule-based approaches, our method relies on natural language prompting, enabling broad generalization across error types including irrelevant actions, contradictions, and missing steps. On a set of manually annotated actions from the TEACh embodied AI dataset, our framework achieves up to 90% recall and 100% precision across four state-of-the-art LLMs (GPT o4-mini, DeepSeek-R1, Gemini 2.5, LLaMA 4 Scout). The refinement loop converges quickly, with 96.5% of sequences requiring at most three iterations, while improving both temporal efficiency and spatial action organization. Crucially, the method preserves human error-recovery patterns rather than collapsing them, supporting future work on robust corrective behavior. By establishing plan verification as a reliable LLM capability for spatial planning and action refinement, we provide a scalable path to higher-quality training data for imitation learning in embodied AI.
PDF Link:2509.02761v1

