

树规划器:利用大型语言模型进行高效闭环任务规划

涛哥论道

2023-10-16

导读：论文《树规划器:利用大型语言模型进行高效闭环任务规划》的阅读笔记，方法值得借鉴。

本文研究闭环任务规划,它指的是生成一系列技能(计划)以完成特定目标的过程,同时根据实时观察结果调整计划。最近,提示大语言模型(LLM)迭代生成动作已成为一种流行的范式,由于其卓越的性能和易用性。但是,这种范式存在两个低效问题:高令牌消耗和冗余错误修正,这两者都制约了其在大规模测试和应用中的可扩展性。为解决这些问题,我们提出了TREE-PLANNER,它将LLM任务规划重构为三个不同阶段:计划采样、动作树构建和基于环境的决策。TREE-PLANNER首先提示LLM对任务计划进行采样,然后聚合采样结果形成动作树,最后LLM在树上进行自顶向下的决策,同时考虑实时环境信息。实验结果显示,TREE-PLANNER实现了最先进的性能,同时保持了高效率。通过将LLM查询分解为一次计划采样调用和多次基于环境的决策调用,提示中重复消耗的部分得以大大减少。与之前表现最佳的模型相比,令牌消耗降低了92.2%。此外,通过在动作树上根据需要进行回溯,修正过程变得更加灵活,导致错误修正次数减少40.5%。

一、介绍

任务规划是机器人领域的一个重要课题,其中一个系统被任务规划生成一系列中级动作(技能),以使机器人完成复杂的高级任务(Kaelbling和Lozano-P ́erez,2011)。这涉及考虑各种因素,例如机器人的能力、周围环境以及可能存在的任何约束或不确定性。任务规划领域的一个新兴趋势是使用大语言模型(LLM)直接生成动作(Huang等,2022a; Song等,2023),而不是在预定义的域中搜索(Eysenbach等,2019; Xu等,2019)。

如图1所示,基于LLM的规划的常用范式可以概括为:1)提示LLM逐步生成一个动作;2)执行生成的动作,然后将获得的观察结果追加到LLM中;3)生成下一个动作。我们将这种方法归类为迭代规划器,它允许模型以自动回归的方式生成后续动作。

基于迭代规划器,当动作执行时发生错误时,现有研究努力要么在当前时间步重新生成动作(Raman等,2022; Guo等,2023),要么从初始时间步重新生成整个计划(Shinn等,2023),分别称为局部重新规划和全局重新规划。

上述所有方法都具有以下两个缺点:1)令牌低效:单次LLM调用的费用与所利用的令牌数量(包括提示令牌和生成令牌)成正比增加。但是,在任务规划的场景中,提示令牌通常由指令、环境的全局信息、上下文学习示例和环境观察(Vemprala等,2023)组成,而生成令牌主要代表简洁的动作。提示令牌和生成令牌之间令牌数量的差异导致了令牌低效问题(Cheng等,2023)。此外,由于复杂任务的多步特性(通常涉及5-20个步骤),提示令牌发生重复收费,导致费用进一步增加。2)纠正低效:局部重新规划可以看作是在执行失败的时间步实现的试错法,这使其难以检测到几个时间步之前发生的错误。虽然全局重新规划可以通过重新生成整个计划来缓解这个问题,但这可能仍然以增加的时间和令牌消耗为代价。迭代规划器中固有的令牌和纠正低效性限制了其在大规模推理或日常生活中的频繁使用。

为了在保持高性能的同时解决上述问题,我们提出了树规划器,如图2所示。总体而言,树规划器将对LLM的查询分为两部分:一次计划采样调用和多次基于环境的决策调用,以减少提示令牌中几个组件的重复计算成本。这两个阶段通过树状结构连接,从而实现更有效的逻辑纠正。更具体地说,树规划器首先提示LLM对任务计划进行采样,以发挥其内在的常识(第I阶段)。随后,构建动作树以聚合采样的计划(第II阶段)。最后,树规划器再次在闭环中提示LLM对动作树进行推理,并结合环境观察结果(第III阶段)。在令牌效率方面,树规划器只对环境的全局信息和上下文示例收费一次计划采样。但是,对于迭代规划器,此信息必须在每个时间步收费。在纠正效率方面,基于动作树的纠正过程可以看作是介于局部重新规划和全局重新规划之间。树规划器不仅通过回溯减少了在特定时间步重复决策的可能性,而且还大大减少了从头生成整个计划所需的时间和令牌。

我们在VirtualHome(Puig等,2018)这个复杂家庭任务的模拟环境中证明了树规划器框架的有效性。实验分为两个不同的设置进行:有纠正和无纠正。在有纠正的设置中,模型需要在发生错误时修改计划,而在无纠正的设置中则相反。主要结果显示,树规划器在两个实验设置下都实现了最先进的结果,分别超过了最佳基线模型1.29%和3.65%的成功率。与此同时,树规划器表现出了高效率。在令牌效率方面,树规划器将迭代规划器的令牌成本降低了53.29%。此外,与局部重新规划和全局重新规划相比,在有纠正的设置下,树规划器分别获得了更大的改进,令牌消耗分别降低了74.36%和92.24%。在纠正效率方面,树规划器分别将纠正次数降低了37.99%和40.52%。在进一步的分析中,我们正式验证了树规划器的令牌效率,并导出了模型具有令牌效率所需的生成计划数量的关键值。我们还对计划采样和基于环境的决策进行了消融实验,证明了树规划器各个组成部分的有效性。最后,我们对模型的潜在改进领域进行了手动错误分析。

二、准备

任务和运动规划(TAMP)是生成一系列动作和机器人运动来完成期望目标的过程(Kaelbling和Lozano-Pérez,2011)。类似Li等(2022a),我们将闭环任务规划建模为部分可观测马尔可夫决策过程(POMDPs)⟨S,O,A,T⟩。其中S,O,A分别是状态、观测和动作的集合,T是转换模型。在POMDP设置中,观测ot是底层状态st的一个子集。为完成任务g,最优策略π(at|g,ht,ot)不仅要考虑当前观测ot,还要考虑全部执行历史ht={a1,...,at−1}。

问题设置:我们将闭环任务规划建模为部分可观测马尔可夫决策过程(POMDP)⟨S,O,A,T⟩,其中S,O,A分别是状态、观测和动作的集合,T是状态转移函数。在POMDP中,观测ot只包含底层状态st的一部分信息。给定高层任务g,最优策略π(at|g,ht,ot)不仅要考虑当前观测ot,还要利用之前执行的所有动作序列ht={a1,...,at-1}。

在这个设置下,我们的目标是根据高层任务描述g,生成一个动作序列a1:T以在给定环境中完成该任务。这个过程是一个POMDP,在每个时刻t,策略π根据任务g、之前的执行历史h1:t-1和当前的观测ot选择一个低层动作at。执行at后进入新的状态st+1,得到新的观测ot+1,这个过程重复直到完成任务g。

三、模型

3.1 计划采样

抽象的任务描述通常会限制任务规划。以“小睡”任务为例,机器人需要理解小睡可以在床上完成,床通常在卧室里。许多工作认为大语言模型通过大规模数据进行训练,编码了关于真实世界的常识知识(Davison等,2019;李等,2022b; Bian等,2023)。最近,一些研究探索了将大语言模型集成到任务规划中,旨在处理语言歧义性并为机器人提供背景知识(Huang等,2022a;李等,2022a;Ahn等,2022)。与直接将大语言模型用作策略的这些方法相反,树规划器提示大语言模型在执行它们之前生成潜在的任务计划。我们认为这是一种通过采样提取大语言模型中的常识知识的方式,它为任务规划提供了先验知识。设ps为计划采样的提示,g为任务名称,则计划采样的过程可以形式化为:LLM(ps,g)= c = {c1,c2,...,cN},其中N是一个超参数,确定采样计划的数量。每个计划候选项ci是一个动作序列,即ci = {ait|t = 1,...,m(i)}。m(i)是计划i中的动作数,ait是计划i在时间步t的动作。提示由四部分组成:指令、全局信息、初始观察和上下文示例。指令为大语言模型提供了清晰简明的任务规划过程解释。全局信息为大语言模型提供有关环境和可用动作空间的背景知识。初始观察提供了大语言模型在任务起点的初始快照。上下文示例是额外的任务计划,旨在指示输出计划的格式,并已被证明有助于提高性能(Brown等,2020)。在5.2节中,我们对计划采样的上限进行了定量分析。

3.2 动作树构建

为了从潜在计划中选择最优计划,一个明显的方法是在环境中执行和测试每个计划。但是,这种方法有两个缺点:(i) 在环境中执行多个计划需要时间;(ii) 不同的计划可能有重叠的部分,所以重复执行这些重叠部分是冗余的。例如,在计划1和计划2中,两个计划的第一步都是“[Walk]<bedroom>(1)”。

基于上述分析,我们设计了一种称为动作树的结构化表示,用于聚合采样的潜在计划。如图3所示,当两个计划在特定时间步的动作不同但共享公共前缀时,它们的共享前缀被聚合到单个分支,而它们的不同动作形成分歧路径。这个过程重复进行,直到所有采样计划被组织成一个完整的树结构。其动机在于将计划层面的过滤转换为动作层面的搜索,从而减少环境中的执行时间。一个以根节点r为根的动作树可以形式化为T=(V,E),其中V和E分别表示节点和边的集合。每个节点v与一个动作av和一个时间步tv相关联,即v=(av,tv)。每个边e表示计划ci中的相邻动作对,即E={e(v1,v2)|v1,v2∈V,v1=(ait,t),v2=(ai(t+1),t+1)}。根节点r不与任何特定动作相关联,其子节点是通过聚合每个计划的第一个动作获得的节点集合。动作树的构建过程在算法1中给出。

3.3 基于环境的决策

在基于环境的决策期间,大语言模型充当策略π(at|g,ht,ot)。然而,与迭代规划器从大语言模型的整个语料库中进行采样不同,我们将选择限制在动作树当前节点在时间t的几个子节点上。这模拟了人类的决策过程,人类首先提出几个行动选择,然后结合当前的现实世界观察进行决策。具体来说,我们为大语言模型提供指令、观察和历史(之前执行的动作)作为提示,然后大语言模型从当前节点的子节点中选择一个。此外,我们还设计了相应的错误纠正方法。当所选动作在环境中失败时,树规划器(i)将失败节点为根的子树上的所有节点标记为无效节点;(ii)在动作树上回溯以找到具有可用有效子节点的前一个有效分支节点。如果一个节点的所有子节点均无效,则该分支节点也应标记为无效。(iii)执行之前执行的动作的逆过程(例如,[SwitchOn]的逆过程是[SwitchOff]),以恢复代理状态;(iv)在分支节点上重新决策。基于动作树的错误纠正比通常采用的方法更有效。这是因为动作树在完成当前任务方面起着重要的先验作用。因此,当树上节点处发生错误时,可以选择性地在动作树上回溯,从而减轻在特定时间步重复决策的可能性,如局部重新规划中所示。在动作树上执行错误纠正也减轻了必须返回初始时间步的需要,从而减少了时间和令牌消耗,如全局重新规划中所示。上述过程如图4所示。第5.3节对错误纠正的有效性进行了定量分析。

四、实验结果

4.1 实验设置

环境。我们在VirtualHome(VH)环境(Puig等,2018)中进行实验,这是一个家庭任务的模拟平台。VH环境中的每个场景都包含数百个对象。这些对象可能具有各自的属性,不同对象之间也可能存在关系。VH中有28种不同的动作类型,在附录A.1中列出。与任务相关的目标条件是指对象的一组特定状态或对象之间的谓词。例如,打开电视的一个目标条件是On(TV),而坐下的一个目标条件是On(character, chair)。

数据集。我们构建了一个包含4个VH场景和35个唯一VH任务的数据集。每个任务包括任务名称、目标条件和金标准计划。我们从Puig等人的ActivityPrograms知识库开始,通过执行程序来注释每个任务的目标条件。然后,我们应用了一些简单的启发式方法来过滤数据集中的低质量注释:(i)计划长度小于3;(ii)程序执行失败。为了突出在具有对象和前提条件变化的真实环境中使LLM具体化的必要性,我们在VirtualHome提供的4个不同场景中重复上述注释过程,最终产生71个带注释的任务。我们将4个不同的场景表示为ENV-{1,2,3,4}。然后,我们聘请两名CS专业研究生进行手动质量控制,以确保任务描述与相应的目标条件和程序一致。我们排除不符合对齐标准或最初带注释错误的情况,得到一个由35个任务组成的高质量数据集。为了双重检查数据集的质量,我们还研究了标注者之间的一致性。结果表明Fleiss Kappa得分为0.88,表示“几乎完美的一致”(Landis和Koch,1977)。

评估指标。我们使用四个指标来评估不同方法的性能:可执行性(EXEC.)、成功率(SR)、目标条件召回率(GCR)和评估的财务支出($COST)。EXEC.是指计划是否可在给定环境中执行,不管其与任务的相关性如何。GCR的计算是通过获取地面真值目标条件与生成的计划所达到的目标条件之间的差异,然后将该差异除以目标条件的总数。SR测量是否满足所有目标条件,即,仅当GCR = 1时,SR = 1。$COST用于评估不同方法的令牌效率,根据OpenAI提供的定价计算。对于带错误纠正的评估,我们使用NO.EC表示每个方法的错误纠正次数。NO.EC不直接测量性能,而是评估不同模型纠正错误的有效性。

基线。对于不带错误纠正的实验,我们将我们的方法与两个强大的基于OpenAI API的LLM任务规划方法进行比较,包括:(i) ZERO-SHOT PLANNER (Huang等,2022年); (ii) PROGPROMPT(Singh等,2022年)。此外,我们还实现了第1节中讨论的迭代规划器方法作为基线模型。对于带错误纠正的实验,我们通过局部重新规划和全局重新规划这两种重新规划方法增强了迭代规划器方法,并将它们视为基线模型。有关每个基线模型的更多实现细节和简介,请参阅附录B.2。

实现细节。在我们的实验中,对所有评估方法,我们都将OpenAI GPT-3.5(text-davinci-003)API模型用作大语言模型骨干。该模型的成本为1000个令牌0.02美元。树规划器和迭代规划器的提示是根据Vemprala等人(2023)提出的原则设计的,示例见附录F。我们从数据集中取4个代表性任务作为上下文学习示例,其余的作为验证集。示例固定为“看电视”、“打开灯”、“睡觉”和“刷牙”。为了采样多样化的计划,我们应用了0.8的温度和0.95的top-p值。我们经验地将采样数量N设置为{25,50}。在基于环境的决策期间,我们将温度设置为0.7,top-p设置为1.0,采样参数n设置为20。另外,我们利用多数表决来获得最终选项,以缓解LLM输出的格式错误。错误纠正的最大次数设置为所有评估方法的10。

4.2 主要结果

根据表1中的结果,可以得出树规划器的几个优点:

(i) 树规划器优于列出的基线系统,分别在可执行性、GCR和SR方面超过了之前最优的状态下的绝对值11.2%、6.71%和1.29%(无纠正设置),以及7.04%、7.29%和3.65%(有纠正设置)。这一实验观察结果表明,重构LLM基础的规划管道并不会损害其性能。

(ii) 树规划器在令牌效率方面具有显著优势。在无纠正设置下,树规划器将迭代规划器的成本降低了53.29%。在有纠正设置下,与局部重新规划和全局重新规划相比,令牌消耗分别降低了74.36%和92.24%。

(iii) 树规划器也展示了高的纠正效率,使得与局部重新规划和全局重新规划相比,动作重试次数分别减少了37.99%和40.52%。减少的纠正次数也有助于令牌消耗的降低。

需要注意的是,尽管与零度规划器和编程提示相比,树规划器在令牌效率上没有优势,但它在SR方面分别显着优于这些方法15.79%和27.26%。还值得注意的是,增加超参数N不一定会导致性能的持续改进。这一实验现象将在5.2节中进一步讨论。

五、分析

5.1 令牌效率

在4.2节中,定量分析已经证明树规划器相比迭代规划器消耗更少的令牌。在本节中,我们将进一步提供具体公式来证明这一点。

LLM API调用所需的令牌数量通常包括两部分:提示令牌和生成令牌。设ρ和φ分别代表提示令牌和生成令牌。设ps、gd和ip分别代表计划采样、基于环境决策和迭代规划器。通常,我们有 ρip ≈ ρps + ρgd。这是因为如图2和图1所示,计划采样的提示通常包括全局信息和上下文示例,而基于环境决策的提示包括观察和历史。这些信息通常需要在迭代规划器的每个步骤中包含。假设每个动作类型|a|的令牌数量相同,每个生成计划的总步数M也相同。计划采样的超参数数量为N,基于环境决策也是N,而迭代规划器是1。根据给定信息,我们有 φps = M N |a|, φgd = N, φip = |a|。消耗的令牌数μours和μip可以计算如下:μours = ρps + φps + M · (ρgd + φgd), μip = M · (ρip + φip)。根据上述公式,我们可以确定满足不等式μours < μip的N的边界条件如下:N < (1−1/M) / (1+1/|a|) · (ρps/|a|) + (|a|/|a|+1)。并且我们有ρps >> |a|,因为计划采样的提示可能包含成千上万个令牌,而一个动作只包含几个令牌。我们使用所有动作类型的平均令牌数来估计|a|,使用所有金标准计划的平均长度来估计M。因此,在我们的实验中,得到N的关键值:N < 197.72。详细推导见附录D。结论是,当N不是特别高时,我们的模型表现出显著的令牌效率。

5.2 计划采样

由于基于环境的决策在根本上涉及从采样计划中选择,我们的TREE-PLANNER的上限由计划采样确定。我们提出了两个额外的指标来研究计划采样的上限:(i)所有生成计划的最大GCR,即GCRmax(c) = maxi=1(GCR(ci)); (ii)所有生成计划的平均GCR,即GCRavg(c) = 1/N∑Ni=1(GCR(ci))。GCRmax表示TREE-PLANNER成功的上限。换句话说,仅当“正确”计划存在于采样计划中时,模型才能成功。GCRavg反映了“正确”计划与采样计划的比例。当GCRavg较低时,这无疑为基于环境的决策带来更大挑战。从图5可以得出一些结论:(i) GCRmax的最大值为81.2%表示计划采样是有效的。(ii) 随着N的增加,GCRmax有明显的增加,但最终达到阈值。因此,大值的N将导致令牌消耗增加而不一定提高性能上限。应用TREE-PLANNER时,选择在令牌消耗和模型性能之间达到平衡的适当N值至关重要。(iii) GCRavg不随N的增加而持续增加。这意味着随着N变大,“正确”计划与采样计划的比例不一定增加。

5.3 基于环境的决策

为了研究基于环境的决策的有效性,我们进行了消融实验。我们将每个任务的金标准计划合并到动作树的构建中。如表2所示,在合并金标准计划后,性能有显著提升。此外,错误纠正的次数也有所减少。对于TREE-PLANNER N=25,数字从1.85降低到1.21,对于TREE-PLANNER N=50,数字从2.04降低到1.39。上述定量实验结果证明了基于环境的决策的有效性。另一个值得注意的实验现象是TREE-PLANNER N=25的性能提升大于TREE-PLANNER N=50。这进一步验证了我们在5.2节中得出的结论:当计划数量增加但正确计划的比例降低时,性能可能会受到负面影响。

5.4 错误分析

我们将错误类型分为三类:1) 缺少正确计划;2) 决策错误;3) 假阴性。如表3所列,大多数错误源自缺少正确计划(45.5%)。因此,尽管计划采样能够实现较高的GCRmax,如5.2节所讨论,它在一定程度上仍然制约着我们的模型。一个潜在的未来改进方向是通过在基于环境决策期间增加计划重采样的设计来突破这个上限。此外,语言模型在基于环境决策期间的错误也占了相当大的比例(31.8%)。这些错误案例可能通过实现特定的语言模型相关技术来解决,比如想法链(Wei等,2022; Yao等,2022)、自我反思(Shinn等,2023)等。我们还对每种错误类型进行了定性分析,详见附录E。

6 相关工作

利用大语言模型的任务规划。我们将任务规划领域的主流方法分为两类:基于搜索的方法(Jiang等,2018; Garrett等,2018)和基于生成的方法(Song等,2023; Wu等,2023a; Ding等,2023; Mu等,2023)。在大规模语料上训练的LLM包含了丰富的任务规划的常识知识(Pallagani等,2023; Sun等,2023b;a)。得益于这一进步,基于生成的方法在最近几年逐渐成为研究热点。考虑LLM的利用方式,一些工作直接在环境中执行前生成整个计划(Singh等,2022; Liang等,2023; Wu等,2023b; Zeng等,2023; Lin等,2023b; Yang等,2023)。而这些模型具有令牌效率,但无法在遇到错误时动态修改计划。另一类工作采用了第1节中提出的范式,迭代生成动作(Vemprala等,2023; Yao等,2022; Huang等,2022a;b; Shinn等,2023),这更灵活,可以纠错、人机交互并具体化环境。像Carta等(2023); Huang等(2023); Ahn等(2022)的工作涉及LLM的隐式表示。与这些工作相比,我们的研究侧重于黑箱LLM,它们仅提供输入和输出,没有任何额外信息,这也是研究者和行业更常用的方式。

语言模型输出的树状建模。Yao等(2023); Long(2023)都提出了链式思维的替代方法,称为“思维树”,用于解决问题。这些研究不涉及树中内部步骤与环境的交互,而更侧重于推理任务。考虑机器人领域,Cao和Lee(2023)利用LLM进行自动生成基于行为树的任务。Zhao等(2023); Hao等(2023)提出使用LLM作为世界模型来辅助规划算法,如蒙特卡罗树搜索(MCTS)。但是,树规划器一次采样各种路径,并将这些路径聚合成一个动作树,而不需要像上述研究那样多次调用LLM。这种方法在运行时效率和令牌效率方面都具有优势。

生成后选择。从另一个角度来看,基于环境的决策从采样的潜在计划中选择预测。因此,树规划器遵循生成后选择的范式,这通常被用来优化LLM的输出。一些模型(Glass等,2022; Suzgun等,2022; Wang等,2023b; Gu等,2023)使用外部控制器对生成进行重新排名。在Wang等(2023a)中,LLM的多个生成通过多数表决选择最佳答案。Logeswaran等(2022)提出结合环境状态信息对生成计划进行重新排名。与这些工作不同,我们不是在整个生成的层面上选择,而是使用动作树进行更细粒度的选择(动作级)。

大语言模型的高效推理。大多数前述工作通过修改transformer体系结构或解码策略来实现高效推理(Wang等,2020; Katharopoulos等,2020; Leviathan等,2023; Chen等,2023)。 Cheng等(2023)提出了批量提示方法来减少调用LLM的频率。Lin等(2023a)通过结合在参考轨迹上微调的小型LM实现LLM的高效推理。与以前的研究不同,树规划器仅通过重构LLM规划过程来减轻重复令牌消耗,而无需额外训练。

七、结论

在本文中,我们介绍了TREE-PLANNER,这是一种用于利用LLM进行任务规划的新颖框架。TREE-PLANNER背后的动机是解决通常采用的范式的低效问题,同时仍然获得高性能。通过在VirtualHome环境中进行大量实验,我们证明了TREE-PLANNER优于其他强基线,并实现了最先进的性能。我们还证明了我们的框架在令牌消耗和错误纠正方面具有非常高的效率。为了深入理解我们的框架,我们进行了几项研究来分析其性能提升并识别潜在的瓶颈。此外,我们还对模型可能失败的领域进行了定性错误分析。总的来说,我们认为TREE-PLANNER代表了一种在效率和性能之间取得平衡的LLM任务规划新范式。我们希望我们的工作将激发进一步的研究和更高效任务规划方法的开发。

八、论文的创新点

1. 提出将利用大语言模型进行任务规划分成三个阶段的框架:计划采样、动作树构建和基于环境的决策。这种新的框架结构是该论文的核心创新。

2. 在计划采样阶段,利用语言模型的先验知识采样多个潜在执行计划。这种多样化采样可以提供更丰富的选择空间。

3. 提出动作树的表示,将采样得到的多个计划聚合到树结构中,转换规划问题的搜索空间。动作树是连接采样和决策的关键。

4. 在基于环境的决策阶段,语言模型在动作树上进行选择,充分利用环境反馈。还设计了基于树的错误纠正机制,更加高效。

5. 在VirtualHome模拟环境下,进行详细的评估实验,结果证明该框架实现最优的规划性能。同时令牌消耗和错误纠正次数也大幅减少。

6. 对框架的关键组成部分如计划采样和决策进行了消融实验分析,验证了各模块的效果。还给出了详细的错误分析。

7. 提供了令牌消耗的数学分析,得出了保证效率的采样计划数量阈值。理论上验证了框架的高效性。

8. 总体而言,该框架提出了一种兼顾性能和效率的大语言模型规划新范式,是该领域的重要创新,对后续研究具有重要启发作用。

九、论文的不足之处

1. 计划采样阶段存在采样上限,当采样数目增加时,正确计划比例不一定提高,限制了框架的上限。

2. 动作树表示也存在限制,所有采样计划必须拥有共同前缀才能聚合,处理更复杂的规划状况时可能不够。

3. 基于环境决策依然存在一定的决策错误,说明语言模型理解能力仍有提升空间。

4. 虽然减少了重复消耗,但计划采样和决策阶段仍需要独立调用语言模型,计算成本仍较高。

5. 实验仅在VirtualHome一个模拟环境验证,是否能推广到真实复杂环境需要进一步验证。

6. 错误案例分析不够全面系统,主要从语言模型视角分析,没有考虑规划算法视角。

7. 对比的基线系统较为有限,缺乏和其他最新系统的对比,说明空间不够充分。

8. 关于框架上的耦合关系和互动机制缺乏更深入的分析,一些设计选择缺少理论支持。

9. 在令牌效率分析时,进行了一些过于理想化的假设,实际效果还需深入验证。

10. 总体而言,该框架在复杂度、扩展性和可解释性方面仍存在一定的不足,有进一步改进的空间。

十、论文所提出方法在实际场景中的落地步骤

1. 该方法核心在于提取并利用语言模型的先验知识进行任务规划,因此需要预训练合适的语言模型,存储实际环境相关知识。

2. 根据实际任务场景设计 prompts,提供必要的环境信息、指令和案例,让语言模型理解场景。

3. 收集相关任务的数据集,提供规划案例让语言模型学习。也可以利用专家演示生成数据集。

4. 将方法应用到特定环境的模拟器中,测试框架的适应性,Tuning相关超参数。

5. 在模拟环境中,利用强化学习等方式训练低层控制器,执行语言模型生成的规划。

6. 在实际物理环境中部署框架,将语言模型、低层控制器等集成到机器人系统中。

7. 开发人机交互接口,允许用户指定高层任务,框架输出规划,并执行任务。

8. 收集用户反馈和任务执行的数据,增强语言模型的知识图谱,持续优化框架。

9. 扩展框架的适用场景,从家庭助手到工厂机器人等,测试框架的泛化能力。

10. 研究将框架在线部署到资源受限的机器人平台上的策略,降低计算成本。

总体上,该框架展示了语言模型在任务规划中的潜力,但实际落地还需解决场景适配、用户交互等问题,需要深入研究设计与环境的结合。

【声明】内容源于网络

涛哥论道

李鹏涛，行业知名AI技术专家，清华大学创新领军工程博士，2012年加入京东，任高级总监，领导京东核心系统的研发，2017年任居家事业部产品研发部总经理。先后荣获全球架构师峰会优秀出品人，全球软件开发大会优秀讲师，物流信息化风云人物等奖项。

内容 114

粉丝 0

涛哥论道李鹏涛，行业知名AI技术专家，清华大学创新领军工程博士，2012年加入京东，任高级总监，领导京东核心系统的研发，2017年任居家事业部产品研发部总经理。先后荣获全球架构师峰会优秀出品人，全球软件开发大会优秀讲师，物流信息化风云人物等奖项。

总阅读18

粉丝0

内容114