大数跨境
0
0

ReAct:实现语言模型中推理与行动的协同

ReAct:实现语言模型中推理与行动的协同 金融IT那些事儿
2025-09-19
0
导读:这篇文章是关于ReAct的经典论文,发表于2023年国际学习表征会议(ICLR)会议,特翻译出来供大家学习。

这篇文章是关于ReAct的经典论文,发表于2023年国际学习表征会议(ICLR)会议特翻译出来供大家学习。


REACT-SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

原文地址:https://arxiv.org/abs/2210.03629

摘要

尽管大型语言模型(LLMs)在语言理解和交互式决策等任务中展现出了令人印象深刻的性能,但其推理能力(如思维链提示)和行动能力(如行动计划生成)在以往研究中多被视为独立主题。本文探索利用大型语言模型以交错方式同时生成推理轨迹和任务特定行动,使两者实现更强协同:推理轨迹助力模型推导、跟踪和更新行动计划,并处理异常情况;而行动则让模型能够与外部源(如知识库或环境)交互,获取额外信息。我们将这种方法命名为 ReAct,并将其应用于多种语言任务和决策任务中。结果表明,相较于最先进的基准模型,ReAct 不仅性能更优,还提升了人类可解释性和可信度。具体而言,在问答任务(HotpotQA)和事实核查任务(Fever)中,ReAct 通过与简单的维基百科 API 交互,克服了思维链推理中常见的幻觉现象和错误传播问题,生成的类人任务解决轨迹比无推理轨迹的基准模型更具可解释性。此外,在两个交互式决策基准任务(ALFWorld 和 WebShop)中,ReAct 仅需 1-2 个上下文示例作为提示,其成功率就分别比模仿学习和强化学习方法高出 34% 和 10%。

1 引言

人类智能的一个独特特征是能够将面向任务的行动与语言推理(或内心独白,Alderson-Day & Fernyhough, 2015)无缝结合。这种结合在人类认知中具有重要作用,理论上可支持自我调节或策略制定(Vygotsky, 1987;Luria, 1965;Fernyhough, 2010),并维持工作记忆(Baddeley, 1992)。以在厨房做菜为例:在任意两个具体行动之间,我们可能会通过语言推理来跟踪进度(“所有食材都切好了,现在该把水烧开”)、处理异常或根据情况调整计划(“没有盐了,那就用酱油和胡椒粉代替”),以及判断何时需要外部信息(“怎么和面?我得上网查一下”)。同时,我们也会通过行动(翻看食谱、打开冰箱、检查食材)为推理提供支持,解答 “现在能做什么菜” 这类问题。这种 “行动” 与 “推理” 的紧密协同,使人类能够快速学习新任务,即使在未知场景或信息不确定的情况下,也能进行稳健的决策或推理。

图1: (1)4种提示方法的比较,(a)标准,(b)思维链(CoT, Reason Only),(c)仅动作,和(d)ReAct(Reason+Act),解决一个HotpotQA(Yang等人,2018)问题。(2) 比较(a) Act-only和(b) ReAct提示,解决一个AlfWorld(Shridhar等人,2020b)游戏。在这两个领域中,我们省略了提示中的上下文例子,只显示由模型(Act,Thought)和环境(Obs)产生的任务解决轨迹。

近期研究表明,在自主系统中结合语言推理与交互式决策具有可行性。一方面,经过适当提示的大型语言模型展现出了新兴能力,能够通过多步推理轨迹推导算术、常识和符号推理任务的答案(Wei et al., 2022)。然而,这种 “思维链” 推理是静态的 “黑箱”—— 模型仅依赖内部表征生成思路,未与外部世界建立关联,这限制了其反应式推理能力和知识更新能力,可能导致推理过程中出现事实幻觉和错误传播(图 1 (b))。另一方面,近期研究探索了将预训练语言模型用于交互式环境中的规划与行动(Ahn et al., 2022;Nakano et al., 2021;Yao et al., 2020;Huang et al., 2022a),重点通过语言先验预测行动。这些方法通常将多模态观测转换为文本,利用语言模型生成特定领域的行动或计划,再通过控制器选择或执行。但它们并未利用语言模型对高级目标进行抽象推理,也未通过维持工作记忆来支持行动 —— 仅有 Huang 等人(2022b)的研究通过有限形式的语言推理重申当前状态的空间事实。除了与少数物体交互的简单具身任务外,目前尚无研究探索如何以协同方式将推理与行动结合以解决通用任务,也未验证这种结合是否能比单独使用推理或行动带来系统性优势。

本文提出 ReAct—— 一种通用范式,可将语言模型的推理与行动结合,用于解决各类语言推理任务和决策任务(图 1)。ReAct 通过提示大型语言模型,以交错方式生成语言推理轨迹和任务相关行动:这使得模型能够通过动态推理制定、维持和调整高级行动规划(“为行动而推理”),同时与外部环境(如维基百科)交互,将额外信息融入推理过程(“为推理而行动”)。

2 ReAct:实现推理与行动的协同

考虑一个agent与环境互动以解决任务的一般设置。在时间步t,agent从环境中收到一个观察值 o t     O  ,并按照一些策略 π ( a t | c t ) 采取动作 a t A  ,其中 c t = ( o 1 , a 1 ,   , o t 1 , a t 1 , o t )  是agent的背景。当ct → at的映射高度隐含并需要大量计算时,学习策略是具有挑战性的。例如,图1(1c)所示的agent无法产生正确的最终动作(动作4)来完成QA任务,因为它需要对轨迹背景进行复杂的推理(问题,动作1-3,观察1-3)。同样,图1(2a)所示的agent未能从上下文中理解水槽1不包含胡椒器1,因此一直产生幻觉的动作。

ReAct的想法很简单:我们将agent的动作空间扩大到A和L,其中L是语言空间。语言空间中的动作aˆt,我们将其称为思想或推理轨迹,不影响外部环境,因此不会导致观察反馈。相反,一个思想aˆt的目的是通过对当前上下文ct的推理来组成有用的信息,并更新上下文ct+1=(ct,aˆt) 以支持未来的推理或动作。如图1所示,可能有各种类型的有用思想,例如分解任务目标和创建动作计划(2b,动作1;1d,思想1),注入与任务解决相关的常识性知识(2b,动作1),从观察中提取重要部分(1d,思想2,4),跟踪进度和转运动作计划(2b,动作8),处理异常情况和调整动作计划(1d,思想3),等等。

然而,由于语言空间 L 具有无限性,在扩展后的行动空间中学习难度较大,需要强大的语言先验支持。本文主要聚焦于以下场景:冻结大型语言模型 PaLM-540B(Chowdhery et al., 2022)¹,通过少量上下文示例作为提示,使其生成特定领域的行动和自由形式的语言思路以解决任务(图 1 (1d)、(2b))。每个上下文示例都是人类解决任务实例的轨迹,包含行动、思路和环境观测(详见附录 C)。对于以推理为核心的任务(图 1 (1)),我们交替生成思路和行动,使任务解决轨迹包含多个 “思路 - 行动 - 观测” 步骤;而对于可能涉及大量行动的决策任务(图 1 (2)),思路仅需在轨迹中最相关的位置稀疏出现,因此由语言模型自主决定思路与行动的异步出现时机。

附录 A.1 中展示了 GPT-3(Brown et al., 2020)的部分实验结果,其性能优于 PaLM-540B。

由于决策能力和推理能力被整合到大型语言模型中,ReAct 具有以下独特优势:

  • 直观易设计
    设计 ReAct 提示简单直接 —— 人类标注者只需在行动旁用语言记录思路即可,无需特殊格式选择、思路设计或示例筛选。本文第 3、4 节详细介绍了各任务的提示设计。
  • 通用灵活
    得益于灵活的思路空间和 “思路 - 行动” 出现形式,ReAct 适用于具有不同行动空间和推理需求的各类任务,包括但不限于问答、事实核查、文本游戏和网页导航。
  • 高效稳健
    ReAct 仅通过 1-6 个上下文示例即可学习,对新任务实例展现出强泛化能力,在不同领域中持续优于仅含推理或仅含行动的基准模型。第 3 节还展示了微调带来的额外收益,第 4 节验证了 ReAct 性能对提示选择的稳健性。
  • 人机对齐且可控
    ReAct 的决策与推理过程具有序列可解释性,人类可轻松核查推理的正确性和事实准确性;此外,人类还能通过编辑思路实时控制或修正智能体行为(见第 4 节图 5)。

3 知识密集型推理任务

我们首先将 ReAct 应用于知识密集型推理任务(如多跳问答和事实核查)。如图 1 (1d) 所示,通过与维基百科 API 交互,ReAct 既能检索信息支持推理,又能通过推理确定下一步检索目标,充分体现了推理与行动的协同作用。

3.1 实验设置

任务领域

我们选取两个需复杂知识检索与推理的数据集:

  1. HotPotQA
    (Yang et al., 2018):多跳问答基准,需对至少两个维基百科段落进行推理才能回答问题。
  2. FEVER
    (Thorne et al., 2018):事实核查基准,每个主张需根据是否存在支持或反驳它的维基百科段落,标注为 “支持(SUPPORTS)”“反驳(REFUTES)” 或 “信息不足(NOT ENOUGH INFO)”。

本文中,两个任务均采用 “仅问题 / 主张输入” 设置:模型仅接收问题或主张作为输入,无法直接获取支持段落,需依赖内部知识或通过与外部环境交互检索知识以支持推理。

行动空间

我们设计了一个简单的维基百科 Web API,包含三种交互式信息检索行动:

  1. search [实体]
    若存在对应实体的维基页面,返回该页面的前 5 个句子;否则,返回维基搜索引擎推荐的 Top-5 相似实体。
  2. lookup [字符串]
    返回页面中包含该字符串的下一个句子,模拟浏览器的 “Ctrl+F” 功能。
  3. finish [答案]
    完成当前任务并输出答案。

需注意,该行动空间仅能基于精确段落名称检索段落的部分内容,其性能远弱于最先进的词汇检索器或神经检索器。设计此空间的目的是模拟人类与维基百科的交互方式,并迫使模型通过明确的语言推理进行检索。

3.2 实验方法

ReAct 提示设计

针对 HotPotQA 和 Fever,我们分别从训练集中随机选取 6 个和 3 个案例 ²,手动构建 ReAct 格式的轨迹作为少量示例提示。与图 1 (d) 类似,每个轨迹包含多个 “思路 - 行动 - 观测” 步骤(即密集思路),其中自由形式的思路用于多种目的:分解问题(“我需要先检索 x,找到 y,再找到 z”)、从维基百科观测中提取信息(“x 始于 1844 年”“该段落未提及 x”)、执行常识推理或算术推理(“x 不是 y,因此 z 必定是……” 或 “1844<1989”)、指导检索重构(“或许我可以检索 / 查找 x 替代”),以及合成最终答案(“…… 因此答案是 x”)。详见附录 C。

实验发现,增加示例数量并不会提升性能。

基准模型

我们通过删减 ReAct 轨迹的不同部分,构建多种基准模型的提示(格式如图 1 (1a-1c) 所示):

  • 标准提示(Standard)
    删除 ReAct 轨迹中的所有思路、行动和观测。
  • 思维链提示(CoT)
    (Wei et al., 2022):删除行动和观测,作为仅含推理的基准模型。我们还构建了自一致性基准模型(CoT-SC)(Wang et al., 2022a; b)—— 在推理时以 0.7 的解码温度采样 21 条 CoT 轨迹,采用多数投票结果作为最终答案,该方法已被证实能持续提升 CoT 性能。
  • 仅行动提示(Act)
    删除 ReAct 轨迹中的思路,与 WebGPT(Nakano et al., 2021)通过互联网交互回答问题的方式类似,但 WebGPT 针对不同任务和行动空间,且采用模仿学习和强化学习而非提示方法。

内部知识与外部知识的结合

如第 3.3 节所述,ReAct 的问题解决过程更注重事实性和关联性,而 CoT 在构建推理结构方面更准确,但易产生虚假事实或思路。因此,我们提出将 ReAct 与 CoT-SC 结合,让模型根据以下启发式规则决定何时切换方法:

  • ReAct→CoT-SC
    若 ReAct 在规定步骤内未返回答案,则切换至 CoT-SC。我们为 HotPotQA 和 Fever 分别设置 7 步和 5 步限制,实验表明更多步骤不会提升 ReAct 性能 ³。
  • CoT-SC→ReAct
    若 n 个 CoT-SC 样本中多数答案的出现次数少于 n/2(即内部知识可能无法可靠支持任务),则切换至 ReAct。

在所有最终答案正确的轨迹中,HotPotQA 中步骤数为 7 的轨迹仅占 0.84%,Fever 中步骤数为 5 的轨迹仅占 1.33%。

微调方法

由于大规模手动标注推理轨迹和行动成本较高,我们采用类似 Zelikman 等人(2022)的自举方法:使用 ReAct(及其他基准模型)生成的 3000 条答案正确的轨迹,微调较小的语言模型(PaLM-8B/62B),使其能根据输入问题 / 主张解码轨迹(包含所有思路、行动和观测)。详见附录 B.1。

3.3 实验结果与分析

ReAct 持续优于仅行动基准模型

表 1 展示了以 PaLM-540B 为基础模型,采用不同提示方法在 HotPotQA 和 Fever 上的实验结果。可见 ReAct 在两个任务上均优于仅行动模型(Act),证明了推理对行动的指导价值 —— 尤其是在合成最终答案方面(见图 1 (1c-d))。微调结果也进一步证实,推理轨迹有助于更合理的行动决策。

ReAct 与 CoT 的对比

另一方面,ReAct 在 Fever 上的性能优于 CoT(60.9 vs. 56.3),但在 HotPotQA 上略逊于 CoT(27.4 vs. 29.4)。Fever 中 “支持 / 反驳” 的主张差异可能极小(见附录 D.1),因此通过行动检索准确、最新的知识至关重要。为深入分析 ReAct 与 CoT 在 HotPotQA 上的行为差异,我们从两者的正确和错误轨迹中各随机抽取 50 条(共 200 个示例),手动标注其成功与失败模式(表 2),主要发现如下:

  • 幻觉是 CoT 的严重问题
    在成功模式中,CoT 的假阳性率远高于 ReAct(14% vs. 6%);幻觉也是 CoT 的主要失败模式(占比 56%)。相比之下,ReAct 的问题解决轨迹因能访问外部知识库,更具关联性、事实性和可信度。
  • ReAct 的推理灵活性受限
    尽管 “推理 - 行动 - 观测” 的交错步骤提升了 ReAct 的关联性和可信度,但这种结构约束降低了其推理步骤的灵活性,导致推理错误率高于 CoT。ReAct 存在一种常见错误模式:重复生成之前的思路和行动,我们将其归为 “推理错误”,因为模型无法推理出合适的下一步行动以跳出循环⁴。
  • 有效检索对 ReAct 至关重要
    非信息性检索(占错误案例的 23%)会干扰 ReAct 的推理过程,使其难以恢复和重构思路。这可能是事实性与灵活性之间的必然权衡,也促使我们提出结合两种方法的策略。

⁴我们推测这可能源于次优的贪心解码过程,未来采用更优的解码方法(如束搜索)或可解决此问题。

ReAct+CoT-SC 在提示方法中性能最优

表 1 还显示,在 HotPotQA 和 Fever 上性能最佳的提示方法分别是 ReAct→CoT-SC 和 CoT-SC→ReAct。此外,图 2 展示了不同方法随 CoT-SC 样本数量变化的性能曲线:尽管两种 ReAct+CoT-SC 方法分别在一个任务上表现更优,但它们在不同样本数量下均显著且持续优于 CoT-SC—— 仅需 3-5 个样本即可达到 CoT-SC 使用 21 个样本的性能。这些结果表明,合理结合模型内部知识与外部知识对推理任务具有重要价值。

ReAct 在微调中表现最佳

图 3 展示了四种方法(Standard、CoT、Act、ReAct)在 HotPotQA 上的提示 / 微调缩放效应。对于 PaLM-8B/62B,ReAct 提示在四种方法中性能最差,因为从上下文示例中同时学习推理和行动难度较大。然而,仅用 3000 个示例微调后,ReAct 成为四种方法中的最优者:微调后的 PaLM-8B ReAct 性能超过所有 PaLM-62B 提示方法,微调后的 PaLM-62B ReAct 性能超过所有 540B 提示方法。相比之下,Standard 和 CoT 的微调效果远逊于 ReAct 和 Act—— 前者本质上是让模型记忆(可能虚假的)知识事实,而后者则教会模型如何(通过推理)行动以从维基百科获取信息,这是一种更具泛化性的知识推理技能。由于所有提示方法的性能仍远低于特定领域的最先进方法(表 1),我们认为通过更多人工标注数据进行微调,可能是释放 ReAct 潜力的更优途径。

4 决策任务

我们还在两个基于语言的交互式决策任务(ALFWorld 和 WebShop)上测试了 ReAct。这两个任务的环境复杂,要求智能体在长时程内行动并应对稀疏奖励,因此需要通过推理指导行动和探索,以实现高效任务解决。

4.1 ALFWorld 任务

ALFWorld(Shridhar et al., 2020b)(图 1 (2))是一个合成文本游戏,与具身智能基准 ALFRED(Shridhar et al., 2020a)对齐。该任务包含 6 类子任务,智能体需通过文本行动(如 “前往咖啡桌 1”“拿起纸张 2”“使用台灯 1”)在模拟家庭环境中完成高级目标(如 “在台灯下检查纸张”)。单个任务实例可能包含超过 50 个位置,专家策略需超过 50 步才能完成,因此对智能体的子目标规划、跟踪能力和系统性探索能力(如逐一检查所有桌子寻找台灯)提出了挑战。ALFWorld 的一个核心挑战是:需确定常见家居物品的可能位置(如台灯可能在桌子、架子或梳妆台上),这一特性使该环境适合大型语言模型发挥预训练常识知识优势。

为设计 ReAct 提示,我们为每个子任务类型从训练集中随机标注 3 条轨迹,每条轨迹包含稀疏思路,用于:(1)分解目标;(2)跟踪子目标完成情况;(3)确定下一个子目标;(4)通过常识推理确定物品位置和操作方式。ALFWorld 的提示示例见附录 C.4。参照 Shridhar 等人(2020b)的方法,我们在 134 个未见过的测试游戏上进行任务特定设置的评估。为保证稳健性,我们通过对 3 条标注轨迹中的 2 条进行排列组合,为每个子任务类型构建 6 个提示。仅行动提示(Act)使用相同轨迹但删除思路 —— 由于任务实例从训练集中随机选取,该设置对 ReAct 和 Act 均无偏向性,可公平对比稀疏思路的重要性。基准模型采用 BUTLER(Shridhar et al., 2020b)—— 一种模仿学习智能体,每个子任务类型均在 10⁵条专家轨迹上训练⁵。

⁵Micheli & Fleuret(2021)在 3553 个任务实例上微调 GPT-2 模型,性能显著优于 BUTLER,但该模型在所有子任务类型上训练,因此未作为基准模型。

4.2 WebShop 任务

ReAct 能否在含噪声的真实语言环境中交互,以应用于实际场景?我们以 WebShop(Yao et al., 2022)为研究对象 —— 这是一个近期提出的在线购物网站环境,包含 118 万件真实商品和 1.2 万条人类指令。与 ALFWorld 不同,WebShop 包含大量结构化和非结构化文本(如从亚马逊爬取的商品标题、描述和选项),要求智能体根据用户指令(如 “我需要一个带抽屉的床头柜,镍色饰面,价格低于 140 美元”),通过网页交互(如搜索 “带抽屉床头柜”、点击 “颜色:现代镍白色” 或 “返回搜索”)购买商品。该任务的评估指标为:平均得分(所有场景中所选商品覆盖需求属性的百分比)和成功率(所选商品满足所有需求的场景百分比),评估基于 500 条测试指令。

我们设计的仅行动提示(Act)包含搜索、选择商品、选择选项和购买等行动;ReAct 提示则额外增加思路,用于确定探索目标、购买时机以及与指令相关的商品选项。提示示例见表 6,模型预测结果见附录表 10。基准模型采用:(1)在 1012 条人类标注轨迹上训练的模仿学习(IL)方法;(2)额外在 10587 条训练指令上训练的模仿学习 + 强化学习(IL+RL)方法。

4.3 实验结果

ReAct 在 ALFWorld 和 WebShop 上均优于仅行动模型

表 3 和表 4 分别展示了 ReAct 与仅行动模型(Act)在 ALFWorld 和 WebShop 上的性能对比。在 ALFWorld 中,ReAct 的最佳实验成功率达 71%,显著优于 Act 的最佳结果(45%)和 BUTLER 的最佳结果(37%);即使是 ReAct 的最差实验结果(48%),也超过了两种基准模型的最佳结果。此外,在 6 组对照实验中,ReAct 相对于 Act 的性能提升具有一致性,相对提升幅度为 33%-90%,平均提升 62%。从定性分析可见,Act 因缺乏思路,无法将目标正确分解为子目标,也无法跟踪环境当前状态。ReAct 与 Act 的轨迹对比示例见附录 D.2.1 和 D.2.2。

在 WebShop 中,仅需 1 个示例的 Act 提示性能已与 IL 和 IL+RL 方法相当;而加入稀疏推理后,ReAct 性能显著提升,成功率较之前的最佳结果绝对提高 10%。通过案例分析发现,ReAct 能通过推理弥合噪声观测与行动之间的差距(如 “对于‘客厅省空间 Ottoman 长凳’,该商品有‘39×18×18 英寸’和‘蓝色’选项,适合购买”),从而更易识别与指令相关的商品和选项。然而,现有方法的性能仍远低于人类专家(表 4)—— 人类会进行更多商品探索和查询重构,这对基于提示的方法而言仍是挑战。

内部推理与外部反馈的价值对比

据我们所知,ReAct 是首个在闭环系统中利用大型语言模型结合推理与行动,应用于交互式环境的方法。最相关的前期研究是 Huang 等人(2022b)提出的 “内心独白”(Inner Monologue, IM)—— 具身智能体的行动由 “内心独白” 驱动。但 IM 的 “内心独白” 仅限于对环境状态观测和目标完成需求的描述,而 ReAct 在决策任务中的推理轨迹具有灵活性和稀疏性,可针对不同任务生成多种推理类型(见第 2 节)。

为对比 ReAct 与 IM 的差异,并突出内部推理相对于外部反馈简单反应的重要性,我们设计了消融实验:采用类似 IM 的密集外部反馈思路模式。表 3 显示,ReAct 的性能显著优于 IM 风格提示(ReAct-IM)(总体成功率 71 vs. 53),在 6 个子任务中的 5 个均保持优势。定性分析发现,ReAct-IM 常因缺乏高级目标分解,在判断子目标完成时机和确定下一个子目标时出错;此外,由于缺乏常识推理,许多 ReAct-IM 轨迹无法确定物品在 ALFWorld 环境中的可能位置。这两个缺陷均可通过 ReAct 范式解决。ReAct-IM 的详细说明见附录 B.2,提示示例见附录 C.4,轨迹示例见附录 D.2.3。

5 相关工作

5.1 用于推理的语言模型

利用大型语言模型进行推理的最知名研究是 “思维链”(CoT)(Wei et al., 2022),该研究证实大型语言模型能够自主构建 “思考流程” 以解决问题。后续研究包括:用于复杂任务的 “由少到多” 提示(Zhou et al., 2022)、零样本思维链(Kojima et al., 2022),以及结合自一致性的推理(Wang et al., 2022a)。近期,Madaan & Yazdanbakhsh(2022)系统研究了思维链的构建与结构,发现符号、模式和文本的存在对思维链有效性至关重要。此外,还有研究将推理架构扩展到简单提示之外,例如 “选择 - 推理”(Selection-Inference)(Creswell et al., 2022)将推理过程分为 “选择” 和 “推理” 两步;STaR(Zelikman et al., 2022)通过在模型生成的正确推理过程上微调,实现推理过程的自举;“可信推理”(Faithful Reasoning)(Creswell & Shanahan, 2022)将多步推理分解为三步,每步由专用语言模型执行。类似方法还包括 “草稿本”(Scratchpad)(Nye et al., 2021)—— 通过在中间计算步骤上微调语言模型,提升多步计算任务性能。与这些方法不同,ReAct 不仅限于孤立的静态推理,还将模型行动及其对应的观测整合为连贯的输入流,使推理更准确,并能处理推理之外的任务(如交互式决策)。

5.2 用于决策的语言模型

大型语言模型的强大能力使其能够超越语言生成任务,作为决策任务的策略模型(尤其在交互式环境中)的应用日益广泛。WebGPT(Nakano et al., 2021)利用语言模型与网页浏览器交互、导航网页,并从 ELI5(Fan et al., 2019)的复杂问题中推理答案。与 ReAct 相比,WebGPT 未明确建模思考和推理过程,而是依赖昂贵的人类反馈进行强化学习。在对话建模中,BlenderBot(Shuster et al., 2022b)、Sparrow(Glaese et al., 2022)等聊天机器人,以及 SimpleTOD(Hosseini-Asl et al., 2020)等面向任务的对话系统,也训练语言模型进行 API 调用决策,但它们同样未明确考虑推理过程,且依赖昂贵的数据集和人类反馈进行策略学习。相比之下,ReAct 的策略学习成本更低,仅需通过语言描述推理过程即可⁶。

⁶人类反馈也可作为补充手段,本文暂不展开,留待未来研究。

大型语言模型在交互式和具身环境中的规划与决策应用也日益增多。与 ReAct 最相关的研究是 SayCan(Ahn et al., 2022)和 “内心独白”(Inner Monologue)(Huang et al., 2022b)—— 两者均利用语言模型进行机器人行动规划与决策。SayCan 通过提示语言模型直接预测机器人可能的行动,再由基于视觉环境的可用性模型重新排序以确定最终行动;“内心独白” 则通过加入 “内心独白”(即环境反馈注入)进一步改进。据我们所知,“内心独白” 是首个展示此类闭环系统的研究,ReAct 在此基础上发展。但如第 4 节所述,“内心独白” 并非真正的 “内心思考”。此外,研究表明,在交互式决策中利用语言作为语义丰富的输入,在其他场景下也能取得成功(Abramson et al., 2020;Karamcheti et al., 2021;Huang et al., 2022a;Li et al., 2022)。显然,在大型语言模型的助力下,语言作为一种基础认知机制,将在交互与决策中发挥关键作用。此外,大型语言模型的发展也推动了通用智能体的研究,如 Reed 等人(2022)的工作。

6 结论

本文提出 ReAct—— 一种简单有效的方法,可实现大型语言模型中推理与行动的协同。通过在多跳问答、事实核查和交互式决策任务上的大量实验,我们证实 ReAct 能带来更优性能,并生成可解释的决策轨迹。尽管方法简单,但具有大型行动空间的复杂任务仍需更多示例才能充分学习,而这很容易超出上下文学习的输入长度限制。我们在 HotPotQA 上探索了微调方法,取得了初步的积极结果,但未来还需通过更多高质量人工标注数据进一步提升性能。此外,通过多任务训练扩展 ReAct,并将其与强化学习等互补范式结合,有望构建更强的智能体,进一步释放大型语言模型在更多应用场景中的潜力。

致谢

感谢谷歌大脑团队和普林斯顿大学自然语言处理小组的众多成员提供的支持和反馈。本研究部分得到美国国家科学基金会(Grant No. 2107048)的资助。本文中的观点、发现、结论或建议仅代表作者个人,不必然反映美国国家科学基金会的观点。

可复现性声明

我们的主要实验基于 PaLM 模型(Chowdhery et al., 2022),该模型目前尚未开源。为提高可复现性,我们在附录 C 中提供了所有使用的提示,在附录 A.1 中展示了使用 GPT-3(Brown et al., 2020)的额外实验,并在https://anonymous.4open.science/r/ReAct-2268/ 提供了 GPT-3 ReAct 提示的相关代码。

伦理声明

ReAct 通过提示大型语言模型,生成比以往方法更具人类可解释性、可诊断性和可控性的任务解决轨迹。然而,将大型语言模型与行动空间结合以与外部环境(如网络、物理环境)交互,存在潜在风险(如检索不当或隐私信息、在环境中执行有害行动)。本研究通过以下方式降低风险:限制交互范围为特定网站(维基百科或 WebShop),这些网站不含隐私信息;在行动空间设计中排除任何危险行动(如模型无法在 WebShop 研究基准中实际购买商品,也无法编辑维基百科)。我们认为,未来研究人员在设计更广泛的实验前,应充分意识到此类风险。


扫描下方二维码加入知识星球“金融科技与数字化转型”(持续运营1500余天),更有清华大学、北京大学、复旦大学最近报告论文,人工智能、金融科技、智能制造、IBM、埃森哲、华为咨询方法论案例等超千份资料实时更新。
图片
图片
图片
图片

【声明】内容源于网络
0
0
金融IT那些事儿
武艳军,资深企业架构师,数字化转型专家,TOGAF企业架构鉴定级认证专家认证,《企业架构驱动数字化转型》专著作者,20年金融业、制造业企业信息化经验,中国信通院企业架构推进中心专家,中国商业联合会数据委专家
内容 88
粉丝 0
金融IT那些事儿 武艳军,资深企业架构师,数字化转型专家,TOGAF企业架构鉴定级认证专家认证,《企业架构驱动数字化转型》专著作者,20年金融业、制造业企业信息化经验,中国信通院企业架构推进中心专家,中国商业联合会数据委专家
总阅读44
粉丝0
内容88