

Google DeepMind 重磅论文：让AI拥有进化记忆

鸣鹤睿思

2025-12-14

当下很多 AI 模型/智能体会做很多事情，但最真实、最致命的短板是：

它们擅长‘回忆’，不擅长‘进化’，它们不像人类一样拥有进化记忆，无法“干中学”。

它能从历史里“检索”，不等于能从历史里“提炼出方法论”；它能按照自己的流程执行任务，不等于会在连续任务中越做越稳、越做越省步骤、越做越像一个真正会复盘的人。

而这恰恰是 Google DeepMind 最新重磅论文《Evo-Memory》想解决的问题：他们把“记忆”从聊天记录式的静态存储，推到了更接近真实世界的形态——连续任务流里的经验累积与复用。换句话说，要解决的是模型能不能在部署过程中把一次次成功/失败的任务执行变成‘以后遇到类似问题就该这么做’的策略。为此他们提出了一个新的流式评测框架 Evo-Memory，把传统数据集改造成一串串连续任务，要求智能体每做完一步，不只是把结果存起来，而是要更新、精炼、剪枝自己的记忆——让记忆变成“会长出来的能力”。

更有意思的是，论文不仅提出基准，还给了两条清晰的实践路线：一种是简单但有效的 ExpRAG，把过去做过的相似任务当“经验样例”检索出来直接复用；另一种是更进一步的 ReMem，在“思考—行动—记忆精炼”的循环里，让模型在做事过程中主动复盘、去噪、提炼可复用步骤。它试图把智能体从“会翻笔记”，升级为“会写心得”。

如果说过去两年行业主要在卷“模型会不会做题、会不会规划、会不会用工具”，那 Evo-Memory 在补一块更底层的拼图：AI 要从一次次任务中长出稳定的工作习惯。这件事一旦做成，才是真正意义上的“长期助手”——不是陪聊型记忆，而是工程化、流程化、可持续变聪明的智能体。

论文的学术背景

LLM的应用已经从简单的对话工具发展到能够进行代码编写、浏览器控制和复杂问题解答的智能系统。然而，当前的模型在处理长时间跨度的任务时面临一些挑战，尤其是在记忆的使用上。传统的LLM系统通常只是静态地回顾对话历史或从记忆库中提取信息来回答问题，而缺乏动态的记忆更新和学习能力。即便是高级的对话系统，也往往只能记住历史对话，而没有能力利用这些记忆来进行长期的知识积累或适应未来的任务。

这篇论文的创新点在于提出了“自我进化的记忆”概念，试图让LLM不仅仅是“记住”过去的对话内容，而是通过不断的互动和反馈，自动优化自己的记忆结构。这种进化的记忆系统，不仅帮助LLM更好地执行当前任务，还能让它在面对新的任务时，灵活地调整和利用以前的经验，从而提高长期的适应性和问题解决能力。

论文主要内容

1、Evo-Memory基准框架：
论文提出了一个新的框架，用来评估和测试LLM的“自我进化记忆”能力。Evo-Memory将任务转化为连续的任务流，要求模型不仅在每次交互时搜索和利用记忆，还能在每次交互后更新和进化自己的记忆库。这种自我进化的过程被称为“测试时进化（test-time evolution）”。

2、记忆模块的集成与评估：
论文实现并评估了十多种不同的记忆模块，包括基于检索的记忆、工作流和层次结构记忆等。通过统一的测试框架，研究人员分析了这些记忆模块在实际任务中的表现，特别是它们如何帮助模型在多轮互动和单轮推理任务中实现记忆的积累、适应和改进。

3、ExpRAG与ReMem：
论文还提出了两个重要的基准方法：ExpRAG和ReMem。ExpRAG是一个简单的基于检索的经验重用方法，它通过回顾历史经验来提高模型的表现。而ReMem则是一种更先进的方法，它通过引入思考（Think）、行动（Act）和记忆精炼（Refine）的循环，使模型能够在执行任务的过程中主动评估、重组和进化自己的记忆。这种方法不仅增强了模型的推理能力，还能够帮助它在执行任务时持续优化和改进。

论文的意义

1、推动LLM的长期适应能力：
目前，很多LLM只能在短期内进行推理和任务执行，缺乏在复杂、长时间跨度任务中的记忆和适应能力。Evo-Memory通过提出自我进化的记忆机制，使LLM能够在面对新的任务时，从过往的经验中汲取教训，不断优化自身的推理和决策能力。这意味着未来的智能系统将不再是“静态”的工具，而是能够持续进化和提高的智能体。

2、现实世界中的应用前景：
未来，随着LLM能够更加智能地管理和进化记忆，它们将在更加多样化的领域中得到广泛应用。从医疗、金融到制造业和教育，Evo-Memory能够帮助智能体处理复杂的决策问题和长周期的任务。例如，在医疗诊断系统中，系统可以通过不断积累病例经验，逐渐提高诊断准确性；在金融领域，智能投资系统可以利用过往市场数据，灵活调整策略，从而提升投资决策的长期回报。

对于投资市场的影响

1、算力和存储的需求：Evo-Memory的应用可能会大大提高LLM在实际任务中的计算需求，因为自我进化的记忆不仅需要更强的推理能力，还需要实时更新和管理大量的记忆数据。这意味着，在算力密集型的应用中，LLM将对计算资源的需求更大，特别是GPU和TPU等加速硬件的需求将进一步增加。

2、存储需求的增加：随着模型的记忆库不断更新，存储需求也将呈指数级增长。为了支持自我进化记忆的实时更新和长期存储，云计算和数据存储设施将需要进一步扩展。关键的硬件供应商，可能会从这种趋势中受益，尤其是在高性能计算和存储解决方案方面。

3、产业链的变动：随着自我进化的记忆系统的普及，很多现有的应用场景，如自动化客服、个人助理、智能问答系统等，将会进入一个新的发展阶段。特别是在AI驱动的决策支持系统中，这种记忆系统能够帮助LLM更好地理解和适应复杂的业务环境，提供更加个性化和高效的服务。

Evo-Memory：以自进化记忆评测 LLM 智能体的测试时学习

“有状态性”（statefulness）对于大型语言模型（LLM）智能体执行长期规划与问题求解至关重要。这使得记忆成为关键组件，但其管理与演化仍然基本未被充分探索。现有评估多聚焦于静态对话场景：从对话中被动检索记忆来回答查询，却忽视了在不断演化的任务流中累积并复用经验的动态能力。在真实世界环境中，如交互式问题助手或具身智能体，LLM 需要处理连续的任务流，但往往无法从累积的交互中学习，导致宝贵的上下文洞见流失；这一局限呼唤测试时演化（test-time evolution）：LLM 在部署期间持续检索、整合并更新记忆。为弥合这一差距，我们提出 Evo-Memory：一个用于评估 LLM 智能体自进化记忆的综合在线流式基准与框架。Evo-Memory 将数据集组织为顺序任务流，要求 LLM 在每次交互后搜索、适应并演化记忆。我们统一实现了十余种代表性的记忆模块，并在 10 个多样的多轮目标导向数据集与单轮推理/问答数据集上进行评测。为更好地衡量经验复用，我们提供一个基线方法 ExpRAG，用于检索并利用既往经验；并进一步提出 ReMem：一个 action–think–memory refine（行动–思考–记忆精炼）流水线，将推理、任务行动与记忆更新紧密集成，以实现持续改进。

关键词：LLMs，智能体记忆（Agentic Memory），测试时学习（Test-time Learning），自进化智能体（Self-evolving Agents），终身智能（Lifelong Intelligence）

1.引言

大型语言模型（LLMs）已从简单聊天机器人迅速演化为能够写代码、控制浏览器并执行高级问答的系统（Comanici et al., 2025）。这些进展源于推理、规划与工具使用能力的提升，并由强调逻辑推理与多步行动的基准所体现。然而，一项基础能力——记忆——仍基本未被充分探索。记忆使 LLM 能在交互间保持状态、积累经验，并随时间调整策略。近期研究引入了记忆模块，通过压缩、索引或检索来跟踪对话历史（Maharana et al., 2024b），提升了对话回忆与个性化。但这些系统多数只复用静态对话上下文，而不是从经验中学习以改进未来的推理或决策。

尽管有这些进展，现有 LLM 记忆系统仍大体是静态的：它们被动地检索信息，而不是在使用过程中演化。当前评估检验模型能否回忆过去上下文，却很少评估其复用经验的能力。本质上，智能体记得“说过什么”，却不记得“学到了什么”。对话回忆（conversational recall）检索既往事实，而经验复用（experience reuse）则抽象出可用于未来任务的推理策略。缺乏这种复用时，模型会反复解决相似问题：长期助手常能回忆上下文，却无法跨会话适应。

图 1｜对话式回忆（conversational recall）只是在检索过去的事实
（例如：方程 2 x 2 + 3 x − 1 = 0 2x^2 + 3x - 1 = 0 的解）。
经验复用（experience reuse）则是在回忆解题的思路和策略（例如：使用求根公式来解二次方程）。

近期一些基准开始考察静态适应，但范围仍受限。StreamBench（Wu et al., 2024a）评估序列学习，但主要衡量事实保留，缺少推理或轨迹复用。Lifelong-Bench（Zheng et al., 2025）研究跨环境与技能的终身学习，但侧重保留而未建模记忆结构或更新。其他研究（Hu et al., 2025; Maharana et al., 2024b; Wu et al.）评估长期对话一致性，却不测试智能体在部署期间如何演化其记忆。总体而言，这些工作凸显一个关键缺口：尽管序列推理已有进展，但仍缺乏一个统一框架，用于评估不同记忆方法在真实流式场景中如何检索、整合并演化历史策略。图 1 展示了静态回忆与通过自进化记忆实现累积改进之间的对比。

图 2｜不同任务类型与经验复用的示意图。一个具备状态的智能体会同时遇到多轮任务（例如：具身操作、环境交互）和单轮任务（例如：解方程）。理想情况下，它应当能够从过往任务中学习并沉淀可复用的经验，并将这些经验迁移到后续的新任务中。

为弥合这一差距，我们提出 Evo-Memory：一个用于评估 LLM 智能体自进化记忆的综合在线流式基准与框架。图 2 说明自进化智能体如何在多轮交互任务与单轮推理任务中复用既往经验。Evo-Memory 将数据集重构为顺序任务流，要求模型在每次交互后检索、适应并演化记忆。该基准同时涵盖多轮目标导向环境与单轮推理/问题求解任务，明确测试 LLM 能否在部署期间积累知识并精炼策略，我们将这一过程称为测试时演化（test-time evolution）。我们统一实现十余种代表性记忆模块（包括基于检索、工作流与层级式记忆系统）以研究其适应行为。为进一步考察经验复用，我们提出 ExpRAG：一个简单的基于检索的经验复用基线；并进一步开发 ReMem：一个 action–think–memory refine（行动–思考–记忆精炼）流水线，将推理、行动与记忆更新融合，实现持续改进。

总之，我们的贡献有三点：

• 基准：我们提出 Evo-Memory，一个流式基准，用于评估 LLM 智能体在多样多轮与单轮任务上的测试时演化能力，弥合对话回忆与经验复用之间的差距。
• 框架：我们提供统一的评估框架，并给出以记忆为中心的指标，用于分析适应性、效率与稳定性；将发布全部代码与配置以便复现。
• 分析与洞见：我们提出 ExpRAG，一个用于经验复用的简单检索基线；并提出 ReMem，一个 action–think–memory refine 流水线，将推理、行动与记忆统一以实现持续改进，为未来记忆设计提供参考。

2.相关工作

本节回顾测试时学习与自进化记忆相关的已有工作。

2.1. 测试时学习

测试时学习（TTL）建立在早期测试时自适应（TTA）（Niu et al., 2022; Wang et al., 2021; Zhang et al., 2023）之上，使模型在部署期间能够应对分布漂移。近期进展将 TTA 扩展为持续自我改进（Iwasawa and Matsuo, 2021; Liu et al., 2023），允许模型通过在线优化精炼其行为。近期基于智能体的研究通过反思、规划与自我演化来实现这种持续改进。诸如（Park et al., 2023; Shinn et al., 2023; Wang et al., 2023; Zhao et al., 2025; Zhou et al., 2024）以及更新的框架（Chen et al., 2025; Huang et al., 2025）展示了智能体如何自主修订计划、综合反馈并协同演化（Gao et al., 2025）。这些进展标志着从静态适应走向可在部署期间持续学习的自适应、自我改进智能体。基于这一趋势，我们提出从一种新的“自进化记忆”视角来评测这种动态。

2.2. 自进化记忆

早期 LLM 记忆系统主要作为被动存储，用于保存近期对话或检索事实，以弥补上下文窗口受限（Asai et al., 2024a; Lewis et al., 2020; Liu, 2022; Packer et al., 2023; Zhong et al., 2023）。后续研究引入更丰富的管理机制，包括可微读写控制器（Liang et al., 2023; Modarressi et al., 2023）以及在更真实对话场景下的评估（Maharana et al., 2024a; Wu et al., 2024b）。超越静态缓冲区，近期工作探索策略驱动控制：显式优化模型来决定存什么、取什么、覆盖什么（Li et al., 2025; Xu et al., 2025; Yan et al., 2025; Yu et al., 2025; Zhou et al., 2025）。与此同时，结构化记忆表征也逐渐兴起，用于将经验组织为关系式或程序式形式，如 RepoGraph（Ouyang et al., 2024），Mem0（Chhikara et al., 2025）、Zep（Rasmussen et al., 2025）以及 Dynamic Cheatsheets（Suzgun et al., 2025）等工作已经在这一方向上有所探索。然而，针对自进化记忆——也就是在跨任务过程中复用并适应经验的能力——目前仍缺乏一个统一的评测设定与框架。Evo-Memory 在这一研究脉络上更进一步：它在流式任务（streaming tasks）的设定下，对 LLM 不仅“存储与回忆”记忆，而且“演化、重组并复用”记忆的能力进行基准测试。

3.Evo-Memory：评估 LLM 智能体中的自进化记忆

现有对 LLM 的评估常把记忆当作静态回忆，忽视其在持续适应中的作用。Evo-Memory 提供一个统一基准，用于研究自进化记忆：智能体随时间检索、整合并更新知识。如图 3 所示，左侧展示测试时演化过程，右侧概述 ReMem 智能体的三个模块——Think、Act 与 Refine Memory。我们先形式化问题设定，再描述两个代表性实现：ExpRAG 与 ReMem，用以实例化该基准。

图 3｜ReMem 智能体框架概览。
左：测试时演化流程——智能体在多个任务中迭代地检索（search）、综合（synthesize）并演化（evolve）其记忆。
右：智能体架构包含三个核心模块——Think（思考：推理与任务分解）、Refine Memory（记忆精炼：检索、剪枝、组织）与 Act（行动：执行）。这三个模块与环境以及已学习的记忆相互作用。

3.1. 问题形式化

我们将一个通用的记忆增强智能体形式化为元组 (F, U, R, C)，其中 F 为基础 LLM，U 为记忆更新流水线，R 为检索模块，C 为上下文构造机制，用于将检索内容变换为最终工作上下文。在我们的设定中，智能体处理输入序列 {𝑥1, 𝑥2, . . . , 𝑥𝑇}，记忆状态 𝑀𝑡 随历史演化。在时刻 𝑡，智能体接收输入 𝑥𝑡，维护演化中的记忆 𝑀𝑡，检索相关元素 R(𝑀𝑡, 𝑥𝑡)，构造一个上下文化的提示词：

并生成输出

这一抽象将从检索增强生成到动态、层级式与工作流式记忆等广泛机制统一到单一的迭代表达之下。

Search（搜索）。给定当前输入 𝑥𝑡，智能体首先检索相关记忆条目：

其中 R 可表示相似度搜索、基于索引的查找，或对存储嵌入的注意力机制。此步骤刻画不同算法的记忆访问策略。

Synthesis（综合）。智能体将检索到的信息 𝑅𝑡 解释并重构为与当前输入 𝑥𝑡 对齐的简洁工作上下文。该综合过程产生一段连贯文本 ˜𝐶𝑡，据此得到最终输出：

Synthesis（综合）。智能体将检索到的信息 𝑅𝑡 重构为针对当前输入 𝑥𝑡 的工作上下文。此步骤可能包括形成结构化提示（Wang et al., 2024）、选择关键记忆项（Chhikara et al., 2025; Xu et al., 2025），或将检索内容合并（Suzgun et al., 2025）为简短摘要。我们将得到的上下文记为

最终输出为

Evolve（演化）。在得到 ˆ𝑦𝑡 后，智能体构造新的记忆条目

用于捕捉当前步的经验以及反馈 𝑓𝑡（例如任务是否完成）。随后记忆通过以下方式更新：

不同算法对 𝑈 的实例化方式不同，例如：对基于检索的记忆直接追加；对长期存储进行摘要或压缩；或对容量受限的存储进行替换。该统一形式抽象出所有基于记忆的智能体所共有的循环：检索、综合与演化。

数据集准备（Dataset Preparation）。Evo-Memory 将传统静态数据集重构为流式任务序列，使得能够评估 LLM 如何随时间复用并演化记忆。因此，每个数据集都可被转换为序列 𝜏 = {(𝑥1, 𝑦1), . . . , (𝑥𝑇, 𝑦𝑇)}，形成一条“真实轨迹”，其中早期任务为后续任务提供必要信息或策略。在每一步 𝑡，智能体处理输入 𝑥𝑡，检索并综合记忆，生成预测 ˆ𝑦𝑡，并更新记忆状态 𝑀𝑡，从而得到预测轨迹：

该设计将静态基准变为交互式评估流，显式探测 LLM 在部署期间积累、适应并精炼知识的能力。

3.2. ExpRAG：经验检索与聚合

作为一个简单基线与扩展，我们定义 ExpRAG 为一种任务级检索增强智能体。每个记忆条目 𝑚𝑖 = 𝑆(𝑥𝑖, ˆ𝑦𝑖, 𝑓𝑖) 通过模板 𝑆 编码为结构化经验文本。在步骤 𝑡，智能体根据检索得分 𝜙 从记忆中检索 𝑘 个相似经验：

模型遵循上下文学习（in-context learning）原则，以这些检索样例作为条件：

并将新经验追加到记忆中：

因此，ExpRAG 通过检索与聚合实现一次性的经验复用。它刻画了基于记忆的上下文学习扩展的行为，但缺乏推理过程中的迭代推理或自适应精炼。

3.3. ReMem：协同推理、行动与记忆

我们提出 ReMem：一个简单但有效的框架，在单一决策循环中统一推理、行动与记忆精炼。不同于将记忆视为静态上下文的传统检索增强或 ReAct 风格方法，ReMem 引入第三个维度——记忆推理（memory reasoning），使智能体能在问题求解期间主动评估、重组并演化自身记忆。

在每一步 𝑡，给定当前输入 𝑥𝑡、记忆状态 𝑀𝑡，以及该步之前的推理轨迹 𝑜1:𝑛−1_𝑡，智能体从三种操作中选择一种：

随后执行该操作，并按以下方式转移：

其中 𝑜^𝑛_𝑡 表示在第 𝑡 步进行第 𝑛 次操作后生成的输出，例如中间推理轨迹、可观察的外部行动，以及记忆精炼思考。

具体而言，Think 产生内部推理轨迹，用于分解任务并指导后续行动；Act 在环境中执行操作或输出对用户可观察的回应；Refine 对记忆进行元推理（meta-reasoning），通过利用有用经验、剪除噪声并重组 𝑀𝑡 来更好地支持未来推理与行动。在每一步内，智能体可进行多轮 Think 与 Refine；当选择 Act 操作时，该步终止。这诱导出一个马尔可夫决策过程：在第 𝑡 步进行第 𝑛 次操作后的状态为

动作空间为 {Think, Act, Refine}，转移动力学由 Agent 算子与环境反馈共同给出。根据任务不同，第 𝑡 步的 Act 输出可作为单步任务的最终答案，或作为多步设定中的中间结果；流程持续直到整体任务完成。

这一统一形式通过引入显式的记忆推理机制，扩展了 ReAct 风格（Yao et al., 2022）智能体的动作空间。借此，记忆成为与推理实时交互的自适应组件，而非被动上下文。从这一视角看，整个决策循环也可解释为马尔可夫过程，其中状态囊括当前输入、记忆状态与正在进行的推理轨迹。这样的集成带来一种轻量但强大的持续适应范式：智能体学会同时对任务与自身知识状态进行推理。通过将反思与记忆演化耦合，ReMem 为自适应、自我改进的 LLM 智能体建立了新的标准。

4.实验

本节在统一的测试时学习流水线下，在 Evo-Memory 基准上评估主流 LLM，聚焦五个关键研究问题（RQs）：

• RQ1：LLM 智能体在 Evo-Memory 上跨不同领域与任务类型表现如何？ReMem 是否能增强其测试时学习能力？
• RQ2：哪些因素影响不同任务中的记忆有效性？经验复用如何提升任务效率？
• RQ3：任务序列难度（如 easy vs. hard 轨迹）如何影响记忆适应与泛化？
• RQ4：不同反馈类型如何影响跨任务的学习动力学与记忆精炼？
• RQ5：随着任务序列与时间步推进，累积表现如何演化，从而反映部署期间的持续适应？

4.1. 实验设置

Evo-Memory 在真实的流式多任务条件下评估记忆机制。下面我们描述基准数据集、指标与对比方法。

4.1.1. 数据集

Evo-Memory 在一组多样数据集上评估，涵盖事实知识、推理、数学、编程与目标导向交互。对于事实与推理能力，我们纳入 MMLU-Pro（Zheng et al., 2024）与 GPQA-Diamond（Rein et al., 2024），测试跨学科与研究生级推理。对于数学问题求解，我们使用 AIME-24 与 AIME-25（HuggingFaceH4, 2024），包含奥赛风格挑战，要求符号推理并采用精确匹配评估。对于工具使用与 API 对齐，我们使用 ToolBench（Patil et al., 2023）。对于多轮、目标导向交互，我们采用 AgentBoard（Zhuang et al., 2024）套件，覆盖 Alf World（Shridhar et al., 2021）、BabyAI（Chevalier-Boisvert et al., 2019）、ScienceWorld（Wang et al., 2022）、Jericho（Hausknecht et al., 2020）与 PDDL 任务（Yang et al., 2023）。这些数据集同时覆盖单轮与交互式设定，使得能够统一评估事实回忆、程序性推理与长视野适应。所有方法在相同的 search–predict–evolve 循环下评估：

并使用相同的提示模板、配置与（如适用的）记忆预算。反馈 𝑓𝑡 视为正确性信号。

4.1.2. 评估

Evo-Memory 从四个维度评估任务表现与记忆质量。第一，答案准确率衡量单轮任务中模型输出是否正确。第二，成功率与进度率评估多轮任务中的目标完成情况。第三，步数效率跟踪达成目标所需步数，反映推理的简洁性。第四，序列鲁棒性测试在不同任务顺序下性能是否稳定。这些指标共同评估智能体随时间学习、适应并复用知识的能力。

4.1.3. 方法

我们在两类强 LLM 骨干上实例化并评测广泛的智能体与记忆架构：Gemini-2.5 系列（Comanici et al., 2025）（Flash、Flash-Lite、Pro）以及 Claude 系列（Anthropic, 2025）（3.5-Haiku 与 3.7-Sonnet）。评测方法分为四类：（1）无持久记忆的智能体流水线，包括 ReAct（Yao et al., 2022）与 Amem（Xu et al., 2025），依赖短期上下文或轻量缓存；（2）自适应智能体记忆方法，如 SelfRAG（Asai et al., 2024b）、MemOS（Li et al., 2025）、Mem0（Chhikara et al., 2025）与 LangMem（LangChain contributors, 2025），支持动态检索与持续更新；（3）面向程序性知识的记忆型智能体，包括 Dynamic Cheatsheet（DC）（Suzgun et al., 2025）的两个变体 Cumulative（Cu）与 Synthesis（RS），以及 Agent Workflow Memory（AWM）（Wang et al., 2024），强调可复用工作流与任务策略；（4）我们提出的演化记忆框架，包括 ExpRecent、ExpRAG 与 ReMem，将推理、行动与记忆精炼统一到自进化循环中。所有方法均在统一的 search–predict–evolve 协议下评估，以隔离记忆设计的影响。实现与提示细节见附录 A。我们排除如 MemoryGpt（Zhong et al., 2023）与 MemoryBank（Zhong et al., 2023）这类仅面向事实回忆的系统，因为 Evo-Memory 旨在测试演化与程序性记忆。我们的目标不是改进或修改底层 LLM 本身。某些方法（如 MemOS 与 LangMem）与具身环境不完全兼容，因此我们将其排除在多轮数据集之外。Evo-Memory 隔离了记忆机制中搜索与演化的影响，使得观察到的差异仅反映记忆设计，而非 LLM 原生能力差异。

4.2. 实验

以下为回答所提出研究问题而进行的实验。

4.3. 结果分析（RQ1）

表 1 与表 2 汇总了单轮与多轮设定下的结果。总体而言，Evo-Memory 表明自进化记忆架构带来一致的改进。在单轮推理与问答基准（AIME-24/25、GPQA、MMLU-Pro、ToolBench）中，演化记忆方法表现出一致提升；在 Gemini-2.5 Flash 下，ReMem 达到 0.65 的平均精确匹配（exact match），并在 API 准确率上达到 0.85/0.71。自适应检索方法提升事实对齐，但只有演化系统能通过迭代精炼维持一致收益。具备程序性知识的智能体在 AIME 等结构化领域表现良好，但在科学推理与工具使用上落后，体现出有限的灵活性。ExpRAG 作为简单却非常有效的基线，优于若干更复杂设计。尽管单轮设定的提升幅度适中，但总体趋势在不同数据集与模型家族中保持一致。

表 1｜不同记忆架构在单轮推理与问答数据集上的跨数据集结果，对比涵盖多种模型。各方法类别通过横线分隔；结果指标（Exact Match ↑ 与 API / Accuracy ↑）用于比较零样本、智能体型、自适应、程序性以及本文提出的记忆方法的表现。

表 2｜在四个具身推理基准（AlfWorld、BabyAI、PDDL、ScienceWorld）上的跨环境结果。每个数据集报告成功率（S）和进度率（P）。加粗表示该列中的最佳结果（含并列）。最后两列给出了跨数据集的平均成功率（S）与平均进度率（P）。

在多轮推理环境（Alf World、BabyAI、PDDL、ScienceWorld）中，ReMem 与 ExpRAG 在 Gemini-2.5 与 Claude 骨干上都取得强且稳定的表现，在 BabyAI 上达到 0.92/0.96，在 ScienceWorld 上达到 0.95/0.62。这些结果表明，持续的反思与精炼能显著提升程序性知识的积累。多轮设定中的性能增益明显更大，强调当任务视野变长时，持续适应的价值愈发突出。尽管许多基线能改进检索对齐，它们仍难以复用长视野经验，并常在开放式环境中失效。值得注意的是，ExpRecent 与 ExpRAG 等轻量变体尽管更简单，仍表现具有竞争力，这表明在测试时演化中进行显式的任务级利用既有前景又长期被低估。

在所有实验中，演化记忆方法在 Gemini 与 Claude 骨干上都表现出一致收益。较小模型尤其受益于自进化记忆，这提示测试时精炼是增强轻量 LLM 能力的一条实用途径。总体而言，这些发现确立了任务级记忆利用与持续重组作为未来研究的重要方向，并为演化记忆智能体的开发与评估提供标准化参考点。更多 LLM 家族的附加结果见附录 B.1。

4.4. 记忆改进分析（RQ2）

图 4 显示，ReMem 的提升与同一数据集内任务相似度高度相关（在 Gemini 2.5 Flash 上 Pearson 𝑟 = 0.717，在 Claude 3.7 Sonnet 上 𝑟 = 0.563）。任务相似度通过计算每个任务嵌入与其数据集簇中心之间的平均余弦距离来度量，其中嵌入由检索器编码器获得。更小的平均距离表示更高的簇内一致性，从而具有更强的结构相似性。具有更高嵌入聚类比率的任务（如 PDDL 与 Alf World）带来更大收益，说明重复的任务结构有助于记忆复用与泛化。相反，更分散或低相似度的数据集（如 AIME-25 或 GPQA）收益更小，反映可迁移经验有限。这些发现强调，嵌入组织与语义重叠对于驱动有效的记忆演化至关重要。关于记忆剪枝率的进一步分析见附录 B.2。

图 5 比较了四个环境中的步数效率。演化记忆方法一致地用更少步骤达成目标，其中 ReMem 达到最强且最稳定的降低（例如在 Alf World 上从 22.6 步降至 11.5 步）。轻量的 ExpRAG 与 ExpRecent 也具有竞争力，显示简单的任务级演化无需额外复杂性即可显著提升效率。总体而言，持续精炼不仅提高准确率，也使推理更聚焦、更高效。

表 3｜在不同“序列难度方向”下对记忆型智能体进行比较。每个单元格报告成功率（S）与进度率（P）。Easy→Hard 与 Hard→Easy 表示任务顺序从易到难、从难到易的切换；平均值（Avg）汇总每个方向上的整体表现。

表 4｜在 AlfWorld 与 ScienceWorld 中，同时将成功与失败的任务经验纳入记忆时的结果。每个单元格报告成功率（S）与进度率（P）。横线用于分隔不同方法家族；加粗数字表示在每个模型内部、每项指标上的最佳结果。

4.5. 任务序列：Easy v.s. Hard（RQ3）

表 3 检验了基于记忆的智能体如何适应任务难度变化。基线方法从简单任务转向困难任务时出现明显退化，揭示其在分布漂移下的鲁棒性有限。相比之下，演化记忆智能体，尤其是 ReMem，在两个方向上都维持强且一致的表现，在 Hard→Easy 设定下成功率/进度率可达 0.94/0.97。这种稳定性表明持续反思使 ReMem 能在任务复杂度变化时仍保留可迁移知识。结果还表明，任务序列的设计（特别是难度排序）会显著影响对记忆适应性的评估，也暗示结构良好的任务进程可通过让模型建立在先前经验之上来促进学习，并在更复杂挑战中实现泛化。总体而言，这些发现强调：未来基准需要标准化且经过深思熟虑的任务序列组织，既用于公平评估，也用于有效模型开发。

4.6. 反馈分析（RQ4）

表 4 评估了当成功与失败的任务经验都被存入记忆时智能体的表现。基线方法在暴露于未过滤的失败经验后出现明显性能下降，表明朴素的记忆累积会引入噪声并干扰后续检索。相反，演化记忆方法，尤其是 ReMem，通过主动精炼已存经验而保持鲁棒性，在 Claude 与 Gemini 骨干下均取得最高整体成功率与进度率。这些结果表明：选择性利用（selective utilization）——既从成功中学习、又能恰当地利用失败信息——对于稳定的测试时适应至关重要。它们进一步强调记忆精炼在处理不完美经验中的核心作用，并提示未来工作应探索面向失败的记忆演化策略。

图 6｜四个交互式智能体数据集上的累计成功率。在 ALFWorld、BabyAI、PDDL 和 ScienceWorld 任务上，ReMem（蓝色实线）的表现优于 History 基线（红色虚线）。图中的滚动平均用于展示随着评估的任务实例增多，模型性能随时间变化的总体趋势。

4.7. 性能随时间步变化（RQ5）

图 6 展示了四个交互环境中，任务推进过程中的累积准确率。曲线主要用于比较 ReMem 与 History 基线，因为单条轨迹本身的独立意义有限。在所有环境中，ReMem 都持续实现更快的适应与更稳定的长期保留。这些结果凸显持续反思使 ReMem 能在长任务序列中维持性能，体现其在测试时学习中的鲁棒性。关于单轮任务的更多对比结果见附录 B.3。

5.结论

自进化记忆是 LLM 能力的一个基础但未被充分探索的方面。以往工作聚焦静态对话回忆，却忽视模型如何在不断演化的任务流中积累并复用经验。Evo-Memory 通过将静态数据集转化为流式轨迹来填补这一缺口，系统性评估 LLM 在交互中如何检索、适应并精炼记忆。我们的结果显示，记忆能显著提升性能，但在稳定性与程序性复用方面仍较脆弱。为促进进展，我们引入 ExpRAG 用于经验检索，并提出 ReMem 用于交错推理、行动与记忆更新。我们希望 Evo-Memory 能成为一个统一平台，用于构建具备可靠且持续改进记忆的 LLM。

附录：

A. 实验细节

Evo-Memory 在真实的流式多任务条件下评估记忆机制。下面我们将详细介绍基准数据集、指标、配置，以及对比的方法。

A.1. 数据集

我们在一组多样化的基准上评估我们的方法，这些基准覆盖事实知识、推理、数学、编程与目标导向交互。

我们首先介绍一组单轮（single-turn）数据集，用于评估多样的推理能力。MMLU-Pro（Zheng et al., 2024）在原始 MMLU 基准之上增强了鲁棒性与挑战性：通过过滤数据泄漏、降低歧义、并在工程、哲学、经济学等多个领域引入更难的问题，使其成为评估跨学科推理能力更可靠的试验平台。GPQA-Diamond（Rein et al., 2024）是一个研究生水平的基准，包含由专家撰写的、在搜索引擎上也难以直接检索到答案的（“Google-proof”）物理及相关科学问题；其中 Diamond 切分最具挑战性，要求严格的多步推理。AIME-24 与 AIME-25（HuggingFaceH4, 2024, 2025）由 2024 与 2025 年美国邀请数学考试（American Invitational Mathematics Examinations）的奥赛风格数学题组成，测试符号操作能力与在严格“精确匹配”标准下的问题求解。最后，ToolBench（Patil et al., 2023）评估模型识别并配置外部 API 的能力，反映实际的工具使用能力。

随后，我们在一组多轮（multi-turn）、目标导向的基准上进行评估，用于衡量具身与交互环境中的记忆能力。它包含若干代表性领域：Alf-World（Shridhar et al., 2021）用于家庭场景指令跟随；BabyAI（Chevalier-Boisvert et al., 2019）用于具身导航与组合式推理；ScienceWorld（Wang et al., 2022）用于开放式科学实验；Jericho（Hausknecht et al., 2020）用于基于文本的游戏探索；以及 PDDL 任务（Yang et al., 2023）用于符号规划。总体而言，这些环境强调长视野推理、序列决策，以及利用累积经验来完成复杂目标。

这些数据集共同构成一个全面的基准套件，用于评估事实回忆、领域专长、数学推理，以及交互式设定中的程序性记忆。这种多样性使我们能够统一评估静态与演化能力，反映 LLM 在学术与真实世界场景中如何学习、行动与适应。

A.2. 配置

为实现高效检索并在方法间公平比较，我们使用 BAAI/bge-base-en-v1.5（Chen et al., 2023）编码器作为检索器，对查询与记忆条目进行向量化索引。在推理阶段，将当前问题编码为查询，并与所有已存记忆嵌入进行比较，检索最相关的 top-𝑘 条目（默认 𝑘=4）用于上下文增强。该设置保证所有方法拥有一致的检索预算。为提升效率，检索文本与任务输入会被截断，以满足生成模型所使用的相同提示长度约束。

尽管所有基线都采用相同的检索配置，某些方法（例如 Self-RAG、ReMem）会引入额外的推理模块，用于决定每一步是否检索以及检索什么。这些自适应行为是在同一检索池之上运行的，以确保可比性。

在所有实验中，我们在每个数据集内部保持统一的任务序列顺序，从而保证所有模型具有一致的记忆演化动力学。除非另有说明，检索与生成在同一流水线中运行，检索到的条目按相关性从高到低的顺序追加到提示词中。

我们在两类强大的 LLM 骨干上实例化并评测广泛的智能体与记忆架构：Gemini-2.5 系列（Comanici et al., 2025）（Flash、Flash-Lite、Pro）以及 Claude 系列（Anthropic, 2025）（3.5-Haiku、3.7-Sonnet）。

A.3. 评估

Evo-Memory 从四个关键维度评估任务表现与记忆质量：

• 答案准确率（Answer accuracy）。评估 LLM 在各类任务中是否输出正确结果，反映其将过去经验纳入推理过程的能力。
• 成功率（Success rate）。衡量 LLM 智能体是否成功完成任务目标，体现其在交互式或目标导向设定中的整体有效性。
• 步数效率（Step efficiency）。统计完成目标所需的步骤数，评估记忆使用是否使推理更简洁、且更具可扩展性。
• 序列鲁棒性（Sequence robustness）。考察 LLM 在不同任务顺序下能否保持一致的知识与表现，反映其稳定复用既往经验的能力。

A.4. 方法

我们用覆盖范围广泛的智能体与记忆架构对 Evo-Memory 进行基准测试，以研究不同设计如何影响测试时记忆演化。所有方法均在两类强 LLM 骨干上实例化：Gemini-2.5（Comanici et al., 2025）与 Claude-3.5/3.7（Anthropic, 2025）。我们的对比将影响因素聚焦在记忆架构与更新策略上；骨干模型能力差异并非研究重点。我们将评估方法分为四大类：

无持久记忆的智能体流水线（Agent Pipelines without Persistent Memory）。
ReAct（Yao et al., 2023）作为典型的“推理–行动”流水线，其记忆仅限于即时上下文。它生成交错的推理轨迹与工具调用，但不显式存储或演化信息。Amem 在此流水线上加入轻量的智能体记忆，用于缓存近期观察与反思。它提供一种最小形式的经验复用，但没有专门的搜索或更新策略，起到连接“无记忆智能体”和“自适应记忆系统”的桥梁作用。

自适应智能体记忆方法（Adaptive Agentic Memory Methods）。
该组方法聚焦自适应检索与自进化记忆。SelfRAG（Asai et al., 2023）将动态检索与反思结合起来，使推理能够自适应地落地于既往上下文。MemOS（Li et al., 2025）、Mem0（Chhikara et al., 2025）与 LangMem（LangChain contributors, 2025）实现结构化的智能体级记忆系统，支持读、写与更新操作。在我们的统一接口中，检索对应 search 阶段，更新对应 evolve 阶段。这些方法代表能够持续精炼的自适应长期智能体。

面向程序性记忆的基于记忆的智能体（Memory-Based Agents for Procedural Memory）。Dynamic Cheatsheet（DC）（Suzgun et al., 2025）与 Agent Workflow Memory（AWM）（Wang et al., 2024）强调复用程序性知识，编码的是“如何做（how-to）”而非静态事实。我们评估两种 DC 变体：DC-RS（基于检索）与 DC-Cu（经策展/人工整理），用于分析工作流归纳与更新机制如何影响稳定性与迁移。这些方法检验将程序性记忆作为可复用策略仓库的潜力。

图 7｜按数据集统计的记忆剪枝率。保留（蓝色）与剪除（珊瑚色）的记忆占比显示：不同基准在“记忆保留的选择性”上存在差异。

我们提出：演化记忆框架（Proposed: Evolving Memory Framework）。
ExpRecent 维护近期任务轨迹的压缩情节（episodic）痕迹；我们的 ExpRAG 系列将检索增强推理原则与显式测试时演化相结合。ReMem 通过迭代反思与综合来随时间精炼记忆嵌入。总体而言，这些方法体现了 Evo-Memory 的设计理念：将推理、行动与记忆精炼视为在部署期间交错进行、共同适应的过程，从而实现持续自我改进与更接近人类的适应能力。

B. 实验

我们在下文提供更多实验结果。

B.1. 额外实验

我们通过在多个模型家族（Gemini-2.5-Flash-Lite、Claude-3.5-Haiku）与多样数据集上的大规模基准测试进一步验证发现，如表 5 与表 6 所示。性能趋势在所有设置下保持一致。无论是在多轮具身推理任务（Alf World、BabyAI、PDDL、ScienceWorld）还是单轮推理任务（AIME-24/25、GPQA、MMLU-Pro、ToolBench）中，ReMem 都在各类模型骨干上稳定优于传统基线与自适应检索方法。这些结果证实演化记忆架构的优势与模型无关，强调“持续的任务级反思”是一种普适机制，可提升问题求解中的适应性。

图 8｜不同模型变体与基准上的累计准确率对比。对于 Gemini-2.5 Flash-Lite 与 Claude-3.7-Sonnet 两类模型，在 GPQA、ToolBench 与 MMLU_PRO_ENG 数据集上，ReMem（蓝色实线）相较于 History 基线（红色虚线）表现出一致提升。曲线展示了随着任务样本累积的学习趋势：ReMem 收敛更快、最终准确率更高。

B.2. 记忆剪枝的额外分析

图 7 展示了不同数据集上的记忆剪枝率，揭示了记忆保留选择性的差异。剪枝比例在各基准之间差异显著，且似乎与任务多样性与领域覆盖相关。覆盖更广的领域型数据集（如 GPQA，涵盖工程、物理等多个领域的多种题型）表现出更高剪枝率（36.8%），这表明在异质任务间更多记忆会被判定为冗余。相比之下，题型更集中、相似度更高的数据集（如 AIME）剪枝率更低（分别为 17.5% 与 10.8%），说明由于任务相似性更高，记忆更可能保持相关性。该模式表明剪枝机制能够有效识别并丢弃与领域无关的经验，但“任务多样性与记忆选择性”之间的精确关系仍需进一步研究。

B.3. 单轮任务上的额外对比曲线

图 8 给出了单轮推理基准与不同模型变体上，ReMem 与基线的累积准确率曲线对比。随着任务样本不断累积，ReMem 在 GPQA、ToolBench 与 MMLU-PRO（Engineer）上，对 Gemini-2.5-Flash-Lite 与 Claude-3.7-Sonnet 均呈现持续提升。与多轮结果类似，在冷启动阶段（cold-start phase）History 起初表现相近，但随着处理任务增多，ReMem 很快超过 History，表明持续的任务级适应带来累积优势。

C. 提示词（Prompts）

多轮数据集的记忆提示模板（Memory Prompt Template for Multi-turn Dataset）

D. 局限性（Limitations）

尽管 Evo-Memory 提供了对自进化记忆的全面评估，仍存在若干现实约束。由于预算与 API 限制，我们聚焦于一组精选的强 LLM，而非穷尽评估所有可用模型。未来在开源权重模型或多语言模型上的进一步评估，可能更能验证我们结论的普适性。此外，我们的基准主要强调文本与目标导向任务；将其扩展到更丰富的多模态或真实世界环境，将能更完整地呈现持续记忆演化的图景。尽管存在这些局限，本研究已覆盖多样领域、任务与架构，为后续扩展提供了坚实基础。

E. 大语言模型的使用（Use of Large Language Models）

在本文准备过程中，我们对大语言模型（LLMs）进行了有限且受控的使用，具体为将 ChatGPT 作为辅助写作工具。该 LLM 仅用于文风润色，包括提升作者原稿文本的清晰度、语法与可读性。所有科学思想、分析、实验与结论均由作者完整提出、撰写并验证。因此，LLM 仅作为语言编辑工具使用，并未对论文的智力或科学内容作出贡献。

【声明】内容源于网络

鸣鹤睿思

投研笔记，聚焦趋势，全球配置，研究创造价值。重点研究领域：科技、生物医药。欢迎交流，VX：Kodiak-Bear-001

内容 225

粉丝 0

鸣鹤睿思投研笔记，聚焦趋势，全球配置，研究创造价值。重点研究领域：科技、生物医药。欢迎交流，VX：Kodiak-Bear-001

总阅读220

粉丝0

内容225