

模型原生的智能体记忆：存算一体+持续学习

ADaM应用数据挖掘和机器学习

2025-12-06

导读：模型原生智能体记忆具有两个特点：（1）存算一体-写入即参数更新、计算即读取已存知识，使信息在推理过程中自然沉淀在模型权重中。（2）持续学习-模型在推理中实时更新参数，形成跨任务的连续时间尺度记忆。

1. 短期记忆：记忆管理的模型原生化

根据信息是否只对当前任务有效还是能跨任务发挥作用，我们一般把智能体记忆分为短期记忆和长期记忆。其中短期记忆一般存储在上下文KV cache中，长期记忆一般存储在外部记忆库（如向量数据库、图谱等）。

在短期记忆层面，除了尽可能拓展上下文长度实现“记得住“，还要提升上下文管理能力-基于有效信息进行推断，即”找得准“。

上下文管理具体包括对上下文信息的增删改查。一种实现方式是设计工作流，实现对上下文的重组、动态检索或隔离（如多智能体）。

另一种方式是让模型自主决定如何处理上下文。比如LMLM[1]用一个与主策略模型联合训练的专门模型负责上下文管理，MEM1[2]则微调策略模型在每次调用工具后重写整个上下文。

我们最近也做了一个这个方向的工作，将上下文管理看成和完成任务一样的模型行为，由同一个策略函数控制。起名叫Memory-as-Action (MemAct[3])。

MemAct与MEM1主要由两点不同：（1）MEM1中“如何管理”由模型决定，但”何时管理“是由工作流触发的（每次调用工具后）；而MemAct将”何时管理“的决策权也交给了模型。（2）MEM1的管理行为主要是重写，而MemAct支持更细粒度的选择性删除、增补和局部性改写、压缩等。

实验显示（左图），14B的MemAct以约1/3的token消耗实现了和Qwen3-235B相当的任务完成率；相比其他记忆方法MEM-1和A-MEM，MemAct基于模型策略自适应进行上下文管理，也显著提升了任务完成率。

在长程任务中（右图），随着任务执行长度(目标数量)增加，MemAct能通过对上下文进行精细化管理保持基本稳定的性能，没有出现明显的退化。

2. 长期记忆：记忆载体的模型原生化

长期记忆方面，首先同样有和短期记忆类似的上下文管理问题：从外部记忆库中检索相关信息插入上下文，要考虑避免无关或冗余信息干扰推理过程。

此外，长期记忆的记忆载体也有着模型原生化的趋势，即将跨任务信息存储在模型参数中。比如MemoryLLM[4]和MoM[5]设置了单独的记忆层，使模型以参数化的方式编码和积累长期知识。

近期，一些智能体记忆系统采用了分层结构，同时包含了上下文KV cache、外部记忆库和参数化记忆。参数化记忆写入最慢但读取最快，上下文记忆读写灵活但受长度限制，而外部记忆容量最大但读取最慢。比如MemOS[6]设计了层级记忆接口，能够根据信息的重要性和稳定性决定写入哪一类记忆，实现短期、长期与参数化记忆的协同。

3. 连续记忆

谷歌上个月发了一篇叫Nested Learning的论文[7]，是Titans的后续。类比大脑不同频率的脑电波从负责瞬时记忆到长期知识沉淀，论文设计了多频率分层的参数化记忆机制。

它采用Test-Time Training（TTT）的参数更新方式：模型在读取信息的同时，基于预测误差即时计算梯度并更新参数。不同参数设计了不同更新频率，比如fast weight参数每读一个token就更新，而低频参数可能要经过上千万token才触发一次更新。

与MemoryLLM、MoM使用独立记忆层不同，Nested Learning更新的是与策略统一的模型参数本身，使短期状态和长期知识都以参数形式连续存储。

从短期记忆看，它不再像KV cache那样保留原始文本，而更像参数化的RNN：历史信息被压缩进状态向量，并以可学习参数的方式不断更新。

Nested Learning的一种极端实现是：读到的信息在写入参数后直接丢弃，不再使用KV cache。用模型参数替代KV cache来保存当前任务信息，潜在好处有以下几点:

无限上下文：参数更新不依赖固定窗口，不会出现KV cache越来越长的问题。模型理论上能处理任意长度的输入。
计算复杂度固定：传统注意力计算随上下文增长而爆炸，而参数更新计算量与序列长度无关。

学习概念和规则而非记忆原文：基于KV cache推断需要从上下文token中基于注意力检索，当token很多或者信息分散时，注意力可能会迷失。更新参数的过程逼着模型寻找数据中的规律压缩信息，理想情况下可以学到更高层次的概念与规则，推理性能也会更稳定。

可以看到，多频率分层的参数设计实际将记忆看成了一个连续谱：在同一任务内部，根据数据块大小触发不同频率的参数层更新；在跨任务之间，高频参数重置、中频参数衰减、低频参数可以长期保留。记忆不再被分为离散的短期和长期记忆，当前任务的短期记忆平滑过渡到跨任务进行更新和保存，正契合了持续学习想达到的效果。

这一次，谷歌把Nested Learning的credit给了Schimidhuber。早在1992年，Schimidhuber就开始思考如何基于RNN实现持续学习，提出了Fast Weight Program[8]：快权重对应上下文注意力，而慢权重对应模型参数。并明确指出“线性注意力本质上是一种FWP”[9]，以及“写KV cache等价于对参数矩阵梯度下降”。

4. 模型原生的智能体记忆

对比MemAct、MoM、MemOS、Nested Learning四个工作，可以发现的潜在趋势是：记忆管理方式逐步模型原生化、记忆载体逐步转向模型参数、记忆时间尺度从离散分层走向连续。

具备这三个要素的记忆系统可被称为模型原生的智能体记忆（Model-native Agentic Memory）。核心思想是：“模型仅通过在推理过程中对参数的实时更新来实现信息的存储、检索和处理；记忆载体不再依赖上下文窗口或外部记忆库，记忆管理也不再依赖手工设计的工作流，而是由模型策略自主决策。”

模型原生的智能体记忆有两个主要特点：

持续学习：模型在推理构成中完成在线、持续的更新。包括同一任务内的在线更新和跨任务的连续时间尺度记忆。

存算一体：传统的智能体记忆遵循冯诺依曼的“存储-计算”分离的硬件设计，KV cache类似RAM，外部记忆库类似硬盘。在模型原生记忆中: (1)存即是算-写入记忆的过程就是参数更新本身，新的信息被直接融入模型权重，立即影响后续推理；(2)算即是存-模型在进行前向推理时激活的部分权重本身就代表已存储的知识。

进一步，如果将持续学习的TTT理解为“算训一体”，模型原生的智能体记忆实际实现了存算训一体，使模型能够在推理中持续学习，并沉淀为连续的记忆。

这其实对应了另一种test-time scaling。我们看到预训练和后训练阶段的scaling都导致了模型能力的提升；而目前通过增加计算量/推理时间的test-time scaling只提升了完成当次任务的表现，并没有在模型能力本身产生累积提升。

模型原生记忆有望实现类似大脑“越用越聪明”的效果。大脑的机制是：思考会诱发新的突触连接；模型原生记忆中，智能体在执行任务的同时在线更新参数，使得处理信息本身就是学习过程。

那么，如果模型原生记忆让模型的持续学习效果产生了scaling，那被scale的是什么？

再次拿出这张图，后训练好理解：用计算换数据，scale的是合成数据；预训练通过扩展模型容量（参数量）和训练计算，本质上是在为了能压缩规模更大的数据，也在scale数据。

我们将推理加到图里：模型原生记忆的持续学习相当于在推理阶段不断积累新的真实经验，使智能体能够 scale在线数据。如果说后训练是在“模拟合成经验”上scaling，模型原生记忆中的推理则是在“在线真实经验”上scaling。

当然，Nested Learning 目前提出的仍是一种理想化框架，距离落地还有很多问题要解决。比如，

频率参数层如何从手工设计到模型原生？当前高频、中频、低频的参数划分仍依赖人工设定，未来如何让模型自主学习合适的时间尺度与更新节奏？
现有模型结构能否支持多频率分层？Transformer 的参数耦合度较高，是否需要结构性改造？
计算与存储分离的硬件能否支持高频的在线写入？现有芯片主要为前向推理优化，频繁的参数更新会带来巨大的访存和带宽压力，如何在硬件层面支持测试时训练（TTT）？

5. 从多智能体记忆到“组织者“

最后再讨论一下多智能体记忆。在多智能体系统中，记忆涉及角色设定、上下文路由和任务状态管理等操作。

OpenAI在开源GPT-OSS时提出了Harmony协议，通过设置多角色和多通道结构，使模型可以在思考的同时并行执行多个工具调用。这算是基于工作流的多智能体记忆管理。

微软近期提出的SyncThink[10]则更进一步，尝试通过模型训练实现异步思考。包括自主生成Organizer和Worker两种角色，以及基于模型策略实现上下文的分离(fork)和合并(join)。这代表了多智能体记忆在模型原生方向的探索。

有意思的是，论文题目用了“Agentic Organization”这个词，让人自然联想到OpenAI五层AGI框架中对Organization(组织者)的定义。回顾到目前的演化路径，推理能力的突破推动了从chatbot到reasoner的发展，工具使用能力的成熟催生了今天的agent体系。而多智能体记忆中的角色设定、上下文路由和状态管理等能力，是组织者的基本能力。

所以，记忆会是打开第五层-组织者的那把钥匙么？

参考文献:

[1] Pre-training Large Memory Language Models with Internal and External Knowledge.

[2] MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents.

[3] Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks. https://github.com/ADaM-BJTU/MemAct.

[4] MemoryLLM: Towards Self-Updatable Large Language Models.

[5] MoM: Linear Sequence Modeling with Mixture-ofMemories.

[6] MemOS: Memory Operating System for AI Agents.

[7] Nested Learning: The Illusion of Deep Learning Architecture.

[8] Learning to control fast-weight memories: An alternative to recurrent nets.

[9] Linear transformers are secretly fast weight programmers.

[10] The Era of Agentic Organization: Learning to Organize with Language Models.

【声明】内容源于网络

ADaM应用数据挖掘和机器学习

关注数据挖掘和机器学习的共性基础问题, 并应用于解决计算机视觉和自然语言处理中的具体任务。

内容 170

粉丝 0

ADaM应用数据挖掘和机器学习关注数据挖掘和机器学习的共性基础问题, 并应用于解决计算机视觉和自然语言处理中的具体任务。

总阅读20

粉丝0

内容170