1. 短期记忆:记忆管理的模型原生化
根据信息是否只对当前任务有效还是能跨任务发挥作用,我们一般把智能体记忆分为短期记忆和长期记忆。其中短期记忆一般存储在上下文KV cache中,长期记忆一般存储在外部记忆库(如向量数据库、图谱等)。
在短期记忆层面,除了尽可能拓展上下文长度实现“记得住“,还要提升上下文管理能力-基于有效信息进行推断,即”找得准“。
上下文管理具体包括对上下文信息的增删改查。一种实现方式是设计工作流,实现对上下文的重组、动态检索或隔离(如多智能体)。
另一种方式是让模型自主决定如何处理上下文。比如LMLM[1]用一个与主策略模型联合训练的专门模型负责上下文管理,MEM1[2]则微调策略模型在每次调用工具后重写整个上下文。
我们最近也做了一个这个方向的工作,将上下文管理看成和完成任务一样的模型行为,由同一个策略函数控制。起名叫Memory-as-Action (MemAct[3])。
MemAct与MEM1主要由两点不同:(1)MEM1中“如何管理”由模型决定,但”何时管理“是由工作流触发的(每次调用工具后);而MemAct将”何时管理“的决策权也交给了模型。(2)MEM1的管理行为主要是重写,而MemAct支持更细粒度的选择性删除、增补和局部性改写、压缩等。
实验显示(左图),14B的MemAct以约1/3的token消耗实现了和Qwen3-235B相当的任务完成率;相比其他记忆方法MEM-1和A-MEM,MemAct基于模型策略自适应进行上下文管理,也显著提升了任务完成率。
在长程任务中(右图),随着任务执行长度(目标数量)增加,MemAct能通过对上下文进行精细化管理保持基本稳定的性能,没有出现明显的退化。
2. 长期记忆:记忆载体的模型原生化
长期记忆方面,首先同样有和短期记忆类似的上下文管理问题:从外部记忆库中检索相关信息插入上下文,要考虑避免无关或冗余信息干扰推理过程。
此外,长期记忆的记忆载体也有着模型原生化的趋势,即将跨任务信息存储在模型参数中。比如MemoryLLM[4]和MoM[5]设置了单独的记忆层,使模型以参数化的方式编码和积累长期知识。
近期,一些智能体记忆系统采用了分层结构,同时包含了上下文KV cache、外部记忆库和参数化记忆。参数化记忆写入最慢但读取最快,上下文记忆读写灵活但受长度限制,而外部记忆容量最大但读取最慢。比如MemOS[6]设计了层级记忆接口,能够根据信息的重要性和稳定性决定写入哪一类记忆,实现短期、长期与参数化记忆的协同。
3. 连续记忆
谷歌上个月发了一篇叫Nested Learning的论文[7],是Titans的后续。类比大脑不同频率的脑电波从负责瞬时记忆到长期知识沉淀,论文设计了多频率分层的参数化记忆机制。
它采用Test-Time Training(TTT)的参数更新方式:模型在读取信息的同时,基于预测误差即时计算梯度并更新参数。不同参数设计了不同更新频率,比如fast weight参数每读一个token就更新,而低频参数可能要经过上千万token才触发一次更新。
与MemoryLLM、MoM使用独立记忆层不同,Nested Learning更新的是与策略统一的模型参数本身,使短期状态和长期知识都以参数形式连续存储。
从短期记忆看,它不再像KV cache那样保留原始文本,而更像参数化的RNN:历史信息被压缩进状态向量,并以可学习参数的方式不断更新。
Nested Learning的一种极端实现是:读到的信息在写入参数后直接丢弃,不再使用KV cache。用模型参数替代KV cache来保存当前任务信息,潜在好处有以下几点:
无限上下文:参数更新不依赖固定窗口,不会出现KV cache越来越长的问题。模型理论上能处理任意长度的输入。
计算复杂度固定:传统注意力计算随上下文增长而爆炸,而参数更新计算量与序列长度无关。
学习概念和规则而非记忆原文:基于KV cache推断需要从上下文token中基于注意力检索,当token很多或者信息分散时,注意力可能会迷失。更新参数的过程逼着模型寻找数据中的规律压缩信息,理想情况下可以学到更高层次的概念与规则,推理性能也会更稳定。
可以看到,多频率分层的参数设计实际将记忆看成了一个连续谱:在同一任务内部,根据数据块大小触发不同频率的参数层更新;在跨任务之间,高频参数重置、中频参数衰减、低频参数可以长期保留。记忆不再被分为离散的短期和长期记忆,当前任务的短期记忆平滑过渡到跨任务进行更新和保存,正契合了持续学习想达到的效果。
这一次,谷歌把Nested Learning的credit给了Schimidhuber。早在1992年,Schimidhuber就开始思考如何基于RNN实现持续学习,提出了Fast Weight Program[8]:快权重对应上下文注意力,而慢权重对应模型参数。并明确指出“线性注意力本质上是一种FWP”[9],以及“写KV cache等价于对参数矩阵梯度下降”。
4. 模型原生的智能体记忆
对比MemAct、MoM、MemOS、Nested Learning四个工作,可以发现的潜在趋势是:记忆管理方式逐步模型原生化、记忆载体逐步转向模型参数、记忆时间尺度从离散分层走向连续。
具备这三个要素的记忆系统可被称为模型原生的智能体记忆(Model-native Agentic Memory)。核心思想是:“模型仅通过在推理过程中对参数的实时更新来实现信息的存储、检索和处理;记忆载体不再依赖上下文窗口或外部记忆库,记忆管理也不再依赖手工设计的工作流,而是由模型策略自主决策。”
模型原生的智能体记忆有两个主要特点:
持续学习:模型在推理构成中完成在线、持续的更新。包括同一任务内的在线更新和跨任务的连续时间尺度记忆。
存算一体:传统的智能体记忆遵循冯诺依曼的“存储-计算”分离的硬件设计,KV cache类似RAM,外部记忆库类似硬盘。在模型原生记忆中: (1)存即是算-写入记忆的过程就是参数更新本身,新的信息被直接融入模型权重,立即影响后续推理;(2)算即是存-模型在进行前向推理时激活的部分权重本身就代表已存储的知识。
进一步,如果将持续学习的TTT理解为“算训一体”,模型原生的智能体记忆实际实现了存算训一体,使模型能够在推理中持续学习,并沉淀为连续的记忆。
这其实对应了另一种test-time scaling。我们看到预训练和后训练阶段的scaling都导致了模型能力的提升;而目前通过增加计算量/推理时间的test-time scaling只提升了完成当次任务的表现,并没有在模型能力本身产生累积提升。
模型原生记忆有望实现类似大脑“越用越聪明”的效果。大脑的机制是:思考会诱发新的突触连接;模型原生记忆中,智能体在执行任务的同时在线更新参数,使得处理信息本身就是学习过程。
那么,如果模型原生记忆让模型的持续学习效果产生了scaling,那被scale的是什么?
再次拿出这张图,后训练好理解:用计算换数据,scale的是合成数据;预训练通过扩展模型容量(参数量)和训练计算,本质上是在为了能压缩规模更大的数据,也在scale数据。
我们将推理加到图里:模型原生记忆的持续学习相当于在推理阶段不断积累新的真实经验,使智能体能够 scale在线数据。如果说后训练是在“模拟合成经验”上scaling,模型原生记忆中的推理则是在“在线真实经验”上scaling。
当然,Nested Learning 目前提出的仍是一种理想化框架,距离落地还有很多问题要解决。比如,
频率参数层如何从手工设计到模型原生?当前高频、中频、低频的参数划分仍依赖人工设定,未来如何让模型自主学习合适的时间尺度与更新节奏?
现有模型结构能否支持多频率分层?Transformer 的参数耦合度较高,是否需要结构性改造?
计算与存储分离的硬件能否支持高频的在线写入?现有芯片主要为前向推理优化,频繁的参数更新会带来巨大的访存和带宽压力,如何在硬件层面支持测试时训练(TTT)?
5. 从多智能体记忆到“组织者“
最后再讨论一下多智能体记忆。在多智能体系统中,记忆涉及角色设定、上下文路由和任务状态管理等操作。
OpenAI在开源GPT-OSS时提出了Harmony协议,通过设置多角色和多通道结构,使模型可以在思考的同时并行执行多个工具调用。这算是基于工作流的多智能体记忆管理。
微软近期提出的SyncThink[10]则更进一步,尝试通过模型训练实现异步思考。包括自主生成Organizer和Worker两种角色,以及基于模型策略实现上下文的分离(fork)和合并(join)。这代表了多智能体记忆在模型原生方向的探索。
有意思的是,论文题目用了“Agentic Organization”这个词,让人自然联想到OpenAI五层AGI框架中对Organization(组织者)的定义。回顾到目前的演化路径,推理能力的突破推动了从chatbot到reasoner的发展,工具使用能力的成熟催生了今天的agent体系。而多智能体记忆中的角色设定、上下文路由和状态管理等能力,是组织者的基本能力。

所以,记忆会是打开第五层-组织者的那把钥匙么?
参考文献:
[1] Pre-training Large Memory Language Models with Internal and External Knowledge.
[2] MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents.
[3] Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks. https://github.com/ADaM-BJTU/MemAct.
[4] MemoryLLM: Towards Self-Updatable Large Language Models.
[5] MoM: Linear Sequence Modeling with Mixture-ofMemories.
[6] MemOS: Memory Operating System for AI Agents.
[7] Nested Learning: The Illusion of Deep Learning Architecture.
[8] Learning to control fast-weight memories: An alternative to recurrent nets.
[9] Linear transformers are secretly fast weight programmers.
[10] The Era of Agentic Organization: Learning to Organize with Language Models.

