论文下载:关注回复【C733】获取领取 NeruIPS 2025 论文合集
谷歌(Transformer提出者)再放大招!NeurIPS 2025上新发布的大模型架构Titans,凭借“测试时训练”机制将上下文窗口拓展至200万token,既兼具RNN的高效速度,又媲美Transformer的建模性能,精准破解了后者处理超长序列时计算成本随长度激增的核心痛点。
1. 导读
论文标题:Titans: Learning to Memorize at Test Time
作者:Ali Behrouz、Peilin Zhong、Vahab Mirrokni
作者机构:Google Research
论文来源:Neurips 2025
论文链接:https://arxiv.org/pdf/2501.00663v1
项目链接:https://github.com/ai-in-pm/Titans---Learning-to-Memorize-at-Test-Time
2. 论文速读
为解决Transformer模型上下文长度受限、线性循环模型表达能力不足的问题,谷歌研究团队提出Titans架构,其核心是创新的神经长期记忆模块,该模块借鉴人类记忆机制,通过惊喜度量捕捉关键信息,结合遗忘机制优化记忆管理,还支持快速并行训练与推理。Titans架构包含短期记忆(注意力模块)、长期记忆(神经记忆模块)和持久记忆(任务知识参数)三大分支,衍生出三种集成变体。实验表明,该架构在语言建模、常识推理等多任务中表现优于Transformer及现代线性循环模型,且能高效扩展至超200万上下文窗口,在大海捞针类长上下文任务中精度更高。
3. 记忆困局与破局:从Transformer瓶颈到多模块革新
3.1 研究背景
-
• Transformer依赖注意力机制建模token直接依赖,核心公式为基于键值对的相似度计算,但二次时间和内存复杂度( , 为上下文长度)使其难以应对超长序列任务(如长时时间序列预测、视频理解)。 -
• 线性Transformer通过核函数替换softmax,将复杂度降至线性( ),但需将数据压缩为矩阵/向量状态,导致表达能力不足,泛化和推理性能弱于标准Transformer。 -
• 现有架构(RNN、LSTM、Transformer)缺乏类人脑的多模块记忆协同:要么缺少长短期记忆分工,要么无法主动学习历史抽象信息,且单一向量/矩阵记忆难以存储长时数据,易出现记忆溢出。 -
• 关键研究问题:如何设计高效的记忆结构、更新机制与检索流程,如何整合多模块记忆系统,以及是否需要深度记忆模块存储长时历史。
3.2 相关工作
3.2.1 注意力机制及高效变体
-
• 标准注意力:Transformer的核心组件,通过 、 、 生成查询、键、值,输出依赖softmax相似度加权,虽建模精准但扩展性差。 -
• 高效注意力优化:包括I/O感知实现(如FlashAttention)、注意力矩阵稀疏化、softmax近似,以及核基线性注意力( ),后者可转化为循环形式提升吞吐量。
3.2.2 线性循环与序列模型
-
• 第一代线性模型:基于数据独立的转移矩阵/衰减机制,如RetNet、LRU、S4,训练推理高效但灵活性不足。 -
• 第二代线性模型:引入门控机制优化记忆更新,如Mamba2、Griffin,提升适应性但受限于线性记忆结构。 -
• 第三代线性模型:基于元学习、在线学习或delta规则,如Gated DeltaNet、TTT,表达能力增强,但缺乏对token流的捕捉和深度记忆设计。
3.2.3 记忆模块相关研究
-
• 传统记忆模型:Hopfield网络、LSTM、神经图灵机等,将记忆视为神经更新过程,但多为浅层次记忆,缺乏遗忘机制或动态适应能力。 -
• 快速权重程序:将线性层视为键值记忆,基于Hebbian或delta规则更新,但依赖瞬时惊喜信号,忽略token流且记忆管理薄弱。 -
• 分段Transformer与外部记忆:通过分块处理超长序列,或为LLM添加外部记忆模块,但存在记忆表达弱、无遗忘机制、难以端到端训练等问题。
4. 记忆三重奏:神经记忆+多架构融合的创新方法论
4.1 神经长期记忆模块(LMM)设计
4.1.1 核心目标
构建可在测试时主动记忆/遗忘的元模型,将历史信息抽象编码到参数中,同时避免训练数据过拟合,提升泛化能力。
4.1.2 惊喜度量机制
-
• 灵感来源:人类对违反预期(令人惊讶)的事件记忆更深刻。 -
• 基础定义:用模型对输入的梯度衡量惊喜度,梯度越大表示输入与历史数据差异越大。 -
• 优化改进:结合历史惊喜与瞬时惊喜,引入动量项捕捉序列级惊喜关联,公式为:
其中, 为数据依赖的惊喜衰减系数(控制历史惊喜影响), 为瞬时惊喜权重系数。
4.1.3 关联记忆损失函数
-
• 目标:学习键值对映射关系,公式为:
( 为投影参数)
-
• 优化方式:内循环优化记忆模块权重 ,外循环优化整体架构其他参数。
4.1.4 自适应遗忘机制
-
• 作用:管理有限内存,遗忘无用信息,公式为:
其中, 为门控系数, 保留历史记忆, 清空记忆。 -
• 等价性:该机制等价于带权重衰减的元神经网络优化。
4.1.5 深度记忆结构
-
• 采用 层的MLP作为记忆载体,深层记忆( )比线性记忆更具表达能力,契合MLP的通用逼近特性。 -
• 记忆检索:通过无权重更新的前向传播实现,公式为:
( 表示无权重调整的前向传播)
4.2 并行化训练优化
4.2.1 核心思路
将序列分割为大小为 的块,通过张量化和矩阵运算(matmul)替代循环更新,充分利用硬件加速器。
4.2.2 关键优化手段
-
• 批量梯度下降重构:将块内梯度计算转化为矩阵运算,存储块级参数矩阵 和 ,减少内存占用。 -
• 动量项并行计算:利用并行关联扫描(parallel associative scan)快速求解块内动量项 。 -
• 可选简化:将 设为块依赖参数,转化为线性时不变系统,通过全局卷积加速计算。
4.3 持久记忆模块(Persistent Memory)
4.3.1 设计形式
引入与输入无关的可学习参数
,拼接在序列起始位置,公式为:
(
表示拼接操作)
4.3.2 核心作用
-
• 存储任务级知识,补充上下文依赖的长期记忆。 -
• 模拟Transformer全连接层的独立权重特性,生成数据无关的注意力权重。 -
• 缓解因果掩码下注意力对初始token的偏向性,优化权重分布。
4.4 Titans架构的三种融合变体
4.4.1 记忆作为上下文(MAC)
-
• 流程:将长序列分割为固定大小段 ,通过 检索历史记忆,拼接持久记忆、检索结果与当前段 ,经注意力计算后更新记忆:
-
• 优势:注意力自主判断是否依赖长期记忆,筛选有用信息存储。
4.4.2 记忆作为门控(MAG)
-
• 流程:双分支并行——滑动窗口注意力(SWA)作为短期记忆,神经记忆模块作为长期记忆,通过非线性门控融合输出:
-
• 特点:不分割序列,滑动窗口注意力保证局部依赖建模,门控机制动态平衡长短时记忆权重。
Memory as a Gate (MAG) Architecture
4.4.3 记忆作为层(MAL)
-
• 流程:将神经记忆模块作为独立层,串联在滑动窗口注意力之前,公式为:
-
• 变体:可移除注意力层,仅保留神经记忆模块(Titans(LMM)),验证长期记忆的独立建模能力。
4.5 补充设计细节
-
• 激活与归一化:使用SiLU激活函数,对查询和键进行 -norm归一化。 -
• 卷积增强:在查询、键、值投影后添加1D深度可分离卷积,提升性能且保持计算效率。 -
• 残差连接:所有模块均引入残差连接,缓解深度网络训练梯度消失问题。
5. 记忆王者争霸:Titans的全场景性能碾压
5.1 语言建模与常识推理
-
• 所有Titans变体(MAC、MAG、MAL)在340M、400M、760M参数规模下,均优于Transformer++、Mamba2、Gated DeltaNet等基线模型。 -
• 760M参数的Titans(MAC/MAG)平均准确率达52.5%+, perplexity低至18.61-19.93,显著超越混合模型Samba和Gated DeltaNet-H2。 -
• 纯神经记忆模块(LMM)单独使用也表现突出,340M参数时平均准确率达46.17%,优于多数非混合基线。
Performance of Titans and recurrent- and Transformer-based baselines on language modeling and common-sense reasoning tasks.
5.2 长上下文检索(大海捞针任务)
-
• 在2K-16K序列长度的S-NIAH任务中,Titans(MAC)表现最佳,16K长度下三类子任务准确率均达95%+,远超TTT(最低0.0%)、Mamba2(最低5.4%)等基线。 -
• 神经记忆模块(LMM)16K长度准确率保持80%+,展现出稳定的长时记忆保留能力,而其他基线性能随序列长度增长急剧下降。
5.3 超长文本推理(BABILong基准)
-
• 少样本设置下,小参数Titans(MAC)超越GPT-4、Llama3.1-8B等大模型,在超长文档跨事实推理中表现更优。 -
• 微调设置下,Titans(MAC)击败Llama3.1-70B+RAG、Qwen2.5-72B等模型,即使参数规模仅为基线的1/70,仍实现性能反超。
Performance of Titans and baselines on BABILong benchmark
5.4 时间序列预测
-
• 神经记忆模块在ETT、ECL、Traffic、Weather数据集上全面领先,ETTm2数据集MSE低至0.261、MAE 0.309,优于Mamba-based(Simba)、Transformer-based(iTransformer)等架构。 -
• 在ECL数据集上表现尤为突出,MSE 0.162、MAE 0.261,显著低于所有对比基线。
Performance on long-term forecasting.
5.5 DNA建模
-
• 神经记忆模块(LMM)在GenomicsBenchmarks下游任务中表现竞争力,Enhancer Cohn任务准确率75.2%,Non-TATA Promoters任务达96.6%,与HyenaDNA、Based等SOTA模型持平。 -
• 在Enhancer Ens、Human OCR Ens任务中准确率分别达89.6%、79.9%,跻身当前顶尖DNA建模模型行列。
Downstream evaluation of pre-trained DNA models on GenomicsBenchmarks
5.6 记忆深度与效率 trade-off
-
• 深层记忆( )比线性记忆( )更适配长序列,760M参数模型在32K序列长度下, 比 perplexity更低。 -
• 训练吞吐量随记忆深度线性下降,但Titans(MAL)借助FlashAttention优化,吞吐量优于多数基线模型,兼顾性能与效率。
5.7 消融实验与组件贡献
-
• 关键组件贡献排序:权重衰减(遗忘机制)> 动量项 > 卷积 > 持久记忆,移除任一组件会导致perplexity上升、长上下文准确率下降。 -
• 架构变体对比:MAC在长上下文任务中最优(准确率97.95%),MAG在语言建模中略胜(perplexity 25.70),MAL效率更高但综合性能稍弱。
6. 记忆革命再启程:Titans的现在与未来
本文提出Titans架构及核心神经长期记忆模块,通过惊喜度量、遗忘机制与深度记忆设计,实现测试时动态记忆与高效推理,结合短期注意力、长期记忆、持久记忆三大分支及三种融合变体,在语言建模、长上下文检索、时间序列预测、DNA建模等多任务中超越Transformer及现代线性循环模型,且能高效扩展至超200万上下文窗口。未来可进一步探索更优的深度记忆架构设计、块依赖参数简化以提升训练效率,以及在更广泛复杂场景中的应用拓展,持续推动长序列建模的性能与效率突破。
一区Top期刊 Information Sciences 惨遭除名,2025中科院最新分区揭晓!
视觉Transformer(Vision Transformer, ViT) :全面超越CNN,看懂这篇文章就没什么能难倒你了!
无论你是研究哪个方向的,都可以找到志同道合的伙伴
添加好友后将拉你进相应微信群。
📌 添加方式:
扫描下方二维码,或搜索微信号:aiqysd
📩 添加好友时请务必备注信息,格式如下:
研究方向 + 学校/公司 + 学历 + 姓名
❗非常重要:
发送好友验证时,必须填写备注信息,示例如下:
👉 目标检测 + 中科大 + 研一 + 陈奕迅
凡格式不对者,一律不予理睬
我们期待你的加入,一起交流、学习、进步!
部分资料展示👇
确保文章为个人原创,未在任何公开渠道发布。若文章已在其他平台发表或即将发表,请明确说明。
建议使用Markdown格式撰写稿件,并以附件形式发送清晰、无版权争议的配图。
【AI前沿速递】尊重作者的署名权,并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。
您可以通过添加我们的小助理微信(aiqysd)进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”
长按添加AI前沿速递小助理

