打破十年垄断！NeurIPS 2025 Titans 架构横空出世，性能碾压下Transformer，超长序列建模变简单！



打破十年垄断！NeurIPS 2025 Titans 架构横空出世，性能碾压下Transformer，超长序列建模变简单！

AI前沿速递

2025-12-10

导读：打破十年垄断！NeurIPS 2025 Titans 架构横空出世，性能碾压下Transformer，超长序列建模变简单！

论文下载：关注回复【C733】获取领取 NeruIPS 2025 论文合集

谷歌（Transformer提出者）再放大招！NeurIPS 2025上新发布的大模型架构Titans，凭借“测试时训练”机制将上下文窗口拓展至200万token，既兼具RNN的高效速度，又媲美Transformer的建模性能，精准破解了后者处理超长序列时计算成本随长度激增的核心痛点。

扫码添加小助手回复“C733”

免费获取 NeruIPS 2025 论文合集

1. 导读

论文标题：Titans: Learning to Memorize at Test Time
作者：Ali Behrouz、Peilin Zhong、Vahab Mirrokni
作者机构：Google Research
论文来源：Neurips 2025
论文链接：https://arxiv.org/pdf/2501.00663v1
项目链接：https://github.com/ai-in-pm/Titans---Learning-to-Memorize-at-Test-Time

2. 论文速读

为解决Transformer模型上下文长度受限、线性循环模型表达能力不足的问题，谷歌研究团队提出Titans架构，其核心是创新的神经长期记忆模块，该模块借鉴人类记忆机制，通过惊喜度量捕捉关键信息，结合遗忘机制优化记忆管理，还支持快速并行训练与推理。Titans架构包含短期记忆（注意力模块）、长期记忆（神经记忆模块）和持久记忆（任务知识参数）三大分支，衍生出三种集成变体。实验表明，该架构在语言建模、常识推理等多任务中表现优于Transformer及现代线性循环模型，且能高效扩展至超200万上下文窗口，在大海捞针类长上下文任务中精度更高。

3. 记忆困局与破局：从Transformer瓶颈到多模块革新

3.1 研究背景

• Transformer依赖注意力机制建模token直接依赖，核心公式为基于键值对的相似度计算，但二次时间和内存复杂度（，为上下文长度）使其难以应对超长序列任务（如长时时间序列预测、视频理解）。
• 线性Transformer通过核函数替换softmax，将复杂度降至线性（），但需将数据压缩为矩阵/向量状态，导致表达能力不足，泛化和推理性能弱于标准Transformer。
• 现有架构（RNN、LSTM、Transformer）缺乏类人脑的多模块记忆协同：要么缺少长短期记忆分工，要么无法主动学习历史抽象信息，且单一向量/矩阵记忆难以存储长时数据，易出现记忆溢出。
• 关键研究问题：如何设计高效的记忆结构、更新机制与检索流程，如何整合多模块记忆系统，以及是否需要深度记忆模块存储长时历史。

3.2 相关工作

3.2.1 注意力机制及高效变体

• 标准注意力：Transformer的核心组件，通过、、生成查询、键、值，输出依赖softmax相似度加权，虽建模精准但扩展性差。
• 高效注意力优化：包括I/O感知实现（如FlashAttention）、注意力矩阵稀疏化、softmax近似，以及核基线性注意力（），后者可转化为循环形式提升吞吐量。

3.2.2 线性循环与序列模型

• 第一代线性模型：基于数据独立的转移矩阵/衰减机制，如RetNet、LRU、S4，训练推理高效但灵活性不足。
• 第二代线性模型：引入门控机制优化记忆更新，如Mamba2、Griffin，提升适应性但受限于线性记忆结构。
• 第三代线性模型：基于元学习、在线学习或delta规则，如Gated DeltaNet、TTT，表达能力增强，但缺乏对token流的捕捉和深度记忆设计。

3.2.3 记忆模块相关研究

• 传统记忆模型：Hopfield网络、LSTM、神经图灵机等，将记忆视为神经更新过程，但多为浅层次记忆，缺乏遗忘机制或动态适应能力。
• 快速权重程序：将线性层视为键值记忆，基于Hebbian或delta规则更新，但依赖瞬时惊喜信号，忽略token流且记忆管理薄弱。
• 分段Transformer与外部记忆：通过分块处理超长序列，或为LLM添加外部记忆模块，但存在记忆表达弱、无遗忘机制、难以端到端训练等问题。

4. 记忆三重奏：神经记忆+多架构融合的创新方法论

4.1 神经长期记忆模块（LMM）设计

4.1.1 核心目标

构建可在测试时主动记忆/遗忘的元模型，将历史信息抽象编码到参数中，同时避免训练数据过拟合，提升泛化能力。

The illustration of how the training of neural memory can be done in parallel and using matmuls

4.1.2 惊喜度量机制

• 灵感来源：人类对违反预期（令人惊讶）的事件记忆更深刻。
• 基础定义：用模型对输入的梯度衡量惊喜度，梯度越大表示输入与历史数据差异越大。
• 优化改进：结合历史惊喜与瞬时惊喜，引入动量项捕捉序列级惊喜关联，公式为：

其中，为数据依赖的惊喜衰减系数（控制历史惊喜影响），为瞬时惊喜权重系数。

4.1.3 关联记忆损失函数

• 目标：学习键值对映射关系，公式为：
（为投影参数）
• 优化方式：内循环优化记忆模块权重，外循环优化整体架构其他参数。

4.1.4 自适应遗忘机制

• 作用：管理有限内存，遗忘无用信息，公式为：

其中，为门控系数，保留历史记忆，清空记忆。
• 等价性：该机制等价于带权重衰减的元神经网络优化。

4.1.5 深度记忆结构

• 采用层的MLP作为记忆载体，深层记忆（）比线性记忆更具表达能力，契合MLP的通用逼近特性。
• 记忆检索：通过无权重更新的前向传播实现，公式为：
（表示无权重调整的前向传播）

4.2 并行化训练优化

4.2.1 核心思路

将序列分割为大小为的块，通过张量化和矩阵运算（matmul）替代循环更新，充分利用硬件加速器。

4.2.2 关键优化手段

• 批量梯度下降重构：将块内梯度计算转化为矩阵运算，存储块级参数矩阵和，减少内存占用。
• 动量项并行计算：利用并行关联扫描（parallel associative scan）快速求解块内动量项。
• 可选简化：将设为块依赖参数，转化为线性时不变系统，通过全局卷积加速计算。

4.3 持久记忆模块（Persistent Memory）

4.3.1 设计形式

引入与输入无关的可学习参数，拼接在序列起始位置，公式为：
（表示拼接操作）

4.3.2 核心作用

• 存储任务级知识，补充上下文依赖的长期记忆。
• 模拟Transformer全连接层的独立权重特性，生成数据无关的注意力权重。
• 缓解因果掩码下注意力对初始token的偏向性，优化权重分布。

4.4 Titans架构的三种融合变体

4.4.1 记忆作为上下文（MAC）

• 流程：将长序列分割为固定大小段，通过检索历史记忆，拼接持久记忆、检索结果与当前段，经注意力计算后更新记忆：
• 优势：注意力自主判断是否依赖长期记忆，筛选有用信息存储。

4.4.2 记忆作为门控（MAG）

• 流程：双分支并行——滑动窗口注意力（SWA）作为短期记忆，神经记忆模块作为长期记忆，通过非线性门控融合输出：
• 特点：不分割序列，滑动窗口注意力保证局部依赖建模，门控机制动态平衡长短时记忆权重。

Memory as a Gate (MAG) Architecture

4.4.3 记忆作为层（MAL）

• 流程：将神经记忆模块作为独立层，串联在滑动窗口注意力之前，公式为：
• 变体：可移除注意力层，仅保留神经记忆模块（Titans(LMM)），验证长期记忆的独立建模能力。

4.5 补充设计细节

• 激活与归一化：使用SiLU激活函数，对查询和键进行 -norm归一化。
• 卷积增强：在查询、键、值投影后添加1D深度可分离卷积，提升性能且保持计算效率。
• 残差连接：所有模块均引入残差连接，缓解深度网络训练梯度消失问题。

5. 记忆王者争霸：Titans的全场景性能碾压

5.1 语言建模与常识推理

• 所有Titans变体（MAC、MAG、MAL）在340M、400M、760M参数规模下，均优于Transformer++、Mamba2、Gated DeltaNet等基线模型。
• 760M参数的Titans（MAC/MAG）平均准确率达52.5%+， perplexity低至18.61-19.93，显著超越混合模型Samba和Gated DeltaNet-H2。
• 纯神经记忆模块（LMM）单独使用也表现突出，340M参数时平均准确率达46.17%，优于多数非混合基线。

Performance of Titans and recurrent- and Transformer-based baselines on language modeling and common-sense reasoning tasks.

5.2 长上下文检索（大海捞针任务）

• 在2K-16K序列长度的S-NIAH任务中，Titans（MAC）表现最佳，16K长度下三类子任务准确率均达95%+，远超TTT（最低0.0%）、Mamba2（最低5.4%）等基线。
• 神经记忆模块（LMM）16K长度准确率保持80%+，展现出稳定的长时记忆保留能力，而其他基线性能随序列长度增长急剧下降。

Performance of Titans and baselines on S-NIAH task from RULER benchmark.

5.3 超长文本推理（BABILong基准）

• 少样本设置下，小参数Titans（MAC）超越GPT-4、Llama3.1-8B等大模型，在超长文档跨事实推理中表现更优。
• 微调设置下，Titans（MAC）击败Llama3.1-70B+RAG、Qwen2.5-72B等模型，即使参数规模仅为基线的1/70，仍实现性能反超。

Performance of Titans and baselines on BABILong benchmark

5.4 时间序列预测

• 神经记忆模块在ETT、ECL、Traffic、Weather数据集上全面领先，ETTm2数据集MSE低至0.261、MAE 0.309，优于Mamba-based（Simba）、Transformer-based（iTransformer）等架构。
• 在ECL数据集上表现尤为突出，MSE 0.162、MAE 0.261，显著低于所有对比基线。

Performance on long-term forecasting.

5.5 DNA建模

• 神经记忆模块（LMM）在GenomicsBenchmarks下游任务中表现竞争力，Enhancer Cohn任务准确率75.2%，Non-TATA Promoters任务达96.6%，与HyenaDNA、Based等SOTA模型持平。
• 在Enhancer Ens、Human OCR Ens任务中准确率分别达89.6%、79.9%，跻身当前顶尖DNA建模模型行列。

Downstream evaluation of pre-trained DNA models on GenomicsBenchmarks

5.6 记忆深度与效率 trade-off

• 深层记忆（）比线性记忆（）更适配长序列，760M参数模型在32K序列长度下，比 perplexity更低。
• 训练吞吐量随记忆深度线性下降，但Titans（MAL）借助FlashAttention优化，吞吐量优于多数基线模型，兼顾性能与效率。

5.7 消融实验与组件贡献

• 关键组件贡献排序：权重衰减（遗忘机制）> 动量项 > 卷积 > 持久记忆，移除任一组件会导致perplexity上升、长上下文准确率下降。
• 架构变体对比：MAC在长上下文任务中最优（准确率97.95%），MAG在语言建模中略胜（perplexity 25.70），MAL效率更高但综合性能稍弱。

6. 记忆革命再启程：Titans的现在与未来

本文提出Titans架构及核心神经长期记忆模块，通过惊喜度量、遗忘机制与深度记忆设计，实现测试时动态记忆与高效推理，结合短期注意力、长期记忆、持久记忆三大分支及三种融合变体，在语言建模、长上下文检索、时间序列预测、DNA建模等多任务中超越Transformer及现代线性循环模型，且能高效扩展至超200万上下文窗口。未来可进一步探索更优的深度记忆架构设计、块依赖参数简化以提升训练效率，以及在更广泛复杂场景中的应用拓展，持续推动长序列建模的性能与效率突破。