大数跨境
0
0

打破十年垄断!NeurIPS 2025 Titans 架构横空出世,性能碾压下Transformer,超长序列建模变简单!

打破十年垄断!NeurIPS 2025 Titans 架构横空出世,性能碾压下Transformer,超长序列建模变简单! AI前沿速递
2025-12-10
0
导读:打破十年垄断!NeurIPS 2025 Titans 架构横空出世,性能碾压下Transformer,超长序列建模变简单!

 

论文下载:关注回复【C733获取领取 NeruIPS 2025 论文合集

谷歌(Transformer提出者)再放大招!NeurIPS 2025上新发布的大模型架构Titans,凭借“测试时训练”机制将上下文窗口拓展至200万token,既兼具RNN的高效速度,又媲美Transformer的建模性能,精准破解了后者处理超长序列时计算成本随长度激增的核心痛点。

google 推文

扫码添加小助手回复“C733
免费获取 NeruIPS 2025 论文合集

1. 导读

论文基本信息

论文标题:Titans: Learning to Memorize at Test Time
作者:Ali Behrouz、Peilin Zhong、Vahab Mirrokni
作者机构:Google Research
论文来源:Neurips 2025
论文链接:https://arxiv.org/pdf/2501.00663v1
项目链接:https://github.com/ai-in-pm/Titans---Learning-to-Memorize-at-Test-Time

2. 论文速读

为解决Transformer模型上下文长度受限、线性循环模型表达能力不足的问题,谷歌研究团队提出Titans架构,其核心是创新的神经长期记忆模块,该模块借鉴人类记忆机制,通过惊喜度量捕捉关键信息,结合遗忘机制优化记忆管理,还支持快速并行训练与推理。Titans架构包含短期记忆(注意力模块)、长期记忆(神经记忆模块)和持久记忆(任务知识参数)三大分支,衍生出三种集成变体。实验表明,该架构在语言建模、常识推理等多任务中表现优于Transformer及现代线性循环模型,且能高效扩展至超200万上下文窗口,在大海捞针类长上下文任务中精度更高。

3. 记忆困局与破局:从Transformer瓶颈到多模块革新

3.1 研究背景

  • • Transformer依赖注意力机制建模token直接依赖,核心公式为基于键值对的相似度计算,但二次时间和内存复杂度( 为上下文长度)使其难以应对超长序列任务(如长时时间序列预测、视频理解)。
  • • 线性Transformer通过核函数替换softmax,将复杂度降至线性( ),但需将数据压缩为矩阵/向量状态,导致表达能力不足,泛化和推理性能弱于标准Transformer。
  • • 现有架构(RNN、LSTM、Transformer)缺乏类人脑的多模块记忆协同:要么缺少长短期记忆分工,要么无法主动学习历史抽象信息,且单一向量/矩阵记忆难以存储长时数据,易出现记忆溢出。
  • • 关键研究问题:如何设计高效的记忆结构、更新机制与检索流程,如何整合多模块记忆系统,以及是否需要深度记忆模块存储长时历史。

3.2 相关工作

3.2.1 注意力机制及高效变体

  • • 标准注意力:Transformer的核心组件,通过 生成查询、键、值,输出依赖softmax相似度加权,虽建模精准但扩展性差。
  • • 高效注意力优化:包括I/O感知实现(如FlashAttention)、注意力矩阵稀疏化、softmax近似,以及核基线性注意力( ),后者可转化为循环形式提升吞吐量。

3.2.2 线性循环与序列模型

  • • 第一代线性模型:基于数据独立的转移矩阵/衰减机制,如RetNet、LRU、S4,训练推理高效但灵活性不足。
  • • 第二代线性模型:引入门控机制优化记忆更新,如Mamba2、Griffin,提升适应性但受限于线性记忆结构。
  • • 第三代线性模型:基于元学习、在线学习或delta规则,如Gated DeltaNet、TTT,表达能力增强,但缺乏对token流的捕捉和深度记忆设计。

3.2.3 记忆模块相关研究

  • • 传统记忆模型:Hopfield网络、LSTM、神经图灵机等,将记忆视为神经更新过程,但多为浅层次记忆,缺乏遗忘机制或动态适应能力。
  • • 快速权重程序:将线性层视为键值记忆,基于Hebbian或delta规则更新,但依赖瞬时惊喜信号,忽略token流且记忆管理薄弱。
  • • 分段Transformer与外部记忆:通过分块处理超长序列,或为LLM添加外部记忆模块,但存在记忆表达弱、无遗忘机制、难以端到端训练等问题。

4. 记忆三重奏:神经记忆+多架构融合的创新方法论

4.1 神经长期记忆模块(LMM)设计

4.1.1 核心目标

构建可在测试时主动记忆/遗忘的元模型,将历史信息抽象编码到参数中,同时避免训练数据过拟合,提升泛化能力。
The illustration of how the training of neural memory can be done in parallel and using matmuls

4.1.2 惊喜度量机制

  • • 灵感来源:人类对违反预期(令人惊讶)的事件记忆更深刻。
  • • 基础定义:用模型对输入的梯度衡量惊喜度,梯度越大表示输入与历史数据差异越大。
  • • 优化改进:结合历史惊喜与瞬时惊喜,引入动量项捕捉序列级惊喜关联,公式为:

    其中,  为数据依赖的惊喜衰减系数(控制历史惊喜影响),  为瞬时惊喜权重系数。

4.1.3 关联记忆损失函数

  • • 目标:学习键值对映射关系,公式为:
     为投影参数)
  • • 优化方式:内循环优化记忆模块权重  ,外循环优化整体架构其他参数。

4.1.4 自适应遗忘机制

  • • 作用:管理有限内存,遗忘无用信息,公式为:

    其中,  为门控系数,  保留历史记忆,  清空记忆。
  • • 等价性:该机制等价于带权重衰减的元神经网络优化。

4.1.5 深度记忆结构

  • • 采用   层的MLP作为记忆载体,深层记忆( )比线性记忆更具表达能力,契合MLP的通用逼近特性。
  • • 记忆检索:通过无权重更新的前向传播实现,公式为:
     表示无权重调整的前向传播)

4.2 并行化训练优化

4.2.1 核心思路

将序列分割为大小为   的块,通过张量化和矩阵运算(matmul)替代循环更新,充分利用硬件加速器。

4.2.2 关键优化手段

  • • 批量梯度下降重构:将块内梯度计算转化为矩阵运算,存储块级参数矩阵   和  ,减少内存占用。
  • • 动量项并行计算:利用并行关联扫描(parallel associative scan)快速求解块内动量项 
  • • 可选简化:将   设为块依赖参数,转化为线性时不变系统,通过全局卷积加速计算。

4.3 持久记忆模块(Persistent Memory)

4.3.1 设计形式

引入与输入无关的可学习参数  ,拼接在序列起始位置,公式为:
 表示拼接操作)

4.3.2 核心作用

  • • 存储任务级知识,补充上下文依赖的长期记忆。
  • • 模拟Transformer全连接层的独立权重特性,生成数据无关的注意力权重。
  • • 缓解因果掩码下注意力对初始token的偏向性,优化权重分布。

4.4 Titans架构的三种融合变体

4.4.1 记忆作为上下文(MAC)

  • • 流程:将长序列分割为固定大小段  ,通过   检索历史记忆,拼接持久记忆、检索结果与当前段  ,经注意力计算后更新记忆:
  • • 优势:注意力自主判断是否依赖长期记忆,筛选有用信息存储。
Memory as a Context (MAC) Architecture

4.4.2 记忆作为门控(MAG)

  • • 流程:双分支并行——滑动窗口注意力(SWA)作为短期记忆,神经记忆模块作为长期记忆,通过非线性门控融合输出:
  • • 特点:不分割序列,滑动窗口注意力保证局部依赖建模,门控机制动态平衡长短时记忆权重。
    Memory as a Gate (MAG) Architecture

4.4.3 记忆作为层(MAL)

  • • 流程:将神经记忆模块作为独立层,串联在滑动窗口注意力之前,公式为:
  • • 变体:可移除注意力层,仅保留神经记忆模块(Titans(LMM)),验证长期记忆的独立建模能力。
Memory as a Layer (MAL) Architecture

4.5 补充设计细节

  • • 激活与归一化:使用SiLU激活函数,对查询和键进行  -norm归一化。
  • • 卷积增强:在查询、键、值投影后添加1D深度可分离卷积,提升性能且保持计算效率。
  • • 残差连接:所有模块均引入残差连接,缓解深度网络训练梯度消失问题。

5. 记忆王者争霸:Titans的全场景性能碾压

5.1 语言建模与常识推理

  • • 所有Titans变体(MAC、MAG、MAL)在340M、400M、760M参数规模下,均优于Transformer++、Mamba2、Gated DeltaNet等基线模型。
  • • 760M参数的Titans(MAC/MAG)平均准确率达52.5%+, perplexity低至18.61-19.93,显著超越混合模型Samba和Gated DeltaNet-H2。
  • • 纯神经记忆模块(LMM)单独使用也表现突出,340M参数时平均准确率达46.17%,优于多数非混合基线。
    Performance of Titans and recurrent- and Transformer-based baselines on language modeling and common-sense reasoning tasks.

5.2 长上下文检索(大海捞针任务)

  • • 在2K-16K序列长度的S-NIAH任务中,Titans(MAC)表现最佳,16K长度下三类子任务准确率均达95%+,远超TTT(最低0.0%)、Mamba2(最低5.4%)等基线。
  • • 神经记忆模块(LMM)16K长度准确率保持80%+,展现出稳定的长时记忆保留能力,而其他基线性能随序列长度增长急剧下降。
Performance of Titans and baselines on S-NIAH task from RULER benchmark.

5.3 超长文本推理(BABILong基准)

  • • 少样本设置下,小参数Titans(MAC)超越GPT-4、Llama3.1-8B等大模型,在超长文档跨事实推理中表现更优。
  • • 微调设置下,Titans(MAC)击败Llama3.1-70B+RAG、Qwen2.5-72B等模型,即使参数规模仅为基线的1/70,仍实现性能反超。
    Performance of Titans and baselines on BABILong benchmark

5.4 时间序列预测

  • • 神经记忆模块在ETT、ECL、Traffic、Weather数据集上全面领先,ETTm2数据集MSE低至0.261、MAE 0.309,优于Mamba-based(Simba)、Transformer-based(iTransformer)等架构。
  • • 在ECL数据集上表现尤为突出,MSE 0.162、MAE 0.261,显著低于所有对比基线。
    Performance on long-term forecasting.

5.5 DNA建模

  • • 神经记忆模块(LMM)在GenomicsBenchmarks下游任务中表现竞争力,Enhancer Cohn任务准确率75.2%,Non-TATA Promoters任务达96.6%,与HyenaDNA、Based等SOTA模型持平。
  • • 在Enhancer Ens、Human OCR Ens任务中准确率分别达89.6%、79.9%,跻身当前顶尖DNA建模模型行列。
    Downstream evaluation of pre-trained DNA models on GenomicsBenchmarks

5.6 记忆深度与效率 trade-off

  • • 深层记忆( )比线性记忆( )更适配长序列,760M参数模型在32K序列长度下,  比    perplexity更低。
  • • 训练吞吐量随记忆深度线性下降,但Titans(MAL)借助FlashAttention优化,吞吐量优于多数基线模型,兼顾性能与效率。

5.7 消融实验与组件贡献

  • • 关键组件贡献排序:权重衰减(遗忘机制)> 动量项 > 卷积 > 持久记忆,移除任一组件会导致perplexity上升、长上下文准确率下降。
  • • 架构变体对比:MAC在长上下文任务中最优(准确率97.95%),MAG在语言建模中略胜(perplexity 25.70),MAL效率更高但综合性能稍弱。
Ablation Study on Titans

6. 记忆革命再启程:Titans的现在与未来

本文提出Titans架构及核心神经长期记忆模块,通过惊喜度量、遗忘机制与深度记忆设计,实现测试时动态记忆与高效推理,结合短期注意力、长期记忆、持久记忆三大分支及三种融合变体,在语言建模、长上下文检索、时间序列预测、DNA建模等多任务中超越Transformer及现代线性循环模型,且能高效扩展至超200万上下文窗口。未来可进一步探索更优的深度记忆架构设计、块依赖参数简化以提升训练效率,以及在更广泛复杂场景中的应用拓展,持续推动长序列建模的性能与效率突破。

 





扫码添加小助手回复“C733
免费获取 NeruIPS 2025 论文合集
图片



往期推荐
一夜醒来,Transformer和Mamba都被超越了!大模型最强架构TTT问世!

一区Top期刊 Information Sciences 惨遭除名,2025中科院最新分区揭晓!

视觉Transformer(Vision Transformer, ViT) :全面超越CNN,看懂这篇文章就没什么能难倒你了!

我愿称之无敌!特征融合最新暴力涨点方案!

超越传统:GNN和Transformer结合的创新突破!
CVPR 2024 | CRNet:一种可保留细节的图像增强与统一恢复网络
复活CNN!港大 CVPR 2025 高分论文,助力卷积神经网络效率暴涨还省显存!
深度学习可解释杀疯了!登上《Nature》正刊!屠榜双领域SOTA!
Transformer 过时了!MIT 液体神经网络 LNN 才是新趋势!
小波变换+注意力机制的结合创新,竟能实现100%分类准确率!
CVPR 2024 | 黑暗中的多目标追踪
研究因果推断最前沿,这些个创新思路不能错过



📢欢迎加入我们的学术交流群!

无论你是研究哪个方向的,都可以找到志同道合的伙伴

添加好友后将拉你进相应微信群。

📌 添加方式:

扫描下方二维码,或搜索微信号:aiqysd

📩 添加好友时请务必备注信息,格式如下:

研究方向  + 学校/公司 + 学历 + 姓名

非常重要:

发送好友验证时,必须填写备注信息,示例如下:

👉 目标检测 + 中科大 + 研一 + 陈奕迅

凡格式不对者,一律不予理睬

我们期待你的加入,一起交流、学习、进步!

部分资料展示👇




欢迎投稿

想要让高质量的内容更快地触达读者,降低他们寻找优质信息的成本吗?关键在于那些你尚未结识的人。他们可能掌握着你渴望了解的知识。【AI前沿速递】愿意成为这样的一座桥梁,连接不同领域、不同背景的学者,让他们的学术灵感相互碰撞,激发出无限可能。

【AI前沿速递】欢迎各高校实验室和个人在我们的平台上分享各类精彩内容,无论是最新的论文解读,还是对学术热点的深入分析,或是科研心得和竞赛经验的分享,我们的目标只有一个:让知识自由流动。

📝 投稿指南

  • 确保文章为个人原创,未在任何公开渠道发布。若文章已在其他平台发表或即将发表,请明确说明。

  • 建议使用Markdown格式撰写稿件,并以附件形式发送清晰、无版权争议的配图。

  • 【AI前沿速递】尊重作者的署名权,并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。

📬 投稿方式

  • 您可以通过添加我们的小助理微信(aiqysd)进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”


    长按添加AI前沿速递小助理


图片



【声明】内容源于网络
0
0
AI前沿速递
AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
内容 1825
粉丝 0
AI前沿速递 AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
总阅读79
粉丝0
内容1.8k