Google Research 的重磅突破
2025年初,Google Research 发布了两篇可能重塑 AI 长上下文处理格局的论文:Titans 和 MIRAS。
这并非渐进式优化,而是架构层面的根本性突破:
- 处理能力:支持200 万+ token的超长上下文(相当于6-8本完整小说)
- 速度革命:保持 RNN 级别的线性推理速度
- 精度超越:在 BABILong 基准测试中超越 GPT-4(尽管参数量更少)
- 实时学习:首次实现“测试时记忆化”——模型在推理过程中动态学习新信息
为何重要?
随着 AI 应用向全文档分析、基因组研究、长期记忆对话系统扩展,上下文长度已成为核心竞争维度。OpenAI、Anthropic、Google 持续加码,而 Titans + MIRAS 或已实现技术弯道超车。
技术困境:速度与准确性的不可能三角
此前,AI 研究面临两难:
Transformer 架构依赖注意力机制,能精准追溯历史输入,但计算复杂度为 O(n²),处理长序列时成本急剧上升,32K token 已接近极限。
研究者转向RNN和SSM(如 Mamba-2),其通过压缩上下文为固定状态向量实现 O(n) 线性扩展。虽速度快,但信息压缩导致细节丢失,如同将百科全书浓缩为一张便签。
Google 的答案:Titans + MIRAS
Titans 是具体架构实现,“工具”;MIRAS 是理论框架,“蓝图”。二者共同提出的核心思想是:
不妥协于速度与准确性,而是重新设计记忆机制本身。
通过引入深度神经网络作为长期记忆模块,并结合“惊喜驱动”的智能选择机制,Titans 实现了兼具 RNN 速度与 Transformer 信息保留能力的目标。
这不仅是对现有架构的修补,而是从第一性原理重构“AI 如何记忆”。若说 Transformer 开启了“Attention is All You Need”,Titans + MIRAS 或正开启“Memory is All You Need”的新纪元。
Titans:运行时可学习的记忆系统
核心理念:模仿人脑的双重记忆机制
人类大脑区分短期记忆(工作记忆)与长期记忆。临时信息短暂留存,关键内容经强化后进入长期记忆。
Titans 采用类似设计:
- 短期记忆:传统注意力机制,快速精确
- 长期记忆:全新深度神经网络模块(MLP)
突破点:深度神经网络作为记忆载体
传统 RNN 记忆为固定大小向量,信息表达受限。
Titans 的长期记忆是一个深度神经网络,具备以下能力:
- 理解并合成复杂概念关系
- 在多抽象层次存储信息
- 动态调整表示能力
“惊喜指标”:智能选择性记忆机制
灵感来自人类心理:日常琐事易忘,意外事件印象深刻。
工作原理:以梯度作为“惊喜传感器”
当前记忆状态:讨论动物
新输入:"cat"(猫)
梯度小 → 符合预期 → 跳过存储
当前记忆状态:分析金融报告
新输入:香蕉皮图片
梯度大 → 完全意外 → 优先存入长期记忆
该机制使模型自动识别并保留关键异常信息。
精细化控制:动量与遗忘机制
1. 动量(Momentum)
综合瞬时与历史“惊喜”信号。例如在侦探小说中,即使“管家拿起手套”单独看无奇,因上下文关联仍被记录。
2. 自适应遗忘(Weight Decay)
主动清理无关旧信息,保留关键记忆,模拟人类自然遗忘机制。
MIRAS:统一序列模型的理论框架
革命性洞察:所有模型本质相同
MIRAS(Memory-Inspired Recurrent Attention and Scaling)提出:无论是 Transformer、RNN 还是 Mamba,本质上都是关联记忆模块的不同实现。
不同架构如同不同车型,外形各异,但核心任务一致:高效整合新旧信息,防止关键知识被覆盖。
MIRAS 的四个设计维度
1. 记忆架构(Memory Architecture)
- 信息存储结构:向量、矩阵或深度 MLP
2. 注意力偏好(Attentional Bias)
- 内部学习目标,决定信息关注优先级
3. 保留门控(Retention Gate)
- 记忆正则化器,平衡新学习与旧知识保留
4. 记忆算法(Memory Algorithm)
- 更新记忆的优化方法,如梯度下降变体
超越 MSE 范式
传统模型依赖均方误差(MSE)或点积相似度,存在两大缺陷:
- 对异常值敏感(拼写错误影响整体理解)
- 表达能力受限(仅线性组合)
MIRAS 的突破:构建生成式框架,探索非欧几里得目标函数与正则化方法,拓展模型设计空间。
基于 MIRAS 的三个创新模型
YAAD(温和的鲁棒卫士)
- 采用 Huber Loss,对错误惩罚更温和
- 适合处理混乱、不一致输入
MONETA(纪律严明的记忆大师)
- 使用广义范数,施加严格数学约束
- 探索规则化记忆是否带来更强稳定性
MEMORA(概率平衡专家)
- 强制记忆遵循概率分布
- 确保信息整合过程受控与稳定
实验验证:数据说话
对比基准
研究团队将 Titans 及 MIRAS 变体与主流架构对比:
- Transformer++
- Mamba-2
- Gated DeltaNet
测试任务涵盖:
- 语言建模(C4、WikiText)
- 零样本推理(HellaSwag、PIQA)
- 基因组建模
- 时间序列预测
关键发现 1:记忆深度至关重要
消融研究表明:记忆模块深度是性能关键。
- 更深记忆 → 更低困惑度
- 更深记忆 → 更好扩展性
- 长序列下性能更稳定
直观理解:深度网络可在多个抽象层级存储信息,如同多层书架优于单层桌面。
关键发现 2:语言建模效率双赢
Titans 在语言建模与常识推理中表现优异:
- 优于同等规模的 Mamba-2 与 Gated DeltaNet
- 优于 Transformer++ 基准
- MIRAS 变体(YAAD、MONETA、MEMORA)亦有提升
- 保持高效并行训练与线性推理速度
证明非 MSE 优化机制具有显著价值。
关键发现 3:极限长上下文能力
最震撼结果:在需跨文档推理的BABILong 基准中:
- 🏆 超越所有基准模型
- 🏆 超越 GPT-4(参数量更少)
- 🏆 支持200 万+ token上下文
实际意义:
- 处理整本书籍(如《哈利波特》全集约107万词)
- 分析完整人类基因组(30亿碱基对)
- 解析数小时会议录音或对话记录
技术深度解析
Test-Time Memorization(测试时记忆化)
Titans 核心创新之一。
传统模型:训练后参数固定,推理阶段无法更新。
训练阶段 → 固定参数 → 推理阶段
Titans:推理阶段实时更新参数,动态学习。
推理阶段 → 实时更新 → 动态适应
如同学生边考试边学习新知识。
梯度作为“惊喜”的数学表达
模型通过计算损失函数梯度 ∇L 判断“惊喜”程度:
- 小梯度 = 预测准确 = 低惊喜 = 无需存储
- 大梯度 = 预测失败 = 高惊喜 = 优先记忆
此机制优雅模拟人类“情感增强记忆”现象。
非欧几里得优化空间
传统模型局限于欧几里得几何(点积、直线距离)。
MIRAS 引入更丰富数学工具:
- Huber Loss(抗异常值)
- 广义 p-范数(灵活距离度量)
- 概率流形优化(保证稳定性)
显著提升模型表达力与鲁棒性。
实际应用场景
1. 全文档理解与问答
- 法律合同分析(数百页)
- 学术论文深度阅读
- 技术文档智能检索
2. 基因组学研究
- 完整基因组序列分析
- 疾病关联模式识别
- 进化生物学研究
3. 长期对话系统
- 多轮次深度咨询
- 心理健康支持机器人
- 客户服务历史上下文管理
4. 时间序列预测
- 金融市场趋势分析
- 气候建模
- 工业设备预测性维护
与现有技术的对比
Titans vs. Transformer
| 维度 | Transformer | Titans |
|---|---|---|
| 计算复杂度 | O(n²) | O(n) |
| 长上下文能力 | 受限(通常 < 32K) | 强大(200 万+ tokens) |
| 推理速度 | 慢(自回归) | 快(线性) |
| 记忆机制 | 注意力(固定) | 深度神经网络(动态) |
| 训练效率 | 中等 | 高(可并行) |
Titans vs. Mamba-2
| 维度 | Mamba-2 | Titans |
|---|---|---|
| 速度 | 快 | 快 |
| 记忆容量 | 固定向量 | 深度网络 |
| 信息保留 | 有损压缩 | 智能选择性存储 |
| 长文档性能 | 中等 | 优秀 |
| 理论基础 | SSM | MIRAS(更通用) |
局限性与未来方向
当前挑战
1. 记忆更新开销
智能更新深度记忆模块仍有一定计算负担,需探索稀疏更新策略。
2. 超长序列部署
200 万 token 能力已在实验验证,生产环境的内存管理与分布式推理需进一步优化。
3. 多模态扩展
目前主要验证于文本与DNA序列,视觉、音频等模态适配尚待研究。
未来研究方向
1. 神经符号整合
结合符号推理与神经记忆,提升知识可解释性。
2. 持续学习
扩展测试时记忆化至终身学习场景,实现知识累积。
3. 个性化记忆配置
按用户或任务动态调整“惊喜阈值”与记忆优先级。
4. 边缘设备部署
优化架构以支持移动端与IoT设备高效运行。
理论意义:重新思考智能
记忆 = 选择性注意 + 抽象压缩
智能系统的记忆应具备:
- 选择性:通过“惊喜”信号决定存储内容
- 抽象化:深度网络实现多层次信息表示
- 动态性:实时调整记忆结构
统一视角:所有模型都是记忆系统
MIRAS 揭示不同架构的本质联系,推动研究从“哪个架构更好”转向“如何处理记忆”这一根本问题,并鼓励探索四大设计维度的组合创新。
生物启发的计算原理
Titans 的“惊喜驱动记忆”对应人类海马体功能:
- 新奇检测
- 模式分离
- 记忆巩固
表明:深入理解大脑机制,或将催生更强大的 AI 架构。
结论:长上下文 AI 的新纪元
Titans 与 MIRAS 标志着序列建模的重大跃迁:
🎯 技术突破:
- 深度神经网络作为动态记忆模块
- 推理阶段实时学习与参数更新
- 突破固定状态向量限制
🎯 理论贡献:
- 统一视角整合各类序列模型
- 揭示在线优化与记忆机制的内在联系
- 超越欧几里得范式,拓展设计空间
🎯 实际价值:
- RNN 效率 + Transformer 表达力
- 支持 200 万+ token 上下文
- 在文本、基因组、时间序列等多领域验证有效
这不仅是新架构,更是对“AI 如何记忆”的深刻重构。随着信息复杂度提升,智能选择、分层抽象、实时适应将成为下一代 AI 的核心能力。
长上下文 AI 的时代已经到来。

