大数跨境
0
0

谷歌新发现:让AI拥有长期记忆的突破性技术!

谷歌新发现:让AI拥有长期记忆的突破性技术! 林悦己AI出海
2025-12-09
1
导读:Google Research 发布了两篇可能改写 AI 长上下文处理游戏规则的paper,架构层面的突破

Google Research 的重磅突破

2025年初,Google Research 发布了两篇可能重塑 AI 长上下文处理格局的论文:Titans 和 MIRAS。

这并非渐进式优化,而是架构层面的根本性突破:

  • 处理能力:支持200 万+ token的超长上下文(相当于6-8本完整小说)
  • 速度革命:保持 RNN 级别的线性推理速度
  • 精度超越:在 BABILong 基准测试中超越 GPT-4(尽管参数量更少)
  • 实时学习:首次实现“测试时记忆化”——模型在推理过程中动态学习新信息

为何重要?

随着 AI 应用向全文档分析、基因组研究、长期记忆对话系统扩展,上下文长度已成为核心竞争维度。OpenAI、Anthropic、Google 持续加码,而 Titans + MIRAS 或已实现技术弯道超车。

技术困境:速度与准确性的不可能三角

此前,AI 研究面临两难:

Transformer 架构依赖注意力机制,能精准追溯历史输入,但计算复杂度为 O(n²),处理长序列时成本急剧上升,32K token 已接近极限。

研究者转向RNNSSM(如 Mamba-2),其通过压缩上下文为固定状态向量实现 O(n) 线性扩展。虽速度快,但信息压缩导致细节丢失,如同将百科全书浓缩为一张便签。

Google 的答案:Titans + MIRAS

Titans 是具体架构实现,“工具”;MIRAS 是理论框架,“蓝图”。二者共同提出的核心思想是:

不妥协于速度与准确性,而是重新设计记忆机制本身。

通过引入深度神经网络作为长期记忆模块,并结合“惊喜驱动”的智能选择机制,Titans 实现了兼具 RNN 速度与 Transformer 信息保留能力的目标。

这不仅是对现有架构的修补,而是从第一性原理重构“AI 如何记忆”。若说 Transformer 开启了“Attention is All You Need”,Titans + MIRAS 或正开启“Memory is All You Need”的新纪元。

Titans:运行时可学习的记忆系统

核心理念:模仿人脑的双重记忆机制

人类大脑区分短期记忆(工作记忆)与长期记忆。临时信息短暂留存,关键内容经强化后进入长期记忆。

Titans 采用类似设计:

  • 短期记忆:传统注意力机制,快速精确
  • 长期记忆:全新深度神经网络模块(MLP)

突破点:深度神经网络作为记忆载体

传统 RNN 记忆为固定大小向量,信息表达受限。

Titans 的长期记忆是一个深度神经网络,具备以下能力:

  • 理解并合成复杂概念关系
  • 在多抽象层次存储信息
  • 动态调整表示能力

“惊喜指标”:智能选择性记忆机制

灵感来自人类心理:日常琐事易忘,意外事件印象深刻。

工作原理:以梯度作为“惊喜传感器”

  

当前记忆状态:讨论动物

新输入:"cat"(猫)

梯度小 → 符合预期 → 跳过存储

  

当前记忆状态:分析金融报告

新输入:香蕉皮图片

梯度大 → 完全意外 → 优先存入长期记忆

该机制使模型自动识别并保留关键异常信息。

精细化控制:动量与遗忘机制

1. 动量(Momentum)
综合瞬时与历史“惊喜”信号。例如在侦探小说中,即使“管家拿起手套”单独看无奇,因上下文关联仍被记录。

2. 自适应遗忘(Weight Decay)
主动清理无关旧信息,保留关键记忆,模拟人类自然遗忘机制。

MIRAS:统一序列模型的理论框架

革命性洞察:所有模型本质相同

MIRAS(Memory-Inspired Recurrent Attention and Scaling)提出:无论是 Transformer、RNN 还是 Mamba,本质上都是关联记忆模块的不同实现。

不同架构如同不同车型,外形各异,但核心任务一致:高效整合新旧信息,防止关键知识被覆盖。

MIRAS 的四个设计维度

1. 记忆架构(Memory Architecture)

  • 信息存储结构:向量、矩阵或深度 MLP

2. 注意力偏好(Attentional Bias)

  • 内部学习目标,决定信息关注优先级

3. 保留门控(Retention Gate)

  • 记忆正则化器,平衡新学习与旧知识保留

4. 记忆算法(Memory Algorithm)

  • 更新记忆的优化方法,如梯度下降变体

超越 MSE 范式

传统模型依赖均方误差(MSE)点积相似度,存在两大缺陷:

  • 对异常值敏感(拼写错误影响整体理解)
  • 表达能力受限(仅线性组合)

MIRAS 的突破:构建生成式框架,探索非欧几里得目标函数与正则化方法,拓展模型设计空间。

基于 MIRAS 的三个创新模型

YAAD(温和的鲁棒卫士)

  • 采用 Huber Loss,对错误惩罚更温和
  • 适合处理混乱、不一致输入

MONETA(纪律严明的记忆大师)

  • 使用广义范数,施加严格数学约束
  • 探索规则化记忆是否带来更强稳定性

MEMORA(概率平衡专家)

  • 强制记忆遵循概率分布
  • 确保信息整合过程受控与稳定

实验验证:数据说话

对比基准

研究团队将 Titans 及 MIRAS 变体与主流架构对比:

  • Transformer++
  • Mamba-2
  • Gated DeltaNet

测试任务涵盖:

  • 语言建模(C4、WikiText)
  • 零样本推理(HellaSwag、PIQA)
  • 基因组建模
  • 时间序列预测

关键发现 1:记忆深度至关重要

消融研究表明:记忆模块深度是性能关键

  • 更深记忆 → 更低困惑度
  • 更深记忆 → 更好扩展性
  • 长序列下性能更稳定

直观理解:深度网络可在多个抽象层级存储信息,如同多层书架优于单层桌面。

关键发现 2:语言建模效率双赢

Titans 在语言建模与常识推理中表现优异:

  • 优于同等规模的 Mamba-2 与 Gated DeltaNet
  • 优于 Transformer++ 基准
  • MIRAS 变体(YAAD、MONETA、MEMORA)亦有提升
  • 保持高效并行训练与线性推理速度

证明非 MSE 优化机制具有显著价值。

关键发现 3:极限长上下文能力

最震撼结果:在需跨文档推理的BABILong 基准中:

  • 🏆 超越所有基准模型
  • 🏆 超越 GPT-4(参数量更少)
  • 🏆 支持200 万+ token上下文

实际意义:

  • 处理整本书籍(如《哈利波特》全集约107万词)
  • 分析完整人类基因组(30亿碱基对)
  • 解析数小时会议录音或对话记录

技术深度解析

Test-Time Memorization(测试时记忆化)

Titans 核心创新之一。

传统模型:训练后参数固定,推理阶段无法更新。

  

训练阶段 → 固定参数 → 推理阶段

Titans:推理阶段实时更新参数,动态学习。

  

推理阶段 → 实时更新 → 动态适应

如同学生边考试边学习新知识。

梯度作为“惊喜”的数学表达

模型通过计算损失函数梯度 ∇L 判断“惊喜”程度:

  • 小梯度 = 预测准确 = 低惊喜 = 无需存储
  • 大梯度 = 预测失败 = 高惊喜 = 优先记忆

此机制优雅模拟人类“情感增强记忆”现象。

非欧几里得优化空间

传统模型局限于欧几里得几何(点积、直线距离)。

MIRAS 引入更丰富数学工具:

  • Huber Loss(抗异常值)
  • 广义 p-范数(灵活距离度量)
  • 概率流形优化(保证稳定性)

显著提升模型表达力与鲁棒性。

实际应用场景

1. 全文档理解与问答

  • 法律合同分析(数百页)
  • 学术论文深度阅读
  • 技术文档智能检索

2. 基因组学研究

  • 完整基因组序列分析
  • 疾病关联模式识别
  • 进化生物学研究

3. 长期对话系统

  • 多轮次深度咨询
  • 心理健康支持机器人
  • 客户服务历史上下文管理

4. 时间序列预测

  • 金融市场趋势分析
  • 气候建模
  • 工业设备预测性维护

与现有技术的对比

Titans vs. Transformer

维度 Transformer Titans
计算复杂度 O(n²) O(n)
长上下文能力 受限(通常 < 32K) 强大(200 万+ tokens)
推理速度 慢(自回归) 快(线性)
记忆机制 注意力(固定) 深度神经网络(动态)
训练效率 中等 高(可并行)

Titans vs. Mamba-2

维度 Mamba-2 Titans
速度
记忆容量 固定向量 深度网络
信息保留 有损压缩 智能选择性存储
长文档性能 中等 优秀
理论基础 SSM MIRAS(更通用)

局限性与未来方向

当前挑战

1. 记忆更新开销
智能更新深度记忆模块仍有一定计算负担,需探索稀疏更新策略。

2. 超长序列部署
200 万 token 能力已在实验验证,生产环境的内存管理与分布式推理需进一步优化。

3. 多模态扩展
目前主要验证于文本与DNA序列,视觉、音频等模态适配尚待研究。

未来研究方向

1. 神经符号整合
结合符号推理与神经记忆,提升知识可解释性。

2. 持续学习
扩展测试时记忆化至终身学习场景,实现知识累积。

3. 个性化记忆配置
按用户或任务动态调整“惊喜阈值”与记忆优先级。

4. 边缘设备部署
优化架构以支持移动端与IoT设备高效运行。

理论意义:重新思考智能

记忆 = 选择性注意 + 抽象压缩

智能系统的记忆应具备:

  1. 选择性:通过“惊喜”信号决定存储内容
  2. 抽象化:深度网络实现多层次信息表示
  3. 动态性:实时调整记忆结构

统一视角:所有模型都是记忆系统

MIRAS 揭示不同架构的本质联系,推动研究从“哪个架构更好”转向“如何处理记忆”这一根本问题,并鼓励探索四大设计维度的组合创新。

生物启发的计算原理

Titans 的“惊喜驱动记忆”对应人类海马体功能:

  • 新奇检测
  • 模式分离
  • 记忆巩固

表明:深入理解大脑机制,或将催生更强大的 AI 架构。

结论:长上下文 AI 的新纪元

Titans 与 MIRAS 标志着序列建模的重大跃迁:

🎯 技术突破:

  • 深度神经网络作为动态记忆模块
  • 推理阶段实时学习与参数更新
  • 突破固定状态向量限制

🎯 理论贡献:

  • 统一视角整合各类序列模型
  • 揭示在线优化与记忆机制的内在联系
  • 超越欧几里得范式,拓展设计空间

🎯 实际价值:

  • RNN 效率 + Transformer 表达力
  • 支持 200 万+ token 上下文
  • 在文本、基因组、时间序列等多领域验证有效

这不仅是新架构,更是对“AI 如何记忆”的深刻重构。随着信息复杂度提升,智能选择、分层抽象、实时适应将成为下一代 AI 的核心能力。

长上下文 AI 的时代已经到来。

【声明】内容源于网络
0
0
林悦己AI出海
1234
内容 40
粉丝 0
林悦己AI出海 1234
总阅读288
粉丝0
内容40