科情智库
在2025年神经信息处理系统大会(NeurIPS 2025)上,谷歌发布两项大模型新架构Titans和MIRAS,通过“测试时训练”机制,能在推理阶段将上下文窗口扩展至200万token。其中,Titans引入了一种新的神经长期记忆模块,相较传统循环神经网络(RNN)中固定大小的向量或矩阵记忆,该模块本质上是一个在测试时动态更新权重的多层感知机,在推理阶段仍可持续更新记忆模块。该模块能显著提升模型的表达能力,使其在不丢失重要上下文的情况下概括并理解大量信息。MIRAS核心目标是让模型在推理阶段也能进行学习,通过将不同的架构视为解决同一问题的不同途径,高效地将新信息与旧信息相结合,同时又不遗漏关键概念。同时,引入非欧几里得目标函数,允许使用更复杂的数学惩罚机制。实验结果显示,基于Titans和MIRAS的模型性能优于最先进的线性循环模型(如Mamba 2),以及规模相近的Transformer基线模型。同时,新架构能够处理极长上下文,在参数规模小得多的情况下,性能优于GPT-4等大规模模型。
来源:领域中心供稿
推荐阅读 >

