大数跨境
0
0

谷歌提出新架构,突破Transformer超长上下文瓶颈

谷歌提出新架构,突破Transformer超长上下文瓶颈 科情智库
2025-12-30
2

科情智库


在2025年神经信息处理系统大会(NeurIPS 2025)上,谷歌发布两项大模型新架构Titans和MIRAS,通过“测试时训练”机制,能在推理阶段将上下文窗口扩展至200万token。其中,Titans引入了一种新的神经长期记忆模块,相较传统循环神经网络(RNN)中固定大小的向量或矩阵记忆,该模块本质上是一个在测试时动态更新权重的多层感知机,在推理阶段仍可持续更新记忆模块。该模块能显著提升模型的表达能力,使其在不丢失重要上下文的情况下概括并理解大量信息。MIRAS核心目标是让模型在推理阶段也能进行学习,通过将不同的架构视为解决同一问题的不同途径,高效地将新信息与旧信息相结合,同时又不遗漏关键概念。同时,引入非欧几里得目标函数,允许使用更复杂的数学惩罚机制。实验结果显示,基于Titans和MIRAS的模型性能优于最先进的线性循环模型(如Mamba 2),以及规模相近的Transformer基线模型。同时,新架构能够处理极长上下文,在参数规模小得多的情况下,性能优于GPT-4等大规模模型。


来源:领域中心供稿


推荐阅读 >

国内外数字科技创新实践经验对浙江省数字科技创新中心建设的启示

地球科学数据FAIR化治理定量评估实践

【国际能源领域动态监测】德国全球最大垂直漂浮光伏电站投运

【声明】内容源于网络
0
0
科情智库
宣传科技信息资源及科技情报研究成果,关注产业最新动态、发展热点和重大变革,为科技创新提供新媒体渠道。
内容 2085
粉丝 0
科情智库 宣传科技信息资源及科技情报研究成果,关注产业最新动态、发展热点和重大变革,为科技创新提供新媒体渠道。
总阅读251
粉丝0
内容2.1k