大数跨境

大模型能“原地”改参数了!字节Seed&北大新论文:测试时推理无需加层重训练

大模型能“原地”改参数了!字节Seed&北大新论文:测试时推理无需加层重训练 量子位
2026-04-10
1
导读:即插即用
量子位报道

字节Seed最新研究实现大模型"原地改参数",无需调整模型结构或重新训练,显著提升推理时学习能力。

该技术解决当前测试时训练(TTT)的三大瓶颈:避免新增网络层导致的架构重构,突破逐Token更新的计算效率限制,并实现与语言模型"预测下一Token"任务的核心对齐。

针对复杂智能体应用场景中长上下文处理难题,字节Seed与北京大学研究团队提出In-Place TTT(原地测试时训练)方案。该技术复用Transformer现有MLP模块作为动态参数载体,实现即插即用升级预训练模型。

实验表明,Qwen3-4B、Llama3.1-8B等模型集成后,在128K-256K长文本任务中性能显著提升,该论文已入选ICLR 2026 Oral。

核心技术创新

架构无损集成

复用Transformer标准MLP模块的投影矩阵作为快速权重,在推理时原地更新。避免新增专用层,适配现有预训练模型体系。

语言模型目标对齐

重构优化目标,通过一维卷积融合未来Token信息,使参数更新机制直接服务于"预测下一Token"任务,提升上下文学习效能。

块级并行优化

保留原始注意力层的同时,实现分块参数更新机制。结合上下文并行技术,显著提高长文本处理吞吐量与计算效率。

在Qwen3-4B等模型验证中,该方案在长上下文任务表现全面超越现有TTT方法。

研究团队

论文由字节Seed与北京大学联合完成,一作为北大字节Seed实习生冯古豪与罗胜杰。通讯作者包括北贺笛教授与字节Seed研究员Wenhao Huang。

论文地址:https://arxiv.org/abs/2604.06169v1

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14991
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读175.2k
粉丝0
内容15.0k