大模型能“原地”改参数了！字节Seed&北大新论文：测试时推理无需加层重训练- 大数跨境

量子位

2026-04-10

导读：即插即用

量子位报道

字节Seed最新研究实现大模型"原地改参数"，无需调整模型结构或重新训练，显著提升推理时学习能力。

该技术解决当前测试时训练（TTT）的三大瓶颈：避免新增网络层导致的架构重构，突破逐Token更新的计算效率限制，并实现与语言模型"预测下一Token"任务的核心对齐。

针对复杂智能体应用场景中长上下文处理难题，字节Seed与北京大学研究团队提出In-Place TTT（原地测试时训练）方案。该技术复用Transformer现有MLP模块作为动态参数载体，实现即插即用升级预训练模型。

实验表明，Qwen3-4B、Llama3.1-8B等模型集成后，在128K-256K长文本任务中性能显著提升，该论文已入选ICLR 2026 Oral。

核心技术创新

复用Transformer标准MLP模块的投影矩阵作为快速权重，在推理时原地更新。避免新增专用层，适配现有预训练模型体系。

重构优化目标，通过一维卷积融合未来Token信息，使参数更新机制直接服务于"预测下一Token"任务，提升上下文学习效能。

保留原始注意力层的同时，实现分块参数更新机制。结合上下文并行技术，显著提高长文本处理吞吐量与计算效率。

在Qwen3-4B等模型验证中，该方案在长上下文任务表现全面超越现有TTT方法。

论文由字节Seed与北京大学联合完成，一作为北大字节Seed实习生冯古豪与罗胜杰。通讯作者包括北贺笛教授与字节Seed研究员Wenhao Huang。

论文地址：https://arxiv.org/abs/2604.06169v1

— 完 —

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 14991

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读175.2k

粉丝0

内容15.0k