MIT团队推出递归语言模型！不改架构、不扩窗口，上下文处理能力扩展百倍- 大数跨境

首页

MIT团队推出递归语言模型！不改架构、不扩窗口，上下文处理能力扩展百倍

DeepTech深科技

2026-01-04

导读：新年伊始，MIT CSAIL 的一纸论文在学术圈引发了不小的讨论。

MIT提出递归语言模型（RLM），突破长文本处理瓶颈

新年伊始，麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）在arXiv发布题为《Recursive Language Models》的论文，由Alex L. Zhang、Tim Kraska与Omar Khattab共同提出“递归语言模型”（Recursive Language Models，RLM）。该方案不修改模型架构，而是构建推理时框架，使大模型可有效处理超出其原生上下文窗口两个数量级的超长输入。

图丨相关论文（来源：arXiv）

上下文扩展的“军备竞赛”遭遇现实瓶颈

2025年以来，主流大模型持续扩大上下文窗口：Gemini达百万token，Llama宣称支持千万token。但Chroma公司2025年中发布的《Context Rot》技术报告指出，包括GPT-4.1、Claude 4、Gemini 2.5、Qwen3在内的18款模型，在“大海捞针”（NIAH）等基础任务中，准确率随输入长度增长显著下滑，该现象被命名为“上下文腐烂”（context rot） [2] 。当任务需语义推理而非字面匹配时，性能衰减更早、更剧烈 [2] 。

图丨Claude Sonnet 4、GPT-4.1、Qwen3-32B 和 Gemini 2.5 在重复词任务上的表现（来源：Chroma Research）

现有长文本方案的局限性

当前主流方案包括三类：一是“上下文压缩”，通过摘要缩减输入，但存在信息损失风险；二是检索增强生成（RAG），依赖向量库切块与检索质量，难以支撑跨文档综合推理；三是递归任务分解，仍受限于模型原生窗口，无法真正突破容量边界。

RLM：将长文本视为可编程外部环境

RLM另辟路径，借鉴“外存算法”思想，将长文本作为独立Python REPL环境中的字符串变量，由模型编写代码按需访问——如打印片段、正则搜索、分章节提取，并支持调用子模型处理子任务，形成“执行→观察→决策→再执行”的迭代闭环。对外接口与普通语言模型一致，仅内部机制升级。

图丨递归语言模型将提示视为环境的一部分（来源：arXiv）

实验验证：复杂任务性能跃升

论文在四类基准任务上测试RLM效果：S-NIAH（简单定位）、OOLONG（线性复杂度语义分类）、OOLONG-Pairs（平方级用户对识别）、BrowseComp-Plus（千文档跨文档推理，总token量达600–1100万）。结果显示：

OOLONG-Pairs任务中，裸跑GPT-5与Qwen3-Coder的F1均低于0.1%，启用RLM后GPT-5达58%，Qwen3-Coder达23%；
BrowseComp-Plus场景下，RLM（GPT-5）准确率达91.33%，显著高于上下文压缩（约70%）和检索工具代理（51%）；
成本方面，RLM因选择性读取，部分任务开销反低于全量输入的基础模型调用。

图丨不同方法在复杂程度不同的长上下文基准测试中的性能对比（来源：arXiv）

挑战与未来方向

RLM在短输入或简单任务中效率不及基础模型；当前同步阻塞式子模型调用导致端到端延迟较高，异步与并行化是优化重点。此外，固定系统提示词未做任务适配，且在REPL中自主编写/执行代码带来安全隔离与行为可控性新挑战。作者展望：未来或将出现专为RLM范式训练的模型，并通过强化学习或知识蒸馏进一步优化递归推理轨迹。

【声明】内容源于网络

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

内容 4879

粉丝 0

DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

总阅读30.2k

粉丝0

内容4.9k