MIT提出递归语言模型(RLM),突破长文本处理瓶颈
新年伊始,麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)在arXiv发布题为《Recursive Language Models》的论文,由Alex L. Zhang、Tim Kraska与Omar Khattab共同提出“递归语言模型”(Recursive Language Models,RLM)。该方案不修改模型架构,而是构建推理时框架,使大模型可有效处理超出其原生上下文窗口两个数量级的超长输入。
图丨相关论文(来源:arXiv)
上下文扩展的“军备竞赛”遭遇现实瓶颈
2025年以来,主流大模型持续扩大上下文窗口:Gemini达百万token,Llama宣称支持千万token。但Chroma公司2025年中发布的《Context Rot》技术报告指出,包括GPT-4.1、Claude 4、Gemini 2.5、Qwen3在内的18款模型,在“大海捞针”(NIAH)等基础任务中,准确率随输入长度增长显著下滑,该现象被命名为“上下文腐烂”(context rot) [2] 。当任务需语义推理而非字面匹配时,性能衰减更早、更剧烈 [2] 。
图丨Claude Sonnet 4、GPT-4.1、Qwen3-32B 和 Gemini 2.5 在重复词任务上的表现(来源:Chroma Research)
现有长文本方案的局限性
当前主流方案包括三类:一是“上下文压缩”,通过摘要缩减输入,但存在信息损失风险;二是检索增强生成(RAG),依赖向量库切块与检索质量,难以支撑跨文档综合推理;三是递归任务分解,仍受限于模型原生窗口,无法真正突破容量边界。
RLM:将长文本视为可编程外部环境
RLM另辟路径,借鉴“外存算法”思想,将长文本作为独立Python REPL环境中的字符串变量,由模型编写代码按需访问——如打印片段、正则搜索、分章节提取,并支持调用子模型处理子任务,形成“执行→观察→决策→再执行”的迭代闭环。对外接口与普通语言模型一致,仅内部机制升级。
图丨递归语言模型将提示视为环境的一部分(来源:arXiv)
实验验证:复杂任务性能跃升
论文在四类基准任务上测试RLM效果:S-NIAH(简单定位)、OOLONG(线性复杂度语义分类)、OOLONG-Pairs(平方级用户对识别)、BrowseComp-Plus(千文档跨文档推理,总token量达600–1100万)。结果显示:
- OOLONG-Pairs任务中,裸跑GPT-5与Qwen3-Coder的F1均低于0.1%,启用RLM后GPT-5达58%,Qwen3-Coder达23%;
- BrowseComp-Plus场景下,RLM(GPT-5)准确率达91.33%,显著高于上下文压缩(约70%)和检索工具代理(51%);
- 成本方面,RLM因选择性读取,部分任务开销反低于全量输入的基础模型调用。
图丨不同方法在复杂程度不同的长上下文基准测试中的性能对比(来源:arXiv)
挑战与未来方向
RLM在短输入或简单任务中效率不及基础模型;当前同步阻塞式子模型调用导致端到端延迟较高,异步与并行化是优化重点。此外,固定系统提示词未做任务适配,且在REPL中自主编写/执行代码带来安全隔离与行为可控性新挑战。作者展望:未来或将出现专为RLM范式训练的模型,并通过强化学习或知识蒸馏进一步优化递归推理轨迹。

