【新智元导读】AI“记性差”难题获突破:MIT提出递归语言模型,让大模型学会返工重写
2025年12月31日,麻省理工学院(MIT)发布重磅论文《Recursive Language Models》(递归语言模型),直击当前大模型核心瓶颈——上下文腐化(context corruption):输入越长,模型表现越差,不是因“不聪明”,而是因“记不住”。
该方案本质简洁有力:让AI对同一任务进行2–4轮递归处理,即可显著提升准确率,无需增加参数或算力。
核心效果
- 在复杂推理任务中,仅增加2–4次递归调用,正确率提升10%–25%;
- 在超长文档理解任务(OOLONG测试集)中,GPT-5基座模型准确率为44%,RLM达56.5%;CodeQA任务中,RLM准确率62%,为基座模型(24%)的2.7倍;
- 在1000万+ token(相当于数十本书)规模下,传统模型完全失效,RLM仍保持稳定输出;
- 计算成本更低:在BrowseComp-Plus基准中,RLM平均成本0.99美元,低于GPT-5-mini直接处理的1.5–2.75美元。
技术原理:从“硬读全文”到“按需检索”
传统大模型将全部文本塞入上下文窗口,如同实习生被迫通读500页资料再作答,极易遗忘关键信息。RLM则引入“外置资料库+代码调用”范式:
- 将长文档作为外部变量存储,而非载入模型上下文;
- 模型通过Python REPL环境编写代码,按需提取片段(如
input_text[:1000]、正则搜索、分段处理); - 支持递归调用自身生成子任务,实现并行分析与结果聚合。
这相当于为AI配备目录系统与搜索引擎,使其摆脱工作台尺寸限制,理论上可处理无限长度文档。
深层意义:能力边界不在参数,而在使用方式
MIT研究揭示一个关键认知转变:大模型性能瓶颈,未必来自模型本身容量,而常源于单次前向推理的固有局限。让模型像人类一样“多想几遍”“边查边想”,就能大幅改善输出质量——初稿错误占多数,返工即修正。
这一思路已获业界广泛认同,多位AI领域专家在社交平台公开点赞。
未来方向
MIT指出,RLM仍处早期阶段,后续可优化三大方向:
- 异步执行:当前子任务串行运行,改为并行可进一步提速;
- 深度递归:允许子任务再次调用自身,应对更复杂推理链;
- 专用训练:基于递归范式微调或从头训练模型,释放更大潜力。
论文最后强调:下一代AI进化路径,或将从“堆参数”转向“练思维”——更小的模型,更深的思考。

