克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
推理模型是否正在过时?MIT最新提出的递归语言模型(RLM),即业内所称的“套娃模型”,在上下文处理能力上实现突破:有效支持千万级Token输入,较GPT-5等主流模型原生窗口提升两个数量级。
该范式大幅缓解长文本任务中的“上下文腐烂”问题,同时显著降低推理成本,展现出更高性价比与工程落地潜力。
RLM并非直接扩大模型注意力范围,而是将长文本存入外部Python REPL环境作为静态字符串变量,由大模型以Agent身份编写并执行代码进行按需读取、切分与递归调用。
其核心机制是构建“编写代码–执行–观察结果”的认知循环,并通过特殊接口启动子模型实例处理子任务,输出结果统一存于Python变量中供主模型整合,从而实现多层级、局部化、低开销的深度推理。
实验表明,RLM在S-NIAH、OOLONG及OOLONG-Pairs等高难度长文本基准测试中表现突出:对OOLONG-Pairs任务,GPT-5+RLM达58.00% F1分数,远超基础GPT-5不足0.1%的水平。
代码驱动的递归推理
RLM重构传统Prompt输入范式,引入外部Python环境,将超长文本作为内存变量管理,解耦输入长度与模型自身上下文窗口限制,使处理规模仅受限于物理内存。
模型通过生成正则表达式等程序工具实施关键词检索、片段提取与动态拼接,形成可编程的工作记忆空间,在未改动网络权重前提下增强逻辑推理与信息整合能力。
突破千万级Token的性能极限
RLM实测支持最高1000万Token输入,在BrowseComp-Plus等基准中,GPT-5-mini+RLM处理600万–1100万Token平均成本仅0.99美元,低于全量阅读方案(1.50–2.75美元)及摘要压缩方案。
其按需读取策略打破了“上下文越长、成本越高”的线性规律,为长文本AI应用提供了高性能、低成本、高稳定性的新路径。
作者简介
论文第一作者为MIT CASIL实验室博士生Alex Zhang,本科毕业于普林斯顿大学计算机科学系,以专业第一成绩毕业;研究方向聚焦语言模型评估、机器学习系统、GPU编程及AI代码生成。
共同作者Omar Khattab与Tim Kraska均为MIT助理教授,系Alex的导师。

