大数跨境
0
0

学术分享丨MIT新论文:2026推理模型过时了,“套娃模型”当立

学术分享丨MIT新论文:2026推理模型过时了,“套娃模型”当立 中国人工智能学会
2026-01-05
8
转自 量子位

推理模型是否正面临范式更迭?MIT最新研究提出“递归语言模型”(RLM),以代码驱动的新型架构,将上下文处理能力推向千万级Token量级,显著缓解“上下文腐烂”,并降低推理成本。

该方法被业界称为“套娃模型”,核心在于将长文本存入外部Python REPL环境,由大模型作为Agent生成并执行代码,动态读取、拆解、递归调用子模型处理子任务。

不同于传统将全文直接喂入注意力机制的做法,RLM解耦了输入长度与模型上下文窗口的强绑定关系,处理能力仅受限于物理内存。

通过“编写代码→执行→观测结果”的认知循环,模型可按需索引关键片段,自发运用正则匹配等编程手段过滤信息,大幅节省Token消耗。

代码驱动的递归推理

RLM将自然语言任务重构为交互式编程任务:长文本作为静态字符串变量载入Python环境,主模型以Agent身份生成代码,对变量执行读写、切分、调用子模型等操作。

递归调用机制允许模型针对每个文本片段启动轻量子模型,并将输出存为新变量;主模型再通过代码聚合、判断、拼接结果,形成多层级深度推理——每层均在原生上下文窗口内运行。

该架构实质构建了一个外部可编程工作记忆空间,使模型无需修改权重即可实现高复杂度长文本逻辑推理。

突破千万级Token的性能极限

实验显示,RLM有效处理规模达1000万Token,超出GPT-5等前沿模型两个数量级。在OOLONG、OOLONG-Pairs等高密度长文本推理任务中,RLM显著优于基础模型:GPT-5在OOLONG-Pairs任务F1达58.00%,Qwen3-Coder达23.11%,而基础模型不足0.1%。

面对“上下文腐烂”,RLM在输入超阈值后仍保持得分稳定;在BrowseComp-Plus测试中,处理600万–1100万Token时,RLM平均成本仅0.99美元,低于GPT-5-mini(1.50–2.75美元)及Summary Agent方案。

作者简介

论文第一作者为MIT CASIL实验室博士生Alex Zhang,普林斯顿大学计算机科学系本科第一名毕业。研究方向涵盖大模型能力评估、机器学习系统、GPU编程及代码生成AI。

通讯作者Omar Khattab与Tim Kraska均为MIT助理教授,是Alex的导师。

论文地址:
https://arxiv.org/abs/2512.24601

【声明】内容源于网络
0
0
中国人工智能学会
中国人工智能学会官方订阅号,为广大智能科技工作者提供前沿资讯,学术分享,科普信息的的多媒体平管
内容 8117
粉丝 0
中国人工智能学会 中国人工智能学会官方订阅号,为广大智能科技工作者提供前沿资讯,学术分享,科普信息的的多媒体平管
总阅读46.3k
粉丝0
内容8.1k