RLMs让AI 终于学会了"分而治之"，超强记忆不是梦！- 大数跨境

首页

RLMs让AI 终于学会了"分而治之"，超强记忆不是梦！

林悦己AI出海

2026-01-05

导读：The Age of Recursive Reasoning is here

再也不怕AI失忆了：MIT与Prime Intellect提出递归语言模型（RLM）

MIT与Prime Intellect联合发布的论文《Recursive Language Models》（RLM），首次系统性解决大模型长上下文处理中的性能衰减与“上下文腐化”（context rot）难题。

传统长上下文处理的三大痛点

当前主流大模型（如GPT-5，上下文窗口达272K tokens）在处理百万级token输入时，面临严重瓶颈：

性能随长度增加快速下降，关键信息易丢失；
需人工拆分文档、多次调用API并整合结果；
高成本、低可靠性，部分任务根本无法完成。

RLM另辟路径：不靠“硬塞”长文本，而是让模型学会主动管理上下文——通过代码驱动、分而治之、递归调用子模型，实现高效推理。

RLM是什么？

技术本质

RLM是一种基于外部环境交互的新型推理范式。它将长提示词存入Python REPL环境作为变量（如context），模型仅读取其元信息（长度、结构等），再通过编写代码完成三类核心操作：

探查与分解输入（如print(context[:1000])）；
调用工具（正则匹配、搜索等）过滤关键信息；
递归调用子LLM处理局部任务（llm_query()）。

相当于为Transformer嵌入一个轻量级“操作系统”，支持内存管理与子进程调度。

通俗理解：RLM赋予AI“递归调用自身”的能力——像项目经理统筹多个“小助手”（即模型副本），分工协作完成复杂任务。

RLM如何工作？

其流程分为三阶段：

输入阶段：长文本不进入模型上下文窗口，仅以变量形式存储于Python环境；
核心处理：模型生成代码执行三项操作：
• 探查上下文（查看结构/片段）；
• 过滤信息（关键词或正则提取）；
• 递归分解（调用llm_query()交由子模型处理）；
输出优化：子模型结果暂存变量（如buffer），主模型可多轮迭代修正，最终通过FINAL(answer)输出。

类比图书馆检索：
• 传统LLM：管理员试图背下全部100万本书名，极易出错；
• RLM：管理员先查索引定位区域（A2/C5），再派助手精准取书，最后汇总结果。
本质是**从记忆比拼转向搜索策略**。

谁需要关注RLM？

开发者与工程师

显著提升大型代码库的理解与维护效率。例如提问“项目认证流程如何实现”，RLM可自动遍历数十个文件，定位相关代码并给出解释。

在LongBench-v2 CodeQA任务（代码库规模23K–420万tokens）中，RLM(GPT-5)准确率达62%，远超基础GPT-5的24%。

企业与产品团队

适用于海量客户反馈分析、合同审查、知识库问答等场景。指令如“分析最近1000条客户反馈中关于‘账单问题’的所有提及，并按严重程度分类”，RLM可全自动完成。

因采用选择性读取机制，RLM中位数调用成本甚至低于基础模型，兼顾效果与经济性。

实测性能：四大任务全面领先

DeepDive（深度研究）

场景：跨多文档复杂推理
结果：RLM(GPT-5)准确率91.33%，基础模型为0%（超出上下文窗口）
意义：支持600–1100万tokens输入，相当于数千页学术论文

OOLONG（信息聚合）

场景：长文本中提取并聚合指定信息
结果：RLM(GPT-5)准确率56.5%，基础GPT-5为44%
意义：在适配长度下仍提升28.4%

OOLONG-Pairs（二次方复杂度任务）

场景：文本内所有配对信息对比（复杂度∝长度²）
结果：RLM(GPT-5) F1达58%，基础GPT-5仅0.04%
意义：将几乎不可解任务提升至实用水平

CodeQA（代码理解）

场景：理解大型代码仓库并回答多选题
结果：RLM(GPT-5)准确率62%，基础GPT-5为24%
意义：跨文件推理能力提升2.6倍

上下文越长，RLM优势越明显

短文本（<16K tokens）：基础模型响应更快；
中长文本（16K–262K）：RLM开始显著超越；
超长文本（>262K）：基础模型性能崩溃，RLM保持稳定。

RLM的价值不在于“更快”，而在于“能做以前做不到的事”。

RLM的涌现行为

1. 智能过滤：关键词驱动裁剪

在BrowseComp-Plus任务中，RLM(GPT-5)先用正则搜索关键词（如“festival”“La Union”），仅将匹配片段送入子模型，大幅压缩token用量。

2. 递归验证：子模型交叉校验

对关键结论，RLM会调用另一子模型进行独立验证，以提升结果可信度。

3. 迭代改进：支持“打草稿”式生成

在逐字复制任务中，RLM先生成初稿→检查→用代码修正错误（如answer = answer.replace("错误", "正确")）→迭代提交终稿。该策略非预设，属框架内自主演化。

这些行为未被显式编程，印证了RLM框架对高级推理策略的天然支持——也为未来通过强化学习训练专用RLM模型奠定基础。

成本与效率表现

尽管RLM涉及多次子模型调用，但得益于选择性读取机制，多数任务总成本低于基础模型：

OOLONG任务：RLM(GPT-5)平均成本$0.43，基础GPT-5为$0.14；但后者准确率低28%，考虑重试成本，RLM更具性价比；
当前为串行调用，延迟较高；若改用并行架构，速度可大幅提升；
不同模型调用策略差异明显：
• GPT-5偏保守，依赖代码过滤；
• Qwen3-Coder高频调用子模型，成本高但准确率更高。

RLM意味着什么？

RLM将百万级token处理这一原本昂贵、专业的能力，转化为普惠型基础设施：

告别超高API费用；
减少人工分块与整合；
突破“不可行”边界，启用新场景。

典型应用包括：

文档助手：上传千页合同，自动识别全部风险条款；
代码审查：直接提问“项目存在哪些安全漏洞？”，AI遍历全库生成报告；
研究助理：输入百篇论文，自动生成结构化文献综述。

RLM是一个**模型无关的通用推理范式**——理论上任何LLM均可接入。随着专用RLM模型迭代演进，性能将持续跃升。

The Age of Recursive Reasoning is here.

【声明】内容源于网络

林悦己AI出海

1234

内容 52

粉丝 0

林悦己AI出海 1234

总阅读684

粉丝0

内容52