大数跨境
0
0

RLMs让AI 终于学会了"分而治之",超强记忆不是梦!

RLMs让AI 终于学会了"分而治之",超强记忆不是梦! 林悦己AI出海
2026-01-05
23
导读:The Age of Recursive Reasoning is here

再也不怕AI失忆了:MIT与Prime Intellect提出递归语言模型(RLM)

MIT与Prime Intellect联合发布的论文《Recursive Language Models》(RLM),首次系统性解决大模型长上下文处理中的性能衰减与“上下文腐化”(context rot)难题。

传统长上下文处理的三大痛点

当前主流大模型(如GPT-5,上下文窗口达272K tokens)在处理百万级token输入时,面临严重瓶颈:

  • 性能随长度增加快速下降,关键信息易丢失;
  • 需人工拆分文档、多次调用API并整合结果;
  • 高成本、低可靠性,部分任务根本无法完成。

RLM另辟路径:不靠“硬塞”长文本,而是让模型学会主动管理上下文——通过代码驱动、分而治之、递归调用子模型,实现高效推理。

RLM是什么?

技术本质

RLM是一种基于外部环境交互的新型推理范式。它将长提示词存入Python REPL环境作为变量(如context),模型仅读取其元信息(长度、结构等),再通过编写代码完成三类核心操作:

  • 探查与分解输入(如print(context[:1000]));
  • 调用工具(正则匹配、搜索等)过滤关键信息;
  • 递归调用子LLM处理局部任务(llm_query())。

相当于为Transformer嵌入一个轻量级“操作系统”,支持内存管理与子进程调度。

通俗理解:RLM赋予AI“递归调用自身”的能力——像项目经理统筹多个“小助手”(即模型副本),分工协作完成复杂任务。

RLM如何工作?

其流程分为三阶段:

  1. 输入阶段:长文本不进入模型上下文窗口,仅以变量形式存储于Python环境;
  2. 核心处理:模型生成代码执行三项操作:
     • 探查上下文(查看结构/片段);
     • 过滤信息(关键词或正则提取);
     • 递归分解(调用llm_query()交由子模型处理);
  3. 输出优化:子模型结果暂存变量(如buffer),主模型可多轮迭代修正,最终通过FINAL(answer)输出。

类比图书馆检索:
 • 传统LLM:管理员试图背下全部100万本书名,极易出错;
 • RLM:管理员先查索引定位区域(A2/C5),再派助手精准取书,最后汇总结果。
本质是**从记忆比拼转向搜索策略**。

谁需要关注RLM?

开发者与工程师

显著提升大型代码库的理解与维护效率。例如提问“项目认证流程如何实现”,RLM可自动遍历数十个文件,定位相关代码并给出解释。

在LongBench-v2 CodeQA任务(代码库规模23K–420万tokens)中,RLM(GPT-5)准确率达62%,远超基础GPT-5的24%。

企业与产品团队

适用于海量客户反馈分析、合同审查、知识库问答等场景。指令如“分析最近1000条客户反馈中关于‘账单问题’的所有提及,并按严重程度分类”,RLM可全自动完成。

因采用选择性读取机制,RLM中位数调用成本甚至低于基础模型,兼顾效果与经济性。

实测性能:四大任务全面领先

DeepDive(深度研究)

场景:跨多文档复杂推理
结果:RLM(GPT-5)准确率91.33%,基础模型为0%(超出上下文窗口)
意义:支持600–1100万tokens输入,相当于数千页学术论文

OOLONG(信息聚合)

场景:长文本中提取并聚合指定信息
结果:RLM(GPT-5)准确率56.5%,基础GPT-5为44%
意义:在适配长度下仍提升28.4%

OOLONG-Pairs(二次方复杂度任务)

场景:文本内所有配对信息对比(复杂度∝长度²)
结果:RLM(GPT-5) F1达58%,基础GPT-5仅0.04%
意义:将几乎不可解任务提升至实用水平

CodeQA(代码理解)

场景:理解大型代码仓库并回答多选题
结果:RLM(GPT-5)准确率62%,基础GPT-5为24%
意义:跨文件推理能力提升2.6倍

上下文越长,RLM优势越明显

  • 短文本(<16K tokens):基础模型响应更快;
  • 中长文本(16K–262K):RLM开始显著超越;
  • 超长文本(>262K):基础模型性能崩溃,RLM保持稳定。

RLM的价值不在于“更快”,而在于“能做以前做不到的事”。

RLM的涌现行为

1. 智能过滤:关键词驱动裁剪

在BrowseComp-Plus任务中,RLM(GPT-5)先用正则搜索关键词(如“festival”“La Union”),仅将匹配片段送入子模型,大幅压缩token用量。

2. 递归验证:子模型交叉校验

对关键结论,RLM会调用另一子模型进行独立验证,以提升结果可信度。

3. 迭代改进:支持“打草稿”式生成

在逐字复制任务中,RLM先生成初稿→检查→用代码修正错误(如answer = answer.replace("错误", "正确"))→迭代提交终稿。该策略非预设,属框架内自主演化。

这些行为未被显式编程,印证了RLM框架对高级推理策略的天然支持——也为未来通过强化学习训练专用RLM模型奠定基础。

成本与效率表现

尽管RLM涉及多次子模型调用,但得益于选择性读取机制,多数任务总成本低于基础模型:

  • OOLONG任务:RLM(GPT-5)平均成本$0.43,基础GPT-5为$0.14;但后者准确率低28%,考虑重试成本,RLM更具性价比;
  • 当前为串行调用,延迟较高;若改用并行架构,速度可大幅提升;
  • 不同模型调用策略差异明显:
     • GPT-5偏保守,依赖代码过滤;
     • Qwen3-Coder高频调用子模型,成本高但准确率更高。

RLM意味着什么?

RLM将百万级token处理这一原本昂贵、专业的能力,转化为普惠型基础设施:

  • 告别超高API费用;
  • 减少人工分块与整合;
  • 突破“不可行”边界,启用新场景。

典型应用包括:

  • 文档助手:上传千页合同,自动识别全部风险条款;
  • 代码审查:直接提问“项目存在哪些安全漏洞?”,AI遍历全库生成报告;
  • 研究助理:输入百篇论文,自动生成结构化文献综述。

RLM是一个**模型无关的通用推理范式**——理论上任何LLM均可接入。随着专用RLM模型迭代演进,性能将持续跃升。

The Age of Recursive Reasoning is here.

【声明】内容源于网络
0
0
林悦己AI出海
1234
内容 52
粉丝 0
林悦己AI出海 1234
总阅读684
粉丝0
内容52