大数跨境
0
0

61.3%!「人类最后一场考试」AI终于及格了,揭秘Agent自我进化新路径

61.3%!「人类最后一场考试」AI终于及格了,揭秘Agent自我进化新路径 AI科技评论
2026-01-08
10
导读:拒绝微调,告别死记硬背:MemRL如何让大模型拥有“会思考的长期记忆”?

拒绝微调,告别死记硬背:MemRL如何让大模型拥有“会思考的长期记忆”?

“人类最后一场考试”(Humanity's Last Exam, HLE)被视为AI推理能力的终极考验。此前,即便是Gemini-3-Pro,在无辅助条件下准确率仅为35.7%;允许调用Google搜索时,也仅达45.8%。

一项由上海交通大学、西安电子科技大学、上海创智学院与记忆张量(MemTensor)联合提出的新框架——MemRL,在不微调模型参数的前提下,将HLE准确率提升至61.3%。AI不仅首次“及格”,更关键的是:它开始像人类一样,从过往经验中提炼可复用的智慧。

HLE之所以被称为“人类最后一场考试”,在于其考察的并非知识储备,而是对跨学科专家级问题的深度理解与复杂推理能力——这恰恰是当前大模型的核心短板。

痛点:为什么传统的“外挂大脑”不管用?

通往通用人工智能(AGI)的关键之一,是实现Agent的持续学习。现有两条主流路径均存在明显局限:

1. 微调(Fine-tuning):需调整模型参数,成本高、周期长,且易引发“灾难性遗忘”——学新忘旧。

2. RAG(检索增强生成):依赖关键词或语义相似度进行盲目检索,无法判断召回内容对解决当前问题是否真正有效,常返回大量干扰噪声,导致推理失败。

那么,能否在保持模型稳定性的前提下,构建一种更类人的、具备动态进化能力的记忆系统?

破局:MemRL的“认知觉醒”

MemRL的核心思想源于人类认知科学中的构建性情景模拟理论,主张将稳定的推理能力动态的情景记忆解耦——即:冻结大模型本身(LLM),但让其记忆持续进化。

这类似于一位高智商者(固定LLM),通过不断优化自己的“方法笔记”(进化的记忆库),来应对新问题。MemRL不再问“我记得什么”,而是思考:“哪些过往经验值得借鉴?若参考某条经验,后续结果会如何?”再基于实际反馈迭代更新经验价值评估。

1. 核心机制——记忆的三元组

传统RAG只关注“语义相似度”,而MemRL引入Intent-Experience-Utility(意图-经验-效用)三元组:

  • Intent:我想达成什么目标?
  • Experience:我采取了什么行动?
  • Utility(Q值):这一策略的实际效果如何?

每条记忆都附带一个可量化、可更新的效用评分,使检索过程从“找相似”升级为“选最优”。

2. 它是如何“思考”的?——引入价值评估过程

MemRL将记忆检索分为两个阶段:

  • 阶段A(语义召回):基于意图匹配,初步筛选相关经验;
  • 阶段B(价值感知选择):评估该经验在历史中解决同类问题的成功概率(Q值),加权融合语义与效用,精准锁定最具参考价值的“金钥匙”。

3. 它是如何“进化”的?——无参数的自我修正

MemRL的进化完全在记忆空间内完成,无需梯度更新,包含两大并行机制:

· Q值更新(Refining Utilities):任务完成后,依据环境反馈(如成功/失败、得分),对所用记忆进行蒙特卡洛式更新。Q值向“经验期望回报”收敛——有效则升,失效则降。

· 经验回写(Experience Expansion):将当前完整任务轨迹经LLM总结后,结合意图与初始效用(Q-init),生成全新三元组,写入记忆库。实现旧知修正 + 新知扩充的双重进化。

实验核心:Runtime进化与记忆的真正价值

1. Main Results:惊人的运行时学习能力

团队在四大基准上验证MemRL性能:BigCodeBench(代码生成)、ALFWorld(具身决策)、Lifelong Agent Bench(系统交互)与HLE(复杂推理),对比Standard RAG、Self-RAG及先进记忆方法(Mem0、MemP)。

结果表明:MemRL无需任何参数训练,仅靠运行时积累经验即可持续提分。

  • 在ALFWorld中,准确率达69.7%,较MemP(45.6%)提升53%
  • 在HLE中首次突破60%,验证了非参数化强化学习驱动Agent通过试错实现终身学习的可行性。

2. Transfer Learning:举一反三的泛化能力

在迁移学习设定下(冻结记忆库,直接测试30%未见任务),MemRL全面超越RAG与MemP。说明其记忆库存储的不是具体答案,而是抽象的高价值策略,能有效过滤“过拟合记忆”,保留适用于未知环境的通用经验

深入分析:不止罗列成果

1. 轨迹验证器:长程任务更有提升空间

数据揭示关键规律:任务链路越长,MemRL优势越显著

  • 单步任务(BigCodeBench):+2.5个百分点;
  • 多步顺序任务(ALFWorld):+24.1个百分点。

原因在于:MemRL记录整条执行轨迹的Q值,实际充当了轨迹验证器(Trajectory Verifier)——不仅能识别“开头相似”,更能预判“结局是否可行”,从而规避表面相关、实则失败的错误路径。

2. 意外发现:从“差一点”中学习

研究发现,高Q值记忆库中约12%为失败案例,其中多数属Near-misses(差一点成功):虽因格式错误等微小偏差未达终态,但整体推理逻辑正确。MemRL能识别其战略价值,将其转化为“纠错指南”,体现从部分失败中提取正确逻辑的高级认知能力。

3. 理论保证的稳定性:告别灾难性遗忘

相比启发式方法(如MemP)常出现CSR(历史最佳)与当前性能脱节的现象,MemRL展现出同步增长(Synchronized Growth)趋势,根源在于其理论稳定性保障:

  • 蒙特卡洛式建模收敛性:基于Eq.8建模,确保Q值更新过程收敛;
  • 变分下界约束:策略始终朝“期望奖励的变分下界”优化,避免随机漂移。

由此实现性能的单调不减(Non-decreasing)——每次更新都在夯实基础,而非拆东墙补西墙。

4. 数据洞察:从语义相似性到记忆泛化

作者发现:数据集内部相似度(Intra-dataset Similarity)与记忆增益(Memory Gain)呈显著正相关。据此将MemRL收益归纳为两类模式:

  • 正向迁移(Positive Transfer):在ALFWorld等高相似度任务中,高效复用历史最优策略;
  • 运行时记忆(Runtime Memorization):在HLE等低相似度、跨学科任务中,仍获+21.6%提升,体现其“单题突破”能力。

这解释了MemRL为何既能“举一反三”,也能“博闻强记”。

结语:迈向终身学习的Agent

MemRL提供了一种经济、高效的AGI演进范式:无需昂贵训练,亦无需定制化Pipeline,仅需一个冻结的大模型 + 一个自我进化的记忆系统,即可实现真正的终身学习(Lifelong Learning)

这项由上海交通大学、西安电子科技大学、上海创智学院与记忆张量(MemTensor)联合完成的研究,标志着AI从“被动应答”走向“主动反思”的关键一步。

论文信息

· 论文标题:MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory

· 联合团队:上海交通大学、西安电子科技大学、上海创智学院、记忆张量(MemTensor)

· arXiv链接:https://arxiv.org/abs/2601.03192

【声明】内容源于网络
0
0
AI科技评论
聚焦AI前沿研究,关注AI工程落地。
内容 8431
粉丝 0
AI科技评论 聚焦AI前沿研究,关注AI工程落地。
总阅读68.3k
粉丝0
内容8.4k