在多模态智能体(Agent)迈向通用大模型的过程中,“记忆”成为最关键的瓶颈。现实任务常跨越漫长时域,现有模型往往“转头就忘”,且难以扩展垂直领域能力。传统微调昂贵低效,无法适应动态需求。
最新两项技术——GEMS与OMNI-SIMPLEMEM,从原生Agent架构与自主记忆发现两个维度破局,赋予AI持久记忆与专业技能自扩展能力。这意味着多模态Agent不仅能在长周期任务中复盘积累,更迈向可自我进化的“Agent-Native”时代。
多模态记忆,让智能体真正学会记住与成长。我整理了多模态记忆+Agent方向的论文合集18篇。如有需要,可后台自取相关论文合集!
GEMS: Agent-Native Multimodal Generation with Memory and Skills
关键词: 多模态生成, 智能体循环, 分层记忆, 领域技能插件
研究方法
针对基础大模型在复杂指令及垂直任务中表现不佳的问题,论文提出了 GEMS 框架。它通过 Agent Loop 闭环优化生成质量,并构建了包含事实状态与经验总结的分层 Agent Memory,结合可按需加载的 Agent Skill 插件,实现了原生 Agent 级的多模态生成能力。
论文创新点
-
1. 构筑了 Agent Loop 闭环框架,实现了生成质量的自我演进与持续迭代。 -
2. 设计了分层级长效记忆系统,解决了多模态轨迹存储中的信息冗余难题。 -
3. 创新性引入按需加载的技能模块,显著提升了 Agent 在下游领域的专业度。 -
4. 首次将轨迹级记忆与生成任务结合,验证了经验总结对复杂任务的增益效果。
论文链接: https://arxiv.org/abs/2603.28088
OMNI-SIMPLEMEM: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory
关键词: 终身学习, 自主科研, 多模态记忆, 自动机器学习
研究方法
针对长程任务中多模态记忆设计空间过大、难以人工优化的挑战,论文提出了 OMNI-SIMPLEMEM 框架。该框架利用自主科研管线,在无人工干预下自动执行约50次实验,通过诊断失败模式并自动修复代码缺陷,最终发现了一套最优的统一多模态记忆架构。
论文创新点
-
1. 提出了 OMNI-SIMPLEMEM 框架,实现了终身多模态记忆的自主架构发现。 -
2. 创新设计了自主研究管线,解决了人工设计记忆策略效率低下的核心痛点。 -
3. 通过自动化实验迭代,将 LoCoMo 基准测试的 F1 分数大幅提升了 411%。 -
4. 首次将自动代码修复与模型推理结合,验证了 AI 自主优化复杂系统的可行性。
论文链接: https://arxiv.org/abs/2604.01007

