元龙科普丨MemOS：面向大模型的工业级记忆操作系统，以分层架构整合多形态记忆，重塑智能应用边界与长期进化路径- 大数跨境

首页

元龙科普丨MemOS：面向大模型的工业级记忆操作系统，以分层架构整合多形态记忆，重塑智能应用边界与长期进化路径

元龙数字智能科技

2025-07-08

MemOS：面向大模型

的工业级记忆操作系统

以分层架构整合多形态记忆

重塑智能应用边界与长期进化路径

在大型语言模型（LLM）飞速发展的这几年，参数规模和算力几乎成了衡量 AI 能力的代名词。然而，当大模型逐渐融入科研、产业和生活的方方面面时，一个更深层次的问题被越来越多人提及：它究竟能不能 “记住” 一些东西？从陪伴式对话、个性化推荐到多轮任务协作，仅仅依靠模型的一次推理、一次检索，显然远远不够。如何让 AI 拥有可管理、可迁移、可共享的长期记忆，正成为新一代大模型应用亟待突破的关键挑战。

近日，记忆张量（上海）科技有限公司联合上海交通大学、中国人民大学、同济大学、浙江大学、中国电信等多家顶尖团队，共同发布了 MemOS（Memory Operating System）—— 一套面向大模型的工业级记忆操作系统。这一项目的技术路线始于 2024 年团队推出的 Memory3（忆立方）记忆分层大模型，当时首次提出了记忆分层的概念，让模型可以将部分知识 “外化” 存储，既减少了推理成本，也为后续的长期学习奠定了基础。项目官网为https://memos.openmem.net，相关论文、代码仓库、Discord 讨论组等资源也可通过官网获取，OpenMem 社区的联系邮箱为 contact@openmem.net。

与传统的 RAG 或纯参数存储不同，MemOS 将 “记忆” 视为一种与算力同等重要的系统资源。它通过标准化的 MemCube 记忆单元，把明文、激活状态和参数记忆统一在同一个框架内进行调度、融合、归档和权限管理。简单来说，这使得模型不再是 “看完即忘”，而是具备了持续进化和自我更新的能力。在行业人士看来，这种面向 AI 长期记忆的操作系统思路，或许会重塑智能系统的应用边界，让大模型真正从 “静态生成器” 转变为能够陪伴用户长期成长的 “数字同事” 和 “数字助理”。

在技术实现层面，MemOS 借鉴了传统操作系统的分层架构设计，同时融合了 Memory3（忆立方）大模型在记忆分层管理方面的核心机制。整个系统由 API 与应用接口层、记忆调度与管理层、记忆存储与基础设施层三大核心层次构成，构建起一套从用户交互到底层存储的全链路记忆管理闭环。在 API 与应用接口层，MemOS 提供了标准化的 Memory API，开发者通过简单的接口就能实现记忆的创建、删除、更新等操作，让大模型具备易于调用和扩展的持久记忆能力，从而支持多轮对话、长期任务和跨会话个性化等复杂应用场景。

到了记忆调度与管理层，MemOS 提出了记忆调度（Memory Scheduling）的全新范式，支持基于上下文的 “下一场景预测”（Next-Scene Prediction），能够在模型生成时提前加载潜在需要的记忆片段，显著降低响应延迟、提升推理效率。具体而言，MemOS Scheduler 通过在应用的不同位置埋设触发点（Trigger），不断搜集和汇总记忆需求，这些需求会被添加到调度器的监控队列（Monitoring Queue）中，供调度执行器（Scheduling Executor）消费，进而将高频、高相关的记忆提前预备到 MemCube 中合适的位置，如 KV Cache 缓存、明文工作区记忆存储等，大幅加速潜在的推理时间，提升记忆召回的准确性和效率。

而在记忆存储与基础设施层，MemOS 通过标准化的 MemCube 封装，将明文记忆、激活记忆和参数记忆三种形态有机整合，支持多种持久化存储方式，包括 Graph 数据库、向量数据库等，并且具备跨模型的记忆迁移与复用能力。整体来看，MemOS 不仅在技术框架上实现了对 AI 记忆的结构化、系统化管理，也为未来构建可共享、可迁移、可演化的 AI 记忆生态奠定了坚实基础。

在应用层面，MemOS 的推出为大模型在未来多个关键场景中带来了全新的能力突破。在个性化智能体方面，MemOS 可以持续积累和管理用户的偏好、历史对话与行为习惯，让每一次交互都在 “记忆之上” 不断优化体验，真正实现长期陪伴和个性化服务。对于科研与知识管理场景，MemOS 支持将分散的项目资料、笔记、分析结果以结构化方式长期保存和动态调用，帮助研究人员打造具备深度 “记忆力” 的智能助手，提升知识管理效率和研究连续性。在金融、法律等对溯源和合规要求极高的高可靠性场景中，MemOS 提供的记忆溯源与权限审计功能，能使模型的推理结果精准追溯到具体知识来源，增强透明度和可信性。在企业级 RAG 应用中，MemOS 能够有效解决新旧知识混用、信息冲突等问题，确保模型在多轮对话和长周期任务中依然保持稳定、一致的回答能力。凭借对三类记忆的统一调度与封装，MemOS 不仅显著提升了模型的智能性和灵活性，也为企业构建安全、可控、持续演进的 AI 应用奠定了基础。接下来，MemOS 团队还将上线 Playground 功能，面向开发者和企业用户开放体验，直观展示在多样化任务中，记忆能力带来的性能提升和应用潜力。

作为一套完全开源的工业级框架，MemOS 的设计理念强调 “标准化、模块化、可组合”，为开发者提供了清晰且易于集成的架构和工具链。在 GitHub 公开的 Preview 版本中，MemOS 已实现包括 Memory API、核心调度模块（MemScheduler）、树 - 图状的明文记忆管理、KV Cache 激活记忆管理在内的多个关键功能，并提供了详尽的示例代码和演示脚本，帮助开发者快速上手，灵活构建具备持久记忆能力的智能应用。该框架遵循分层解耦的设计原则，所有核心能力均以 Python 类和 REST 接口两种形式对外开放，既可用于轻量级本地测试，也能与生产环境下的大模型（如 HuggingFace、OpenAI、Ollama 等）实现无缝集成，通过 pip install MemoryOS 即可一键安装使用。

在当前版本中，MemOS 重点评估了框架在对话类场景下的记忆抽取与检索效率，并采用行业公认的 LoCoMo（Long Conversational Memory）Benchmark 进行测评。LoCoMo 评估集合由 Maharana 等人于 2024 年提出，并发表于 ACL 2024，旨在系统评估和强化 LLM 对极长对话历史的记忆能力，目前已成为包括 Mem0、Zep 等多种记忆管理框架的标准化测评工具。本次评估主要考察模型在单跳任务评估、多跳任务评估、开放问题评估和时序推理任务中的表现。从评估结果来看，MemOS-Preview-0630 版本相比 OpenAI 的全局记忆方案，在性能表现和 Tokens 开销方面均实现了全面提升；与 Mem0（本次评测采用 Mem0 官方提供的 Pro 版本高性能接口）相比，MemOS 在各项核心指标上也取得了显著进步，特别是在时序推理这一对记忆系统要求最高的任务上，MemOS 相较 Mem0 和 OpenAI 均实现了超过 20% 绝对值的性能提升，最高超过 159% 的相对值的提升，进一步验证了其在复杂对话和长期推理场景中的优势。

在记忆管理场景中，召回记忆的数量（TOP-K 值）以及对应的总 Context 长度，直接决定了框架的检索效率和推理性能。通常而言，框架效率越高，就越能够在相对较小的召回容量下取得最准确的回忆结果，从而显著降低 Tokens 的编码开销。MemOS 在召回区间 TOP-20 左右时，仅需约 1000 个 Tokens 的上下文长度，即可在各项评估指标上取得优异表现，相比之下，对照组在达到相似准确度时，通常需要 2000–4000 Tokens 的召回区间，这表明 MemOS 在保证效果的同时大幅减少了检索所需的输入规模和推理负担。此外，为了系统评估当前开源框架在检索时效性方面的表现，MemOS 团队针对原始 RAG 框架和现有多种记忆管理方案开展了全面的消融实验，结果显示 MemOS-Preview 开源版本的检索性能已接近多个主流商业化记忆管理框架的 API 接口，并在最终效果得分上实现了显著提升，值得注意的是，在部分评测任务中，MemOS 的表现甚至优于 Full-Context 方案，展现出在高效记忆管理与资源利用之间的良好平衡能力。

同时，为了进一步评估 MemOS-Preview 版本在调度场景下的记忆缓存复用功能，团队围绕不同模型规模和输入长度，对缓存复用的性能进行了详细的消融实验，实验设置包括在不同输入长度的缓存上下文条件下，测量推理过程的加速比，以及在不同参数规模的模型上，评估缓存复用对性能的提升效果。从结果可以看出，随着模型规模的增大和缓存上下文长度的增加，相比无缓存场景，推理加速比显著提高，在长记忆场景下，TTFT（Time To First Token）加速比超过 70%，显示出缓存复用在大规模推理任务中的明显优势。这些实验结果表明，对于需要长期和高频访问的记忆内容，构建高效的缓存复用模块对于提升记忆解码性能和整体响应速度具有重要价值。

回顾 MemOS 的历史研发 Milestone，其发展脉络清晰可见，而未来的发展计划同样值得期待。关键计划之一是成立 OpenMem 开源社区，面向全球研究机构和产业伙伴，共同打造一个开放、协作、共创的大模型记忆技术生态，该社区将重点推动记忆管理、记忆增强、记忆共享等领域的研究与应用，探索让 AI 记忆能力实现可管理、可迁移、可共享的发展路径，欢迎所有对 AI 模型记忆感兴趣的团队加入，共建开放记忆底座，赋能智能系统普惠未来，联系方式为 contact@openmem.net。

关键计划之二是应用发展与联合开发计划，未来，MemOS 将与智能体（Agent）研发团队、行业业务团队和技术合作伙伴共同发起联合开发计划，推进基于记忆操作系统的多样化应用落地，相关计划将聚焦对话机器人、智能搜索、个人助理、企业知识管理等典型场景，探索长期记忆、多主体协作、个性化演进的应用模式，助力智能系统在复杂动态环境中实现持续进化和价值创造。

关键计划之三是 MemOS 的长期迭代与研发，在长期研发方面，MemOS 将持续推进技术演进和版本迭代，重点聚焦记忆表征与压缩、分布式记忆调度、跨模型记忆转移、可解释性与安全性保障等关键方向，未来还将逐步完善标准化接口、性能优化、合规治理等体系，打造面向大规模生产环境的高可用、低成本、强安全的记忆操作系统，团队计划持续深化与学术界和产业界的合作，推动 AI 从静态生成走向长期进化与持续学习的新阶段。

MemOS 的出现，为大模型的长期记忆问题提供了创新性的解决方案，其将记忆视为系统资源进行管理的思路，不仅重塑了智能系统的应用边界，也为 AI 技术的未来发展开辟了新的道路。随着开源社区的不断壮大和技术的持续迭代，相信 MemOS 将在更多领域发挥重要作用，让大模型真正成为能够陪伴用户长期成长的得力助手，推动整个 AI 行业迈向新的高度。

END

【声明】内容源于网络

元龙数字智能科技

永做第一使命第一向善第一

内容 901

粉丝 0

元龙数字智能科技永做第一使命第一向善第一

总阅读2.2k

粉丝0

内容901