03. 问题出在哪里?模型本身在商品化。Claude、GPT、Gemini,能力差距在收窄,一次性任务你用哪个差别不大。但 agent memory 不一样。一个跑了几个月的 agent,积累了你的工作风格、判断偏好、历史决策上下文。这些东西的价值是时间堆出来的,没法复制,也没办法瞬间重建。记忆是比模型更强的 lock-in 来源——你可以换模型,但换不走 agent 积累的记忆。所以:Anthropic 的 Claude Managed Agents:把几乎所有东西放在 API 后面,完全托管,零可见性,零所有权。OpenAI 的 Codex:代码是开源的,但它生成加密的 compaction summary,在 OpenAI 生态外无法读取。04. 怎么设计才对?YC 创始人 Garry Tan 在他的帖子"Thin Harness, Fat Skills"里给出了他认为正确的架构原则,也是我看到的目前最清晰的方法论表述。1、Harness 只做四件事Garry 的定义:"The harness is the program that runs the LLM. It does four things: runs the model in a loop, reads and writes your files, manages context, and enforces safety. That's it."(Harness 是跑 LLM 的程序。它只做四件事:在循环里跑模型、读写文件、管理上下文、保证安全。)有的 fat harness 模式:40+ 个 tool definition 塞满上下文窗口,god-tools 一次调用要 2-5 秒延迟,每个 REST API 端点都被包成独立工具。结果是三倍 token、三倍延迟、三倍失败率。正确的做法是 purpose-built tooling。例子:一个专门做浏览器操作的 Playwright CLI,每个操作 100ms;但一个通用 Chrome MCP,截图-找元素-点击-等待-读取整套下来需要 15 秒。2、记忆以文件形式存在,格式决定所有权Markdown 是人类可读的,也是 LLM 天然擅长读写的。Git 提供版本控制、备份、可迁移性。你换 harness,换模型,文件还在。他把不同类型的记忆对应到不同的文件类型:Procedural memory → AGENTS.md,定义 agent 的行为规则Semantic memory → skill 文件,每个文件教 agent 怎么做某类事Episodic memory → 历史对话存成文件,agent 可以回溯"Memory is markdown. Skills are markdown. Brain is a git repo."3、Skill 文件是系统的永久升级,不是一次性 promptGarry 分享了他给 agent 的一条指令:"You are not allowed to do one-off work. If I ask you to do something and it's the kind of thing that will need to happen again, you must: do it manually the first time on 3 to 10 items. Show me the output. If I approve, codify it into a skill file."(你不允许做一次性工作。如果我让你做某件将来还会重复的事,你必须先手动做 3 到 10 个,给我看结果,我确认之后,把它写成 skill 文件。)这个原则的逻辑:每一个 skill 文件,是一次对系统能力的永久提升。下次换了更好的模型,这些 skill 自动受益——判断能力提升了,而确定性步骤不需要改。05. 案例案例一:LangSmith Agent Builder + Deep AgentsLangChain → 做 agent builder 的 no-code 工具,底层跑在 Deep Agents harness 上 → 用户可以为特定工作流创建 agent,不需要写代码 → 记忆以文件形式存在,格式可迁移。技术文档里明确写:"Files are very portable. This allows you to easily port agents built in agent builder to other harnesses."(文件高度可移植。这让你可以把在 agent builder 里构建的 agent 轻松迁移到其他 harness。)他们甚至专门说,希望用户能把 Agent Builder 里构建的 agent 迁移到 Deep Agents CLI,或者其他 harness 比如 Claude Code、OpenCode。案例二:gbraingbrain → Garry Tan 的个人开源知识系统,跑在 OpenClaw 上 → 解决的问题:agent 每次对话都从零开始,没有关于你的持久知识 → 做法:把所有知识存成 markdown 文件,放在本地 git repo,agent 每晚运行 dream cycle 更新知识图谱。规模:1 万多个 markdown 文件,3000+ 人物档案,13 年日历数据。本地运行,PGLite 嵌入式数据库,不需要服务器,不需要订阅服务。dream cycle 的逻辑:"The agent runs while I sleep. It scans every conversation, enriches missing entities, fixes broken citations, and consolidates memory. I wake up and the brain is smarter than when I went to sleep."(agent 在我睡觉时运行。它扫描每一段对话,丰富缺失的实体,修复错误引用,整合记忆。我醒来的时候,大脑比睡前更聪明。)这个系统的关键在于所有记忆以 markdown 形式住在他自己的机器上。换 harness,换模型,记忆是不变的。06. 结论如果沿着这个逻辑往前推,agent memory 的演化大概会经过这几个阶段:L1 → 会话内记忆:当前大多数 agent 的状态。记忆只存在于一次对话里,对话结束即消失。L2 → 跨会话记忆,平台托管:Anthropic、OpenAI 正在推的方向。记忆持久化了,但住在平台里,格式不透明,不可迁移。用户获得了更好的体验,但失去了所有权。L3 → 跨会话记忆,文件托管:Garry Tan 的 gbrain、LangChain 的 Deep Agents 在做的方向。记忆以 markdown 格式存在用户自己的文件系统里,可读、可备份、可迁移。体验和 L2 接近,但所有权完全不同。L4 → 自我进化的记忆系统:agent 不只是读写记忆,还能主动整合、归纳、发现矛盾、更新知识结构。gbrain 的 dream cycle 是早期版本。真正到了 L4,agent 的知识库会变成一个活的系统,每次交互都在自我改进,而这个系统完全在你的控制下。现在大多数人还在 L1。L2 是平台在推、用户被动接受的方向。L3 才是真正值得主动选择的方向。我的判断:两年内,agent memory 的所有权问题会变成 agent 领域最重要的基础设施争议——跟当年云计算的数据主权问题一样。平台会继续用更好的体验换你的 lock-in,而真正懂的人会在这件事变成共识之前,把记忆放在自己手里。到那时候再去迁移,会比现在难得多。Reference:Your harness, your memory | Harrison Chase, LangChain Bloghttps://blog.langchain.com/your-harness-your-memory/Thin Harness, Fat Skills | Garry Tan on Xhttps://x.com/garrytan/status/2042925773300908103gbrain | GitHubhttps://github.com/garrytan/gbrainHow we built Agent Builder's memory system | Harrison Chase on Xhttps://x.com/hwchase17/status/2011814697889316930Context Engineering our way to long-horizon agents | Sequoia Capital Podcasthttps://sequoiacap.com/podcast/context-engineering-our-way-to-long-horizon-agents-langchains-harrison-chase/