你的 Agent 记忆，应该存放在自己的脑子里- 大数跨境

首页

你的 Agent 记忆，应该存放在自己的脑子里

硅基生命AIGC

2026-04-14

导读：Agent harness 正在成为构建 Agent 的主流方式。而 harness 和 memory，是不可分割的。

Agent harness 正在成为构建 Agent 的主流方式。而 harness 和 memory，是不可分割的。

也就是说你选了谁的 harness，你的 Agent memory 就归谁所有。

01. Harness 是什么？

Harness 一词来自马术——驾驭马匹的那套挽具系统。在 agent 语境里，它指的是让 LLM 能持续工作的那套系统。

LangChain 创始人 Harrison Chase 梳理了这个领域三年的演进：

2022–2023，scaffold 阶段：模型能力弱，需要人帮它规划每一步。LangChain 做的事，本质上是把工具调用和 chain 组合起来，让模型按顺序执行。

2023–2024，graph 阶段：模型变强了，能处理分支和循环。LangGraph 出现，开始允许更复杂的状态机式工作流。人设计流程，模型填充内容。

2025 至今，harness 阶段：模型强到可以自己决定做什么、什么时候用工具、怎么管理上下文。人只需要定义目标，模型自己跑。

（Chase 在 Sequoia 的播客里说："We finally got there. The algorithm of just running the LLM in a loop and letting it orchestrate its own context — that is so simple and so general purpose."）

现在市面上的 harness 包括：Claude Code（Anthropic）、Codex（OpenAI）、Manus、OpenClaw、Deep Agents（LangChain）。据 Anthropic 泄露的文档，Claude Code 的 harness 代码有 51 万行。

02. Memory 是 Harness 的核心

大多数人谈到 memory，想的是跨会话记住用户偏好。其实更准确的定义应该是 agent 能调用的所有上下文的来源和管理方式。

按时间维度可以拆成两层：

短期记忆：当前会话里的消息历史、工具调用结果、大型文件的摘要。这些由 harness 实时管理，决定什么能进上下文窗口，什么会被压缩，什么被丢弃。Claude Code 的 compaction 机制、Codex 的 compaction summary，都在做这件事。

长期记忆：跨会话的信息。包括用户偏好、历史决策、AGENTS.md / CLAUDE.md 里写的指令、skill 文件、以及过去对话的 episodic 记录。这些东西以什么格式存、存在哪里、由谁读取，决定了 agent 能不能真正学习。

COALA 这篇论文把 agent memory 分成了三类：

Procedural memory：agent 的行为指令，对应 AGENTS.md 和 tools.json
Semantic memory：关于世界的知识，对应 skill 文件和知识库
Episodic memory：过去的行为序列，对应历史对话记录

03. 问题出在哪里？

模型本身在商品化。Claude、GPT、Gemini，能力差距在收窄，一次性任务你用哪个差别不大。

但 agent memory 不一样。

一个跑了几个月的 agent，积累了你的工作风格、判断偏好、历史决策上下文。这些东西的价值是时间堆出来的，没法复制，也没办法瞬间重建。

记忆是比模型更强的 lock-in 来源——你可以换模型，但换不走 agent 积累的记忆。所以：

Anthropic 的 Claude Managed Agents：把几乎所有东西放在 API 后面，完全托管，零可见性，零所有权。

OpenAI 的 Codex：代码是开源的，但它生成加密的 compaction summary，在 OpenAI 生态外无法读取。

04. 怎么设计才对？

YC 创始人 Garry Tan 在他的帖子"Thin Harness, Fat Skills"里给出了他认为正确的架构原则，也是我看到的目前最清晰的方法论表述。

1、Harness 只做四件事

Garry 的定义："The harness is the program that runs the LLM. It does four things: runs the model in a loop, reads and writes your files, manages context, and enforces safety. That's it."（Harness 是跑 LLM 的程序。它只做四件事：在循环里跑模型、读写文件、管理上下文、保证安全。）

有的 fat harness 模式：40+ 个 tool definition 塞满上下文窗口，god-tools 一次调用要 2-5 秒延迟，每个 REST API 端点都被包成独立工具。结果是三倍 token、三倍延迟、三倍失败率。

正确的做法是 purpose-built tooling。例子：一个专门做浏览器操作的 Playwright CLI，每个操作 100ms；但一个通用 Chrome MCP，截图-找元素-点击-等待-读取整套下来需要 15 秒。

2、记忆以文件形式存在，格式决定所有权

Markdown 是人类可读的，也是 LLM 天然擅长读写的。Git 提供版本控制、备份、可迁移性。你换 harness，换模型，文件还在。

他把不同类型的记忆对应到不同的文件类型：

Procedural memory → AGENTS.md，定义 agent 的行为规则

Semantic memory → skill 文件，每个文件教 agent 怎么做某类事

Episodic memory → 历史对话存成文件，agent 可以回溯

"Memory is markdown. Skills are markdown. Brain is a git repo."

3、Skill 文件是系统的永久升级，不是一次性 prompt

Garry 分享了他给 agent 的一条指令："You are not allowed to do one-off work. If I ask you to do something and it's the kind of thing that will need to happen again, you must: do it manually the first time on 3 to 10 items. Show me the output. If I approve, codify it into a skill file."（你不允许做一次性工作。如果我让你做某件将来还会重复的事，你必须先手动做 3 到 10 个，给我看结果，我确认之后，把它写成 skill 文件。）

这个原则的逻辑：每一个 skill 文件，是一次对系统能力的永久提升。下次换了更好的模型，这些 skill 自动受益——判断能力提升了，而确定性步骤不需要改。

05. 案例

案例一：LangSmith Agent Builder + Deep Agents

LangChain → 做 agent builder 的 no-code 工具，底层跑在 Deep Agents harness 上 → 用户可以为特定工作流创建 agent，不需要写代码 → 记忆以文件形式存在，格式可迁移。

技术文档里明确写："Files are very portable. This allows you to easily port agents built in agent builder to other harnesses."（文件高度可移植。这让你可以把在 agent builder 里构建的 agent 轻松迁移到其他 harness。）

他们甚至专门说，希望用户能把 Agent Builder 里构建的 agent 迁移到 Deep Agents CLI，或者其他 harness 比如 Claude Code、OpenCode。

案例二：gbrain

gbrain → Garry Tan 的个人开源知识系统，跑在 OpenClaw 上 → 解决的问题：agent 每次对话都从零开始，没有关于你的持久知识 → 做法：把所有知识存成 markdown 文件，放在本地 git repo，agent 每晚运行 dream cycle 更新知识图谱。

规模：1 万多个 markdown 文件，3000+ 人物档案，13 年日历数据。本地运行，PGLite 嵌入式数据库，不需要服务器，不需要订阅服务。

dream cycle 的逻辑："The agent runs while I sleep. It scans every conversation, enriches missing entities, fixes broken citations, and consolidates memory. I wake up and the brain is smarter than when I went to sleep."（agent 在我睡觉时运行。它扫描每一段对话，丰富缺失的实体，修复错误引用，整合记忆。我醒来的时候，大脑比睡前更聪明。）

这个系统的关键在于所有记忆以 markdown 形式住在他自己的机器上。换 harness，换模型，记忆是不变的。

06. 结论

如果沿着这个逻辑往前推，agent memory 的演化大概会经过这几个阶段：

L1 → 会话内记忆：当前大多数 agent 的状态。记忆只存在于一次对话里，对话结束即消失。

L2 → 跨会话记忆，平台托管：Anthropic、OpenAI 正在推的方向。记忆持久化了，但住在平台里，格式不透明，不可迁移。用户获得了更好的体验，但失去了所有权。

L3 → 跨会话记忆，文件托管：Garry Tan 的 gbrain、LangChain 的 Deep Agents 在做的方向。记忆以 markdown 格式存在用户自己的文件系统里，可读、可备份、可迁移。体验和 L2 接近，但所有权完全不同。

L4 → 自我进化的记忆系统：agent 不只是读写记忆，还能主动整合、归纳、发现矛盾、更新知识结构。gbrain 的 dream cycle 是早期版本。真正到了 L4，agent 的知识库会变成一个活的系统，每次交互都在自我改进，而这个系统完全在你的控制下。

现在大多数人还在 L1。L2 是平台在推、用户被动接受的方向。L3 才是真正值得主动选择的方向。

我的判断：两年内，agent memory 的所有权问题会变成 agent 领域最重要的基础设施争议——跟当年云计算的数据主权问题一样。平台会继续用更好的体验换你的 lock-in，而真正懂的人会在这件事变成共识之前，把记忆放在自己手里。

到那时候再去迁移，会比现在难得多。

Reference：

Your harness, your memory | Harrison Chase, LangChain Bloghttps://blog.langchain.com/your-harness-your-memory/

Thin Harness, Fat Skills | Garry Tan on Xhttps://x.com/garrytan/status/2042925773300908103

gbrain | GitHubhttps://github.com/garrytan/gbrain

How we built Agent Builder's memory system | Harrison Chase on Xhttps://x.com/hwchase17/status/2011814697889316930

Context Engineering our way to long-horizon agents | Sequoia Capital Podcasthttps://sequoiacap.com/podcast/context-engineering-our-way-to-long-horizon-agents-langchains-harrison-chase/

【声明】内容源于网络

硅基生命AIGC

专注于为企业打造AI数字应用，致力于将前沿AIGC人工智能技术转化为可落地、高价值的商业应用

内容 141

粉丝 0

硅基生命AIGC 专注于为企业打造AI数字应用，致力于将前沿AIGC人工智能技术转化为可落地、高价值的商业应用

总阅读2.8k

粉丝0

内容141