AI大神Karpathy教你，给AI造一本"私人百科全书"- 大数跨境

首页

AI大神Karpathy教你，给AI造一本"私人百科全书"

AIGCLINK

2026-04-10

导读：Andrej Karpathy在X上分享了他最近的一套工作方法。

Andrej Karpathy在X上分享了他最近的一套工作方法。他把论文、文章、数据集等原始素材扔进一个文件夹，让LLM把它们编译成一套互相链接的Markdown维基百科。

他构建了差不多大约100篇文章，40万字，用Obsidian浏览。他自己几乎不动手写任何一个字。

Karpathy管这套方法叫"LLM Knowledge Base"。

概念很朴素，但这条帖子拿了1897万次浏览。两天后他把思路整理成一个GitHub Gist（他称之为"idea file"），12小时内超过2100个star。

一周之内，GitHub上出现了7个以上的开源实现。

开发者Farza做了一个更私人的版本。他把2500条日记、Apple Notes备忘录和iMessage聊天记录交给LLM，产出了400篇个人百科文章，涵盖朋友、创业项目、研究方向、最喜欢的动漫对他的影响，全部带反向链接。

他给它起了个名字：Farzapedia。

Karpathy转发了这个项目，写了一段详细评价，总结了四个原则。这四个原则其实才是整件事最值得拆开讲的部分。

Karpathy说的四个原则

第一个：Explicit（显性化）。 你的AI"记住"了什么？在ChatGPT、Claude的记忆功能里，这件事是黑箱。你不知道它记了什么，不知道它漏掉了什么，不知道哪天它会把两段记忆搞混。LLM Wiki不一样。知识全在Markdown文件里，打开就能看。哪条信息准确、哪条需要修正、哪条根本没被收录，一目了然。

第二个：Yours（属于你）。 数据在你自己的电脑上。不在OpenAI的服务器里，不在Anthropic的数据库里。你换AI供应商，知识库跟着你走。你删掉某段记忆，它就真的消失了，不会留在某个你够不到的地方。

第三个：File over App（文件优先于应用）。 这个概念来自Obsidian创始人Steph Ango的一篇文章。知识存成Markdown和图片，两种最通用的格式。你可以用Obsidian看，可以用VS Code编辑，可以用grep搜索，可以写脚本批量处理，可以让任何agent直接读取。不被任何一个App锁死。

第四个：BYOAI（自带AI）。 用Claude、用GPT、用Codex、用开源模型都行。你甚至可以拿维基数据微调一个专属模型，让AI把你的知识内化到权重里，而不只是在上下文窗口里临时检索。

Karpathy的原话总结是：这种个性化方案让你完全掌控。数据是你的，格式是通用的，显性且可审查，想用哪个AI就用哪个。

它解决的到底是什么问题

大多数人今天用AI处理文档的方式叫RAG（检索增强生成）。你上传一堆文件给ChatGPT或NotebookLM，问一个问题，系统在文件里检索相关片段，拼出一个答案。

问题是，什么都没积累下来。每次提问，LLM都在从零开始拼凑。你问一个需要综合五份文档才能回答的复杂问题，它每次都得重新找到那五个片段、重新理解它们的关系、重新组织答案。上一次的理解全丢了。

Epoch AI的数据显示，目前约58%的AI用户把LLM当增强版搜索引擎用，32%用于写作辅助。大部分人还停留在"一问一答"模式。知识没有复利效应。

LLM Wiki的做法正好反过来。不是在提问时才检索，而是在信息进入系统时就做一次编译。LLM读完原始素材，写出结构化的摘要页，更新已有的概念页、实体页，标记不同来源之间的矛盾，刷新索引。一份新素材进来，可能触发十到十五个维基页面的更新。

下次你再问类似的问题，答案已经编译好了，交叉引用已经建好了，矛盾已经被标注了。知识在复利式增长，而不是每次被用完就扔掉。

VentureBeat在报道这件事时引用了一位创业者的评论：每家公司都有一个raw/目录，只是从来没人编译过它。Karpathy回复说同意，并认为这代表了一个全新的产品品类。

Farzapedia是怎么做的

Farza在GitHub上公开了完整的Claude Code Skill文件，任何人都可以复制。整套流程拆开看有五步。

第一步：准备原始数据。 Farza的输入源是Day One日记（JSON格式）、Apple Notes（导出为HTML或Markdown）和iMessage聊天记录（导出为CSV）。他写了一个ingest.py脚本，把所有格式统一转换成单条Markdown文件，每条一个文件，存在raw/entries/目录下。每个文件的frontmatter包含日期、时间、来源类型和标签。这一步不需要LLM，纯机械处理。

第二步：编译维基。 这是核心。他让Claude Code按时间顺序逐条读取原始条目。对每条内容，LLM要做五件事：读原文理解含义、对照已有索引找到相关文章、更新已有文章（不是在底部追加一段，而是整合进文章的叙事里让它读起来像一篇完整文章）、发现跨条目的模式创建新的概念文章、每15条做一次检查点重建索引和反向链接。

Farza的Skill文件里有一句写得很好：你不是档案管理员，你是作家。问题永远不是"这条信息放在哪里"，而是"这条信息意味着什么，它和我已经知道的东西怎么连接"。

第三步：建立目录结构。 维基的目录结构从数据里自然生长出来，不要预先创建。核心文件包括：_index.md（主索引，带别名）、_backlinks.json（反向链接索引）、_absorb_log.json（记录哪些条目已被吸收）。文章按主题分目录：people/、projects/、patterns/、philosophies/等等。

第四步：查询。 在Claude Code里直接提问。agent从index.md开始导航，顺着wikilink钻取到具体页面，综合3到8篇文章回答问题。Farza举了个例子：他在设计一个新产品的落地页时问agent，"看看我最近被哪些影像和电影启发了，给我一些文案和视觉方向的建议。"agent从维基里拉出了他看宫崎骏纪录片的笔记、截图保存的YC公司落地页、还有几年前存的1970年代Beatles周边设计。

第五步：持续维护。 新内容加入后，LLM不只是创建新页面，它会更新两到三个已有文章，把新信息编织进去。Farza在Skill文件里设了"反堆砌"规则：如果你要在一篇文章里为某个子话题加第三段，这个子话题可能该独立成页。同时有"反稀释"规则：创建页面不是胜利，充实页面才是。一个只有三句模糊描述的stub，明明有四条其他条目也提到了同一个话题，这是失败。

你今天就能动手的版本

Karpathy在帖子火了之后做了一件有意思的事。他没有发布代码或应用，而是发了一个GitHub Gist，一个"idea file"。他说在LLM agent的时代，分享具体实现的意义不大了，分享想法就够了，每个人的agent会根据自己的需求构建一个定制版本。

这个gist两天拿了5000+ stars。

如果你想自己试一下，最低配置是这样的：

一台装了Obsidian的电脑（Obsidian是免费的，本地优先，不上传数据）。

一个能读写本地文件的AI agent，Claude Code、Cursor、OpenAI Codex都行。

一堆你想整理的原始素材，日记、笔记、文章收藏、会议记录、读书摘要。

目录结构三层：raw/放原始素材不可修改，wiki/放LLM编写的维基，根目录放schema文件（告诉LLM维基的结构约定、命名规范、工作流程）。

Karpathy用的schema文件就是一个CLAUDE.md（如果用Claude Code的话），里面定义了Obsidian风格的wikilink怎么写、索引页怎么维护、新素材进来时执行哪些步骤。视频教程作者实测，从零搭建一个基础版本大约需要一个小时。

有一件事值得特别说。Karpathy提到他在维基上跑"健康检查"，让LLM扫描整个维基，找不一致的数据、过时的说法、没有链接指向的孤岛页面、被引用但还没有独立页面的概念。这个linting操作可以定期跑，效果是维基的整体数据完整性会随时间不断提高。

对个人知识管理意味着什么

过去三年，AI个性化的主流路径是"你用得越多我越懂你"。各家厂商把你的使用数据吸进去训练某种隐性记忆，你既看不到也拿不走。Karpathy提出的方案走了一条完全不同的路：知识是显性的、可控的、可迁移的、格式是通用的。

这不是最简单的方案。你需要管理文件目录，需要理解agent的工作方式，需要在schema文件里想清楚自己要什么样的知识结构。

Karpathy自己也承认了这一点。他的原话是：agent proficiency是21世纪的核心技能。这些工具极其强大，它们听得懂人话，替你完成所有计算机层面的操作。

Lex Fridman透露他也在用类似的系统。他让LLM生成带JavaScript的交互式HTML来排序、筛选和可视化数据。他甚至会让系统生成一个临时的"迷你知识库"，在跑步时用语音模式和它对话。

McKinsey估计企业员工每天花1.8小时搜索内部信息，占工作日的25%。大多数公司拿AI当无状态聊天机器人用，每次对话结束，一切归零。Karpathy描述的这套模式，指向的是一个知识不再归零的未来。

Farza说他一年前用RAG做过类似系统，效果很差。一个让agent通过文件系统自行导航的知识库，就是比向量检索好用。他正在考虑把Farzapedia产品化。

已经有人在推着这件事往前走了。一个叫Edra的公司，由前Palantir高管创立，刚宣布拿了Sequoia领投的3000万美元A轮融资，要做企业版的LLM Wiki。

北京大学的一个团队发布了ΩmegaWiki，把Karpathy的维基概念扩展成了完整的科研管线，从论文阅读、gap检测、实验设计到论文撰写，维基是中央状态机，所有环节都从它读取、向它写回。

Karpathy在gist里留了一个未来方向：用维基数据做合成数据生成+微调，让AI把你的知识编进权重里，而不是每次都靠上下文窗口。这意味着你可以拥有一个真正"认识你"的私人模型。

这件事刚开始。目前还是极客和研究者在玩，大部分实现都是"脚本拼起来的hack"，Karpathy自己的原话。他说他认为这里面藏着一个了不起的新产品。谁来把它做成普通人也能用的东西，是接下来几个月值得看的事情。

【声明】内容源于网络

AIGCLINK

AIGCLINK公众号，致力于让每个想拥抱AI的人都能找到适合自己的AI产品

内容 573

粉丝 0

AIGCLINK AIGCLINK公众号，致力于让每个想拥抱AI的人都能找到适合自己的AI产品

总阅读5.0k

粉丝0

内容573