Karpathy 和红杉最新对谈：值得AI 技术创业者注意的7个重点- 大数跨境

首页

Karpathy 和红杉最新对谈：值得AI 技术创业者注意的7个重点

AIGCLINK

2026-05-01

导读：Karpathy 讨论了关于 vibe coding、可验证性、锯齿智能等，这篇整理包含了所有不该错过的要点。

在红杉资本 AI Ascent 2026 大会上，Andrej Karpathy 和红杉合伙人 Stephanie Zhan 做了一场对谈。

他参与创立了 OpenAI，在特斯拉把 Autopilot 从零带到量产，去年他发明了 vibe coding 这个词。

整场对话里最值得创业者关注的，不是那些概念本身，而是他从技术前沿带回来的几条非常具体的提醒——关于选方向、招人、做产品，以及什么该交给ai模型、什么必须攥在自己手里。

要重新看待

大模型的代码能力

几个月前他突然说，自己作为程序员从未感到如此落后。

这场对话就是从这里开始的。

Karpathy 解释说，这个感觉不是因为自己退步了，而是去年 12 月基础模型和 agentic 工具出现了一次非常剧烈的跃迁。

那段时间他正好有空，大量使用 Claude Code 这类工具。他突然发现代码块的出错率降到了几乎可以忽略的程度，连续写完一整套功能，他不再需要纠正任何东西。

从那以后他完全进入了 vibe coding 状态，side project 文件夹被各种随机项目塞满。

他特别强调了一点：很多人对 AI 编程的印象还停在 2024 年的体验，但 12 月之后必须重新看一次，因为 agentic 的连贯工作流开始真正成立了。

软件 3.0：

程序本身变成了 prompt

顺着这个体验，Stephanie 问到了他那套经典的软件版本划分。

Karpathy 的解释是：软件 1.0 是人工写代码，软件 2.0 是通过准备数据集和设计目标函数来训练神经网络，编程变成了做数据集、选网络结构。

而软件 3.0 的局面是，在大规模互联网数据上训练出来的 GPT 类模型，本身变成了一个可编程的计算机。你的程序就是一个 prompt，上下文窗口就是你对 LLM 这个解释器的操作杠杆。

他用 OpenClaw 的安装方式来说明这不止是概念。正常你会写复杂的 shell 脚本来适配不同平台，但 OpenClaw 的安装现在就是一段让你复制粘贴给 agent 的文本。

Agent 自己会观察你的系统环境、自己调试、智能执行。

开发者要考虑的不再是代码怎么写，而是哪段指令文本该被粘贴给 agent。

复盘后的自我否定

更极致的例子是他做的 MenuGen。

他原本写了一个完整的 app，拍照识别菜单文字，调用图像生成模型，把每道菜的样子渲染出来展示给用户。技术栈涉及 OCR、图像生成、Vercel 部署。

然后他看到了软件 3.0 的做法：直接拍一张菜单照片丢给 Gemini，说一句用 Nano Banana 把菜品图片直接画进原图里。

输出就是一张修改过的图片，中间没有任何 app。

他当场评价自己写的 MenuGen 根本就不该存在，那是旧范式的产物。

他说人们必须重新去想，不是在已有事物的基础上提速，而是以前根本不可能存在的东西现在出现了。

他甚至举了自己做的 LLM 知识库项目，让大模型把一堆文档重新编译组织成一个 wiki，这是传统代码无法实现的信息处理方式。

2026 年回看

什么会变得理所当然

当被问到这个问题时，Karpathy 的推测非常极端。

他觉得未来可能会出现完全神经形态的计算机，输入原始音视频，用扩散模型直接渲染出动态 UI。

他提到上世纪五六十年代人们还在纠结计算机到底该像计算器还是像神经网络，后来我们走了计算器的路，现在神经网络只是虚拟化在传统计算机上运行的进程。

但他觉得这种关系会倒过来，神经网络变成宿主进程，CPU 变成协处理器，智能计算的大头会被神经网络吃走。

可验证性与模型的

锯齿状智能

Stephanie 之所以问到可验证性，是因为 Karpathy 之前专门写过这个话题。他在对谈里把前因后果讲得比文章里更细。

他的逻辑起点是这样一组对比：传统计算机能自动化的事情，是你能用代码精确描述的事。

而这一轮大模型能自动化的事情，是你能够验证结果的事。这两者之间有本质区别。

为什么是可验证性？

因为前沿实验室在训练这些模型时，底层是一套巨大的强化学习系统。

模型在训练中拿到的是可验证奖励信号——做对了就加分，做错了就扣分。

数学题有标准答案，代码能跑通测试、能编译通过，这类领域的奖励信号清晰、明确、无歧义，所以模型在这些方向上的能力会一路飙升。

而那些没有清晰验证信号的任务，或者很难定义什么叫“做得好”的领域，模型的表现就粗糙得多。

这就导致了一个他反复提到的现象——锯齿状智能。他在对谈里举了两个例子来说明这种锯齿有多离谱。

第一个例子他笑称为经典款：

之前很长一段时间里，你问模型草莓的单词“strawberry”有几个 r，它会答错。

这件事本身没什么实用价值，但它很直观地暴露了一个问题——一个能在数学竞赛里拿奖的模型，在一个连小学生都不会犯错的问题上翻车。

他说这个例子后来被实验室定向修补了，但也恰恰说明了这种能力不是均匀生长的。

他的第二个例子更贴近日常生活：五十米外有个洗车店，你应该开车去还是走路去？

他说现在最先进的模型会告诉你走路去，因为太近了。

它完全不考虑你手里可能拿着东西，不考虑到洗车店本身就是为了用车。

而与此同时，同一个模型可以重构十万行代码库，可以发现零日漏洞。

这两种能力之间存在一个巨大的断层，而断层的位置很难预测。

Karpathy 对这个现象的解释并不仅仅是理论推演。

他还讲了一个他确认过的事实：从 GPT-3.5 到 GPT-4，很多人注意到国际象棋水平涨了很多，大家本能地认为这是模型整体推理能力提升的自然结果。

但实际情况是，有人往预训练数据里灌进了海量棋谱。能力是定向喂进去的，不是自己长出来的。

这个细节非常关键，因为它直接指向了他对在场创业者和工程师的核心提醒：一个模型在某个领域强，不代表它在你的领域也强。

你必须自己去试，去摸清你的任务到底在不在模型的强化学习回路上。如果在，你会觉得它是神器。如果不在，你会发现它处处卡壳。

遇到后一种情况，就需要自己做 fine-tuning，自己去造那个奖励信号。

他还补充了一点对创始人有实操意义的观察：可验证性这件事不止对实验室有用。

如果一个领域本身具备可验证的结构，即使大实验室还没投入资源去覆盖它，你也完全可以自己搭建 RL 环境、准备数据、做 fine-tuning。

可验证性意味着这条路在技术上走得通，剩下的只是你愿不愿意为你的场景专门投入。

从 vibe coding

到 agentic engineering

接着话题转到了 vibe coding 和 agentic engineering 的区别。

Karpathy 的区分非常明确。

Vibe coding 提高的是所有人的编程下限，让没技术背景的人也能做出东西。

Agentic engineering 则是在不降低专业软件质量标准的前提下，用这些易出错、随机、能力不均匀的 agent 把开发速度拉起来。

他说以前业界讨论 10 倍工程师，现在做得好的 agentic engineer 产出倍数远超十倍。

在招聘上他的建议也直接。

他认为别再出算法题让候选人解了，那种方式测的是旧时代的技能。

他建议给候选人一个完整的大项目，比如做一个面向 agent 的 Twitter 克隆，要求安全稳定，然后用多个高级 agent 去攻击部署好的网站，看能不能攻破。

在这个场景里观察候选人怎么用工具、怎么架构、怎么保质量，才是 agentic 时代该看的。

外包不了的理解

关于人的价值还剩下什么，Karpathy 用一条他反复回味的推文做了总结：你可以外包思考，但外包不了理解。

他举例说现在写张量操作代码，自己已经完全记不住 keepdim 是 keepdims 还是 keep_dim、reshape 和 permute 的细微差别，这些 agent 记得住。但你必须理解底层有 view 和 storage 的区别，否则会在高性能场景里无谓拷贝内存。

在 MenuGen 的用户系统里，agent 曾经拿 Stripe 邮箱和 Google 登录邮箱去交叉匹配账户资金，任何有经验的工程师都知道这两个邮箱可以完全不同，不能当用户 ID 用。

这类设计决策、边界判断和审美，目前仍然完全在人身上。

他承认有时候看 agent 写的代码会心里咯噔一下，功能跑得通但特别臃肿、充满复制粘贴、抽象层又丑又脆。

他试过反复让模型把代码简化再简化，效果极差，感觉就像在拔牙，因为已经走到了模型 RL 回路的边缘。