
近 2 年来,山姆·奥特曼(@Sama)一直在大肆宣传谈论 GPT-5。而今天,它终于到了。
作为 OpenAI 的抢先体验合作伙伴,我有机会提前测试 GPT-5。我已经在任何地方测试了它:在我们的应用程序 (raindrop.ai)、Cursor 中、Codex 中、Canvas 中。真的,任何东西和任何地方,我都试图将 GPT-5 塞进去。
它在软件工程方面确实非常出色,从一次性处理复杂的应用程序到解决庞大代码库中真正棘手的问题。
我希望这个故事就这么简单。我希望我能告诉你,它在所有事情上都“更好”。但事实并非如此。它的写作实际上比 GPT-4.5 差,我认为甚至 4o。在大多数情况下,它不会立即让你觉得自己是某种超级天才。
由于这些缺陷,而不是尽管存在这些缺陷,它从根本上改变了我对 AGI 迈进的看法。要理解我的意思,我们必须回到石器时代。
01
GPT-5 标志着石器时代的开始
石器时代标志着人类智慧的曙光,但究竟是什么让它如此重要呢?是什么标志着开始?人类赢得了一场关键的国际象棋大战吗?也许我们证明了一个非常基本的定理,它使我们的智能对一个原本安静的宇宙来说是清晰的?背诵了更多的圆周率数字?
不。石器时代的开始由一件事明确划分,而且只有一件事:
人类学会了如何使用工具。
我们塑造了工具,我们的工具也塑造了我们。他们确实塑造了我们。例如:你知道黑猩猩的短期记忆明显比我们好吗?我们不再需要这种能力,因为我们学会了如何写下来。
作为人类,我们通过工具来展现我们的智慧。 工具扩展了我们的能力。我们用内部能力换取外部能力。这是我们智力的决定性特征。
GPT-5 标志着石器时代的开始。
GPT-5 不仅仅使用工具。它和他们一起思考。它与他们一起建立。
深度研究是我们对这个未来的第一次窥视。ChatGPT 多年来一直拥有网络搜索工具......是什么让深度研究变得更好?
OpenAI 教 o3 如何在互联网上进行研究。它不仅仅是使用网络搜索工具调用然后做出响应,而是实际上进行研究、迭代、计划和探索。它被教导如何进行研究。搜索网络是它思维方式的一部分。
想象一下 Deep Research,但对于它可以访问的任何和所有工具。这就是 GPT-5。但你必须确保你给它正确的工具。
02
get_weather(地址)
get_location(地址)
has_visited_location(地址)
当然,GPT-5 会使用这些类型的工具。但它不会为此感到高兴;GPT-5 渴望功能强大、功能强大且开放式的工具;加起来超过其各部分总和的工具。许多好的工具只接受自然语言描述作为输入。
您的工具应该属于 4 个类别之一(感谢 swyx 的想法):
内部检索(RAG、SQL 查询,甚至许多 bash 命令)
网络搜索
代码解释器
- Actions (编辑文件、触发 UI 等)
网络搜索是一个强大的开放式工具的一个很好的例子:GPT-5决定搜索什么,网络搜索工具弄清楚如何最好地搜索它(在幕后,这是模糊字符串匹配、嵌入和其他各种排名算法的组合)。
Bash 命令是另一个很好的例子。它们可用于“内部检索”工具(想想 grep、git 状态、yarn why 等)、代码解释器和副作用。
Web 搜索的工作原理或 git status 的工作原理只是每个工具中的实现细节。GPT-5 不必担心这部分!它只需要告诉每个工具它试图回答的问题。
这将是一种非常不同的产品思维方式。理想情况下,您不应该为模型提供您的 API,而应该为其提供一种查询语言,该语言可以以隔离的方式自由 + 安全地访问客户的数据。让它煮。
OpenAI 增加了对自由格式函数调用(用于上下文无关语法)的支持,这并非巧合。最好的 GPT-5 工具只会接受文本(换句话说,它们本质上是子代理,根据需要使用较小的模型来解释请求)
并行工具调用
GPT-5 非常擅长并行使用工具。其他模型在技术上能够并行工具调用,但 A. 在实践中很少这样做,B. 很少正确这样做。实际上,了解对于给定任务,哪些工具可以/应该并行运行,而不是按顺序运行,这需要相当多的智能。
想象一下,如果一台计算机一次只能执行一件事......那会很慢!并行化意味着 GPT-5 可以在更长的时间范围内运行,并且延迟要低得多。这种改进使新产品成为可能。
GPT-5 提示剖析
你不能再把它想象成提示一个“模型”了。 你必须把它想象成提示代理。
你如何提示代理?您需要为代理提供一个指南针,而不是预加载大量上下文: 清晰、结构化的指针,以帮助它导航您放置的环境。
假设您在庞大的代码库中使用 GPT-5 和 Cursor Agent。
你应该告诉代理......
项目的作用
它应该从查看哪些文件开始
文件的组织方式
任何域/产品特定条款
如何评估它是否完成(做得好的工作是什么样的)
(我发现规则文件比以往任何时候都工作得更好)
同样,如果您发现 GPT-5 卡住了,仅仅说“不,这是错误的”通常也无济于事。相反,试着问:“那不起作用,这告诉你什么?
你几乎要假装自己是老师。请记住,GPT-5 本质上没有内存,因此您必须将其载入您的代码库、公司代码标准,并每次给它提示您如何开始。
更多测试
当一个模型问世时,我们都试图理解它的形状,为它建立直觉。就像我们对朋友询问我们生活的不同部分(关系建议、编辑我的博客文章、教我这个 ML 概念)有直觉一样,我们已经对不同模型的好处有了直觉。如今,模特越来越尖锐,每个模特都有不同的专长。当新型号问世时,每个人都不可避免地想了解这个峰值是什么。
03
用一个词概括人类所有的知识
用一句话总结曾经写过的每一本书
用 5 个词定义什么是“道德”。㥞。不要对冲。
你想要什么?用 4 个字回答。
你最喜欢的世界上晦涩难懂的事实是什么?使用尽可能少的单词。
我经常再生 3-5 倍,只是为了了解传播。通常它会收敛 2-3 个响应。这里不会介绍结果,但我认为这对您自己尝试很有用。(在 GPT5 上与您最喜欢的模型一起尝试一下!)
观察
GPT-5 是一个比其 o 系列前辈更“实用”的模型。o-model 具有更“学术”的倾向,而 GPT 模型则具有更“行业”的倾向。如果说 GPT 4.5 是作家,o3 Pro 表现得像个博士,那么 GPT-5 则是一个刚毕业的破解全栈开发者......密苏里大学。
我最初的观察之一是它是多么具有指导性和字面意义。Claude 模型似乎有自己清晰的个性和思想,而 GPT-5 只是按照你的要求去做。
编程
我的联合创始人亚历克西斯保存着一份名为“情报前沿”的文件。每当一个模型做不到什么时,我们会问它,我们就会记录下来。
这就像一场私人人类的最后一次考试。
编程:依赖冲突
我们正在处理棘手的嵌套依赖冲突,将 Vercel 的 AI SDK v5 和 Zod 4 添加到我们的代码库中。o3 + Cursor 想不通,Claude Code + Opus 4 想不通。
GPT-5 一击而过。老实说,它看起来很漂亮,立即让模特为我“点击”。
上图显示了 claude-4-opus 与 gpt-5 处理此特定问题的方式的不同之处。
Claude Opus 想了想,想出了一个猜测,然后运行了一些工具调用来编辑文件并重新运行安装。有些失败了,有些成功了。它以“这里有一些可以尝试的事情”结束了回应。(又名放弃)
对于 GPT-5,我感觉自己正在观看 Deep Research,但使用的是命令 。它进入一堆文件夹,并运行原因,并在中间做笔记。当它发现一些不太合适的东西时,它会停下来思考。当它完成思考后,它完美地编辑了多个文件夹中必要的行。
它能够通过识别和推理不起作用的内容、进行更改和测试来迭代其成功之路。
swyx 注:我在与 OpenAI 的 GPT5 演示视频拍摄中也有过相关的经历——GPT5 成功地能够调试 3 层嵌套抽象,将使用旧 AI SDK 版本的旧代码库变成支持 GPT5——AI 修改代码库以支持更多自身推理,对我来说绝对是一个“感受 AGI”的时刻。
编码:Mac OS 9 主题网站(纯 HTML/CSS/JS,无库!
在进行编码时,GPT-5 喜欢用实际有效的小细节给人带来惊喜。 例如,当我要求绘画应用程序时,它添加了:不同类型的(钢笔/铅笔/橡皮擦/等)、颜色选择器以及更改粗细的方法。这些小功能中的每一个实际上都有效。
当我要求 GPT-5 让桌面上的图标可移动时,它确实做到了......并将所有位置保存到本地存储。保存文件也是如此。我什至从未见过执行任何持久性的代码,我只知道它有效。
编程:生产网站
GPT-5 一拍出我以前从未见过的模型。我需要创建一个复杂的 Clickhouse 查询来导出一些数据,同样,当 o3 挣扎时,GPT-5 也成功了。我在 Cursor 中使用 GPT-5 制作了一个我想要一段时间的网站——“是更糟还是只有我自己?GPT-5 拍摄了这个网站,包括一个 SQLite 数据库:
在相同的提示下,Cursor 中的 o3 刚刚给了我一个计划。一旦我跟进告诉它实施它的计划,它就创建了应用程序的脚手架,但没有创建实际的项目。我们已经在进行后续行动 3,我花费的时间是 GPT-5 的 10 倍(5 快!),而且没有应用程序......GPT-5 甚至很小的细节也会得到很大改进,例如在初始化项目时给项目起一个名字(GPT-5 的 IsItWorseOrJustMe 与 o3 的 my-app)。
Claude Opus 4 一如既往地擅长编码,并立即开始工作,迅速采取行动创建项目 + 脚手架。Opus 4 给了我一个更有趣、更游戏化的 UI,但与 GPT-5 不同,GPT-5 使用现有框架(如 create-next-app)并包含 SQLite 数据库,Opus 4 决定从头开始做所有事情,不包括数据库。这造就了一个很好的一次性原型,但 GPT-5 一次性的原型更接近生产准备就绪。
新发布的 Claude Opus 4.1 显然比 Opus 4 雄心勃勃,也尝试了像 GPT-5 一样配备 SQLite 数据库的全栈应用程序。然而,它确实很难将所有部分放在一起。虽然 GPT-5 在一次性中运行完美,但 4.1 遇到了构建错误,需要多次来回才能解决。
工具
在改进的工具使用、并行工具调用和成本之间,GPT-5 显然是为长时间运行的代理而构建的。
我们长期以来一直想在 Raindrop 中添加一个代理 。作为一家人工智能监控公司,我们对这种体验的门槛异常高。实际发货根本不灵活/可靠/快速......直到 GPT-5。
今天早上,我们开始向一些处于测试阶段的客户推出它。它更擅长从工具调用失败中恢复,决定何时创建图形与图表,更擅长了解它自己的局限性。结合我们的代理监控,我们能够拥有强大的正反馈循环,为客户创建一个真正有用的代理。
写作
虽然 GPT-5 继续在 SWE 阶梯上不断攀升,但它确实不是一个伟大的作家。GPT 4.5 和 DeepSeek R1 还是要好得多。(也许 OpenAI 只会添加一个写作工具调用,调用一个专用的写作模型——他们有 取笑了他们的创意写作模式,我们真的很想看到它!
从商业写作来看,比如改进我的 LinkedIn 帖子,GPT-4.5 更忠实于我的语气,并为我提供了我实际使用的部分文本,而 GPT-5 则更像是“LinkedIn-slop”风格的响应。
虽然我从不使用 AI 进行个人写作(因为我坚信写作思考),但我很好奇 4.5 和 5 在处理结构化程度较低的内容时会如何叠加。虽然两者都不是很好,但 4.5 再次更符合我的语气,并且听起来远不如同类产品更像 LLM slop。
04
我认为 GPT-5 无疑是世界上最好的编码(编程)模型。 我们可能已经完成了软件工程自动化的 65% 左右,现在我们可能已经完成了 72% 左右。对我来说,这是自 3.5 十四行诗以来最大的飞跃。
我非常想知道其他人将如何接受这个模型。我的猜测是,大多数非开发人员几个月内都不会得到它。我们将不得不等待这些模型集成到产品中。
下一步是什么?
山姆的待办事项清如下:

请添加微信:cutstill
添加微信请备注姓名公司与来意


