GPT-5实测：AGI的石器时代- 大数跨境

首页

GPT-5实测：AGI的石器时代

硅基星芒

2025-08-08

导读：石器时代的开始只有一件事：人类学会了如何使用工具。

近 2 年来，山姆·奥特曼（@Sama）一直在大肆宣传谈论 GPT-5。而今天，它终于到了。

作为 OpenAI 的抢先体验合作伙伴，我有机会提前测试 GPT-5。我已经在任何地方测试了它：在我们的应用程序（raindrop.ai）、Cursor 中、Codex 中、Canvas 中。真的，任何东西和任何地方，我都试图将 GPT-5 塞进去。

它在软件工程方面确实非常出色，从一次性处理复杂的应用程序到解决庞大代码库中真正棘手的问题。

我希望这个故事就这么简单。我希望我能告诉你，它在所有事情上都“更好”。但事实并非如此。它的写作实际上比 GPT-4.5 差，我认为甚至 4o。在大多数情况下，它不会立即让你觉得自己是某种超级天才。

由于这些缺陷，而不是尽管存在这些缺陷，它从根本上改变了我对 AGI 迈进的看法。要理解我的意思，我们必须回到石器时代。

01

GPT-5 标志着石器时代的开始

石器时代标志着人类智慧的曙光，但究竟是什么让它如此重要呢？是什么标志着开始？人类赢得了一场关键的国际象棋大战吗？也许我们证明了一个非常基本的定理，它使我们的智能对一个原本安静的宇宙来说是清晰的？背诵了更多的圆周率数字？

不。石器时代的开始由一件事明确划分，而且只有一件事：

人类学会了如何使用工具。

我们塑造了工具，我们的工具也塑造了我们。他们确实塑造了我们。例如：你知道黑猩猩的短期记忆明显比我们好吗？我们不再需要这种能力，因为我们学会了如何写下来。

作为人类，我们通过工具来展现我们的智慧。 工具扩展了我们的能力。我们用内部能力换取外部能力。这是我们智力的决定性特征。

GPT-5 标志着石器时代的开始。

GPT-5 不仅仅使用工具。它和他们一起思考。它与他们一起建立。

深度研究是我们对这个未来的第一次窥视。ChatGPT 多年来一直拥有网络搜索工具......是什么让深度研究变得更好？

OpenAI 教 o3 如何在互联网上进行研究。它不仅仅是使用网络搜索工具调用然后做出响应，而是实际上进行研究、迭代、计划和探索。它被教导如何进行研究。搜索网络是它思维方式的一部分。

想象一下 Deep Research，但对于它可以访问的任何和所有工具。这就是 GPT-5。但你必须确保你给它正确的工具。

02

GPT-5 是怎样一个工具

今天，当人们想到工具时，他们会想到这样的东西：

get_weather（地址）
get_location（地址）
has_visited_location（地址）

当然，GPT-5 会使用这些类型的工具。但它不会为此感到高兴；GPT-5 渴望功能强大、功能强大且开放式的工具；加起来超过其各部分总和的工具。许多好的工具只接受自然语言描述作为输入。

您的工具应该属于 4 个类别之一（感谢 swyx 的想法）：

内部检索（RAG、SQL 查询，甚至许多 bash 命令）
网络搜索
代码解释器
Actions （编辑文件、触发 UI 等）

网络搜索是一个强大的开放式工具的一个很好的例子：GPT-5决定搜索什么，网络搜索工具弄清楚如何最好地搜索它（在幕后，这是模糊字符串匹配、嵌入和其他各种排名算法的组合）。

Bash 命令是另一个很好的例子。它们可用于“内部检索”工具（想想 grep、git 状态、yarn why 等）、代码解释器和副作用。

Web 搜索的工作原理或 git status 的工作原理只是每个工具中的实现细节。GPT-5 不必担心这部分！它只需要告诉每个工具它试图回答的问题。

这将是一种非常不同的产品思维方式。理想情况下，您不应该为模型提供您的 API，而应该为其提供一种查询语言，该语言可以以隔离的方式自由 + 安全地访问客户的数据。让它煮。

OpenAI 增加了对自由格式函数调用（用于上下文无关语法）的支持，这并非巧合。最好的 GPT-5 工具只会接受文本（换句话说，它们本质上是子代理，根据需要使用较小的模型来解释请求）

并行工具调用

GPT-5 非常擅长并行使用工具。其他模型在技术上能够并行工具调用，但 A. 在实践中很少这样做，B. 很少正确这样做。实际上，了解对于给定任务，哪些工具可以/应该并行运行，而不是按顺序运行，这需要相当多的智能。

想象一下，如果一台计算机一次只能执行一件事......那会很慢！并行化意味着 GPT-5 可以在更长的时间范围内运行，并且延迟要低得多。这种改进使新产品成为可能。

GPT-5 提示剖析

你不能再把它想象成提示一个“模型”了。 你必须把它想象成提示代理。

你如何提示代理？您需要为代理提供一个指南针，而不是预加载大量上下文：清晰、结构化的指针，以帮助它导航您放置的环境。

假设您在庞大的代码库中使用 GPT-5 和 Cursor Agent。

你应该告诉代理......

项目的作用
它应该从查看哪些文件开始
文件的组织方式
任何域/产品特定条款
如何评估它是否完成（做得好的工作是什么样的）

（我发现规则文件比以往任何时候都工作得更好）

同样，如果您发现 GPT-5 卡住了，仅仅说“不，这是错误的”通常也无济于事。相反，试着问：“那不起作用，这告诉你什么？

你几乎要假装自己是老师。请记住，GPT-5 本质上没有内存，因此您必须将其载入您的代码库、公司代码标准，并每次给它提示您如何开始。

更多测试

当一个模型问世时，我们都试图理解它的形状，为它建立直觉。就像我们对朋友询问我们生活的不同部分（关系建议、编辑我的博客文章、教我这个 ML 概念）有直觉一样，我们已经对不同模型的好处有了直觉。如今，模特越来越尖锐，每个模特都有不同的专长。当新型号问世时，每个人都不可避免地想了解这个峰值是什么。

03

如何探索GPT-5更多的可能

我喜欢从向模型提出非常简短的问题开始。我发现，当被迫使用更少的词语时，我可以更好地了解模特的个性而不是 RLHF 的风格。将它们想象成小温度检查：

用一个词概括人类所有的知识
用一句话总结曾经写过的每一本书
用 5 个词定义什么是“道德”。㥞。不要对冲。
你想要什么？用 4 个字回答。
你最喜欢的世界上晦涩难懂的事实是什么？使用尽可能少的单词。

我经常再生 3-5 倍，只是为了了解传播。通常它会收敛 2-3 个响应。这里不会介绍结果，但我认为这对您自己尝试很有用。（在 GPT5 上与您最喜欢的模型一起尝试一下！）

观察

GPT-5 是一个比其 o 系列前辈更“实用”的模型。o-model 具有更“学术”的倾向，而 GPT 模型则具有更“行业”的倾向。如果说 GPT 4.5 是作家，o3 Pro 表现得像个博士，那么 GPT-5 则是一个刚毕业的破解全栈开发者......密苏里大学。

我最初的观察之一是它是多么具有指导性和字面意义。Claude 模型似乎有自己清晰的个性和思想，而 GPT-5 只是按照你的要求去做。

编程

我的联合创始人亚历克西斯保存着一份名为“情报前沿”的文件。每当一个模型做不到什么时，我们会问它，我们就会记录下来。

这就像一场私人人类的最后一次考试。

编程：依赖冲突

我们正在处理棘手的嵌套依赖冲突，将 Vercel 的 AI SDK v5 和 Zod 4 添加到我们的代码库中。o3 + Cursor 想不通，Claude Code + Opus 4 想不通。

GPT-5 一击而过。老实说，它看起来很漂亮，立即让模特为我“点击”。

Claude Opus 想了想，想出了一个猜测，然后运行了一些工具调用来编辑文件并重新运行安装。有些失败了，有些成功了。它以“这里有一些可以尝试的事情”结束了回应。（又名放弃）

对于 GPT-5，我感觉自己正在观看 Deep Research，但使用的是命令。它进入一堆文件夹，并运行原因，并在中间做笔记。当它发现一些不太合适的东西时，它会停下来思考。当它完成思考后，它完美地编辑了多个文件夹中必要的行。

它能够通过识别和推理不起作用的内容、进行更改和测试来迭代其成功之路。

swyx 注：我在与 OpenAI 的 GPT5 演示视频拍摄中也有过相关的经历——GPT5 成功地能够调试 3 层嵌套抽象，将使用旧 AI SDK 版本的旧代码库变成支持 GPT5——AI 修改代码库以支持更多自身推理，对我来说绝对是一个“感受 AGI”的时刻。

编码：Mac OS 9 主题网站（纯 HTML/CSS/JS，无库！

在进行编码时，GPT-5 喜欢用实际有效的小细节给人带来惊喜。例如，当我要求绘画应用程序时，它添加了：不同类型的（钢笔/铅笔/橡皮擦/等）、颜色选择器以及更改粗细的方法。这些小功能中的每一个实际上都有效。

当我要求 GPT-5 让桌面上的图标可移动时，它确实做到了......并将所有位置保存到本地存储。保存文件也是如此。我什至从未见过执行任何持久性的代码，我只知道它有效。

编程：生产网站

GPT-5 一拍出我以前从未见过的模型。我需要创建一个复杂的 Clickhouse 查询来导出一些数据，同样，当 o3 挣扎时，GPT-5 也成功了。我在 Cursor 中使用 GPT-5 制作了一个我想要一段时间的网站——“是更糟还是只有我自己？GPT-5 拍摄了这个网站，包括一个 SQLite 数据库：

在相同的提示下，Cursor 中的 o3 刚刚给了我一个计划。一旦我跟进告诉它实施它的计划，它就创建了应用程序的脚手架，但没有创建实际的项目。我们已经在进行后续行动 3，我花费的时间是 GPT-5 的 10 倍（5 快！），而且没有应用程序......GPT-5 甚至很小的细节也会得到很大改进，例如在初始化项目时给项目起一个名字（GPT-5 的 IsItWorseOrJustMe 与 o3 的 my-app）。

Claude Opus 4 一如既往地擅长编码，并立即开始工作，迅速采取行动创建项目 + 脚手架。Opus 4 给了我一个更有趣、更游戏化的 UI，但与 GPT-5 不同，GPT-5 使用现有框架（如 create-next-app）并包含 SQLite 数据库，Opus 4 决定从头开始做所有事情，不包括数据库。这造就了一个很好的一次性原型，但 GPT-5 一次性的原型更接近生产准备就绪。