大数跨境

Agent 超级应用:ChatGPT 用来聊,Codex 干活的时代来了!

Agent 超级应用:ChatGPT 用来聊,Codex 干活的时代来了! DataFunSummit
2026-04-30
5
导读:如果你在用 ChatGPT、Claude、Claude Code 或 Codex,但不知道什么时候该用哪个
如果你在用 ChatGPT、Claude、Claude Code 或 Codex,但不知道什么时候该用哪个,这篇文章就是为你准备的。我们要讲的是怎么有效使用 AI Agent,特别是 OpenAI 推出的 Agent 工具 Codex。它看起来像 Claude Code,但本质上是一个更易用的界面,专门用来做知识工作和编程工作。

内容来自于博主 Riley Brown 的一条分享,短短 1 天,被 OpenAI 联合创始人转发,被 40 万人看过。他 Codex 拆成了七项和知识工作相关的核心能力,看完就能在 28 分钟内掌握 Codex 中 95% 的内容。我们觉得这个拆法很清楚,就在他的框架基础上做了整理和补充。

下面会拆解 Codex 的七大核心能力,每个能力都配真实案例。看完这篇,你会清楚 Codex 能做什么,以及它在你的工作流里应该放在什么位置。

01

一个本地化的 Agent 超级应用:Codex

Codex 是一个简洁的 AI Agent 界面,可以完全控制你的电脑。乍一看,它有点像 ChatGPT 或 Claude,因为你可以创建对话。但它们有一个本质区别:

  • 在 ChatGPT 或 Claude 上,你上传的文件和生成的文件都存储在云端。

  • 在 Codex 上,所有文件都存储在你的电脑上。

这个差异决定了 Codex 可以做很多 ChatGPT 做不到的事:创建动态图形视频、生成落地页、制作游戏和 3D 模拟、开发移动应用和桌面应用、生成带图表的 Excel 和 Word 文档、创建演示文稿并导出到 Canva。

更重要的是,Codex 可以完全控制你的电脑和浏览器。当我们逐一介绍它的 7 大核心能力时,你会意识到它真的是一个超级应用,可以做任何编程任务或知识工作任务。

02

Agent 超级应用 Codex,七大核心能力拆解

能力 1:完整的文件访问权限

Codex 的第一个能力是完整的文件访问权限。ChatGPT 的文件存在云端,Codex 的文件存在你的电脑上,而且 Codex 里的 Agent 对你的电脑有完整的访问权限。

真实案例:自动处理 60 张收据

我的 Downloads 文件夹里有一个“receipts to process”文件夹,里面有 60 张收据照片。我对 Codex 说:“在 Downloads 文件夹里,你会看到我需要处理的收据。我想让你在 Excel 表格里分析它们,创建图表来帮我可视化交易类型和其他模式。”

7 分钟后,Codex 完成了任务。它找到了文件夹,对 53 张收据进行了 OCR,提取了文本,对每笔交易进行了分类,然后在我的电脑上创建了一个 Excel 工作簿。

打开这个文件,里面有完整的仪表板:总支出 25,982,收据类别汇总、支付方式汇总、月度趋势图。这个 Excel 文件就在我的电脑上,我可以直接打开、编辑、分享。

用 Project 管理文件

既然 Codex 的所有文件都存在电脑上,如何保持组织?答案是用 Project。

在 Codex 里创建对话有两种方式:一种是直接创建 Chat,对话会显示在侧边栏,但不在项目里。另一种是创建 Project,连接到你电脑上的一个文件夹。我把所有项目都放在 Documents 文件夹里。

Project 的好处是,当 Agent 在项目里的对话中创建文档时,文档会自动存储在这个项目文件夹里。而且 Codex 支持多任务,你可以在同一个项目里同时创建多个对话。

能力 2:持久化记忆,agents.md 记偏好、memories 记过程

Codex 有两种类型的记忆:手动记忆和自动记忆。

手动记忆:agents.md

当你让 Agent 记住某些东西时,它会把这些信息存储在 agents.md 文件里。比如我对一个落地页的格式很满意,我说:“从现在开始,每当我要求一个落地页但没有指定样式时,你应该使用这个样式。记住,如果有很多文本内容,要使用目录。”

Codex 会自动把这个偏好添加到 agents.md 文件里。这个文件是一个随时间更新的活文档,你可以告诉 Agent 更新它,也可以手动编辑它。

自动记忆:memories 文件夹

还有一种记忆你永远不应该碰,就是自动记忆。Codex 会自动记录你让 Agent 做的所有任务,存储在 memories 文件夹里。你可以观察它,看看 Agent 观察到了你的什么,但不要手动修改。这个记忆会随着时间自动优化。

能力 3:插件生态,用 @ 就能调用各种插件

Codex 的第三个能力是插件。插件是可安装、可重用的包,可以把 Codex 连接到外部工具、应用和工作流程。现在有超过 100 个插件,可以连接 Gmail、Notion、Slack 等你已经在使用的工具。

真实案例:自动分析品牌合作邮件

我创建了一个新项目叫“Brand Deals”,对 Codex 说:“我想让你查看我过去两周的邮件,找出所有提供付费推广的品牌。对它们都做研究,放进一个表格里,附上相关笔记。”然后我用 @ 符号提及 Gmail 插件。

5 分钟后,Codex 搜索了我所有最近的邮件,创建了一个 Markdown 文件,列出了所有提供赞助的公司,写下了详细笔记,说明了他们的要求,还添加了研究笔记。因为它既然可以读我的邮件,也可以发送邮件,我可以直接让它回复这些邮件。

同时,我还让 Codex 用 Notion 插件查看我之前写的所有脚本,然后用我的风格写一个新脚本。它浏览了我的 Notion,找到了所有脚本,生成的文档真的是我的声音。

插件用 @ 符号调用,这是一个快速查看你可以访问哪些插件的方法。

能力 4:Skill 系统,把工作流程沉淀成可复用的指令

这是 Codex 最强大的能力之一。你可以把 Skill 想象成可重用的工作流程配方或 SOP,你的 Agent 可以一遍又一遍地使用。

Skill 是指令文件,存储在插件文件夹的 Skill 子文件夹里。每次你的 Agent 想使用这些技能时,它都会遵循这些指令。

创建 Skill 的两种方式

方式 1:提示词转技能

直接说:“我想让你创建一个叫 brand deal analysis 的技能,它做某某事。”这会给你一个可重用的指令文件,但质量可能不够好。

方式 2:手动工作流程法(推荐)

这是创建高质量 Skill 的最佳方式。你先让 Agent 做某事,然后来回迭代,直到你对输出满意。然后说:“我对这个输出满意了,把它变成一个技能。”

比如我让 Codex 把品牌合作邮件整理成电子表格,表格质量很高,按优先级用颜色编码。我说:“我对这个输出满意了。把它变成一个我可以使用的技能。”

Codex 会把整个工作流程变成指令,创建一个叫“brand deal research skill.md“的文件。以后我只需要按斜杠键,输入”brand deal researcher“,就可以随时使用这个技能。

Skill 可以包含使用特定插件的指令,因为归根结底,它只是做一个任务的指令。

Skill 可以持续优化

Skill 不是一次性的。每次你使用技能,都是一个让它变得更好的机会。

比如我用 Excalibur diagram 技能创建了一堆图表,发现它用的格式特别好。我说:“我真的很喜欢你在这里做的格式。请更新技能,让你总是把它们放在这些容器里,总是给我一个链接包含所有图表。”

Codex 会更新技能,以后每次使用都会应用这个改进。

Skill 用斜杠键调用,这与插件(用 @ 符号)不同。

能力 5:内置 GPT Image 2,直接生成图片

Codex 内置了 GPT Image 2,这是世界上最好的图像生成模型。你可以直接在 Codex 里生成图片。

真实案例:生成产品照片

我创建了一个新项目叫“content”,粘贴了一张毛衣的图片,说:“为我的毛衣公司生成产品照片。请用 GPT/image/2 创建 5 张图片,不同国籍的模特穿着这件毛衣。其中 3 张图片应该有一个人,一张图片应该有三个人,最后一张图片应该有五个人。”

Codex 使用内置的图像生成技能,生成了 5 张高质量的产品照片。这些图片直接存储在 content 项目文件夹里。

图像生成是 Codex 推荐的内置技能之一,你不需要启用它,默认就可以使用。

能力 6:浏览器控制和电脑控制,让 Agent 替你点鼠标

这是 Codex 最强大的能力之一。Codex 可以像人类一样控制你的电脑和浏览器。

真实案例 1:自动创建 Canva 演示文稿

我用 @computer use 插件说:“请在我的电脑上打开 Canva 应用,制作一个新演示文稿,把这 5 张图片每张放在一张幻灯片上。”

Codex 控制了我的电脑,打开 Canva,创建演示文稿,把所有图片放进去。我甚至没碰鼠标,它自动完成了整个过程。你可以看到 Codex 的鼠标轮廓在屏幕上移动。

真实案例 2:自动测试网页应用

我创建了一个网页应用,然后说:“把这个变成一个应用,然后测试界面,确保按钮和导航工作,使用 @browser use。”

Codex 在浏览器里打开应用,开始测试。它点击开始按钮,滚动页面,点击不同的测验,标记正确答案,测试侧面板,确保应用的所有部分都工作。整个过程完全自动化。

任何你可以在浏览器里打开的东西,你都可以用 @browser use 插件直接在 Codex 里测试它。

能力 7:自动化,把任何任务变成定时任务

Codex 的最后一个核心能力是自动化。你可以把任何任务变成定时任务。

真实案例:每周自动更新品牌合作表格

还记得我们创建的品牌合作分析 Skill 吗?我可以让它定期运行。我说:“请每周五上午 9 点做这件事,更新这个表格。”

Codex 会创建一个自动化,显示在自动化标签里。我可以看到它每周五上午 9 点运行,使用 brand deal researcher 技能扫描 Gmail,寻找付费推广、赞助、品牌合作等邮件,然后更新表格。

你可以在自动化标签里查看所有自动化任务,看到它们的运行时间、状态、上次运行时间。你也可以随时编辑它们。

03

还有一个全新功能:AI 实时监控你的屏幕

Codex 还有一个全新的功能叫 Chronicle。这是一个研究预览功能,你需要在设置里手动开启。

Chronicle 做什么?

Chronicle 会持续录制你的屏幕,所以它有你正在做什么的上下文。比如我在浏览器里打开了一个演示文稿,我说:“使用 Chronicle,告诉我我应该在我的 Codex 视觉演示文稿里添加什么。”

Chronicle 会调取我屏幕的最近截图,从我最近打开的东西那里获取上下文。然后它说:“基于 Chronicle,我会在你的视觉演示文稿里添加这些:一个 Codex 超级应用地图,一个提示词文件的完整控制循环图,一个 Chronicle 演示幻灯片,可用技能幻灯片,以及为什么选择 Codex 而不是其他工具的幻灯片。”

我没有上传任何图片或文档,它就知道我的幻灯片里有什么。因为 Chronicle 会监视我的屏幕并持续截图。

这个功能有点侵入性。 它会一直录制你的屏幕,所以在开启之前要考虑清楚。

04

写在最后:ChatGPT 用来聊,Codex 干活的时代来了

Codex 不是“更好的 ChatGPT”。ChatGPT 是云端对话工具,Codex 是本地化的 Agent 超级应用。

如果你只是偶尔问问题,用 ChatGPT 就够了。但如果你需要处理本地文件、构建可复用工作流程、让 AI 控制你的电脑,Codex 就是为你准备的工具。

往期推荐


Cider喜得基于Data+AI的融合创新实践!

DataBuilder 2.0重磅发布:本体论加持让Agent更懂业务!

告别“数据后视镜”:Palantir 战略价值与落地案例分享

知鸟CTO沈菁出任金融Agent论坛出品人:聚焦实时风控、智能投顾与合规客服落地案例

Dynamic Table:基于增量计算的新一代数据加工架构

Agent大规模落地元年,企业级开发工具链如何选型?陈迪豪领衔解读MCP、A2A与三大编排框架

打造沉浸式的 Vibe Analyzing 体验--AI 驱动的数据分析新交互

不仅是数据平台,更是“实施编排机器”:读懂Palantir AIP的底层逻辑

Palantir本体论+AI Agent,重塑企业级智能

告别Skill框架,Agentic AI全栈技术落地解析!


点个在看你最好看

SPRING HAS ARRIVED

【声明】内容源于网络
0
0
DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
内容 1045
粉丝 0
DataFunSummit 北京鸿润嘉诚企业管理咨询有限公司 DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
总阅读20.0k
粉丝0
内容1.0k