引言.
OpenAI 的新版 Codex 昨天(4月21日)凌晨又更新了,这次动静不小。
前几天(4月17日)刚看到它拿到了接管 Mac 电脑、点鼠标的权限,昨天凌晨又补齐了最关键的拼图——Chronicle(屏幕记忆)。现在它不仅能动鼠标,还能盯着屏幕看。关键是,这些能力直接对免费用户开放。
这种节奏,感觉 Agent 时代被直接推到了家门口。
思考.
有一说一,这次 Codex 的更新,嗅觉极其灵敏,甚至有点激进。
如果你关注过最近开源界最火的几个项目,比如主打全流程自动化的 OpenClaw,或者是专攻极速推理执行的 Hermes,你会发现 OpenAI 这次的落脚点和它们不谋而合。
大家都在意识到一件事:对话框已经成了 AI 进化的枷锁。
以前我们把 AI 当成一个懂王,有问题问它,它负责查资料回短信。但这太慢了。
OpenClaw 追求的是直接接管浏览器和桌面,而 Hermes 强调的是模型在执行动作时的确定性。
OpenAI 这次把 Chronicle 塞进 Codex,本质上是把感知层从文本框直接下放到了显存层。它不再需要你解释这儿报错了里的这儿是什么意思,它自己能从屏幕 OCR 里读出来。
这其实就是一种动作预判。
当 Codex 开始免费提供 GPT的顶级模型时,它卖的已经不是智力,而是权限。它在赌,比起让用户学会写高级 Prompt,直接让 AI 站在用户背后看屏幕、控终端、刷 GitHub 评审,才是真正让 AI 跑起来的终极形态。
AI+.
为了看看它到底有多少斤两,我直接在 Mac 上把它跑了起来,测了日常最容易遇到的四个场景。
实测一:直接看屏幕找 Bug(Chronicle 屏幕记忆)
昨天凌晨刚上的大招,号称能直接看懂屏幕。实测下来,情况有点拉胯。
本以为它一眼就能看懂代码哪里飘红,结果实际操作中,不仅需要来回反复引导,中间还要经历好几个确认步骤。
一路折腾下来,最后给出的修改结果也差强人意。完全没有官方演示里一次过关的爽快感。
实测二:接管电脑桌面干活(Computer Use)
让它自己点鼠标改代码。
前提条件是必须提前装好两个前置插件,并配置好桌面识别系统。
原以为全副武装后就能当甩手掌柜,但一上手就发现它的桌面理解能力有很大问题。
它经常找不准窗口,或者点错位置,操作起来像个刚学会用鼠标的新手。要想让它熟练操作私人电脑里的各个软件,估计还得靠海量的日常任务来喂它的肌肉记忆。
实测三:代码配图一把抓(混合生成)
搓带图的网页 Demo,单张配图的质量确实很高,直接嵌进代码里很顺滑。
但也暴露出一个小缺陷:如果要求它生成一整套系列配图,要求图与图之间有明显的区分度,它目前还做不到。
给出的几张图长得极其相似,同质化相对严重。对视觉要求比较高的朋友,这一块目前还是得靠人工去微调,不过这也因人而异。
实测四:丢到后台全自动挂机(长线任务)
这是本次测试中最让人惊喜的一环。
我给它布置了一个开发卡牌软件的长线任务,直接把它扔在后台,跑去干别的事。
它硬是自己默默运行了 3 个小时,一步步把卡牌成品的软件给完整敲出来了。中间不需要人盯着,算是真正展现出了 Agent 自动化的潜能。
祛魅与吐槽.
一圈跑下来,发现 Codex 离网传的彻底颠覆还有段距离。
它的上限确实很高,但动手能力依然是个半成品。屏幕记忆经常卡壳,理解不了太复杂的报错界面;接管电脑听起来很酷,目前还得装插件伺候,操作起来跌跌撞撞。如果是冲着完全释放双手去用,目前肯定会失望。它现在更像是一个智商奇高、但动作笨拙的实习生,遇到精细活还是得人手把手教。
三句话.
结合刚才这一圈的实测体验,关于这次进化后的 Codex 到底是个什么段位,最后照例留三句话:
1.现在的 Codex 说白了,就是一个能直接连着 ChatGPT 干活的桌面端。不用费劲折腾复杂的 API,只要在官方计划里,开箱就能跑。
2.它的高智商大脑和半成品操作目前十分割裂。日常最舒服的用法就是扬长避短,把它当个不知疲倦的后台打工人,扔些耗时长的代码重活让它自己跑,或者专门用来快速生图和搓 Demo。
3. 从这次急匆匆的更新也能看出来,OpenAI 确实着急了。眼看市面上各种接管电脑的工具满天飞,官方干脆带着顶配模型亲自下场卷桌面端 Agent。虽然现在手脚还不够麻利,但巨头一旦开启肉搏战,以后的电脑桌面肯定有一场大戏,咱们拭目以待。
彩蛋.
这次 Codex 的配置确实有点繁琐,特别是 Computer Use 需要用到的几个前置插件和环境配置。我整理了一份保姆级的《Codex 桌面接管与环境配置实操手册》。
老规矩,后台回复「手册」,直接拿走。

