随着时代的发展,AI越来越进步,人类的工作量却不降反增?
这不是暂时的反直觉,而是结构性变化的结果:利用模型把过去的专业能力进行商品化,由于供给暴增导致同质化泛滥,于是差异成了新的稀缺,而差异只能来自人类对当下情境的判断力。
基准测试的指数增长不代表模型在超越你,它只是在爬你画的框架。
1. AI 加速跑,工作却在原地等你
有一个反直觉的事实正在 AI 行业内部悄悄发酵。
Every 公司的 CEO Dan Shipper 最近写了一篇文章,讲他团队内部的真实体验。Every 把所有能自动化的环节全部进行了自动化,从编码到写作到设计到客服,全线铺开。他们是 OpenAI、Anthropic、Google 新模型的早期内测用户,按理说应该是最不需要人类劳动力的团队了。
结果他们要干的活反而比以往更多。将近 30 人的团队,不但一个没裁,还在不停的招人。客服还是真人坐镇,只是多了 agent 辅助。而写作和编辑也还是真人在做。
这不是孤例。如果你跟 AI 行业的早期使用者聊,听到的都是同一个调子:相比之前,要做的事反而更多了。
这话跟我们从新闻当中听到的完全相反。新闻告诉你 ,AI 要取代你的工作,基准测试曲线在指数级飙升,连 Citadel 的 Ken Griffin 都说“这不是中端白领工作,这是技术含量极高的工作在被 agentic AI 自动化”。但走到实际使用者中间,故事却翻了个面。
那么,哪个版本才是真的?
2. 廉价的能力正在淹没市场
要理解这个悖论,先得弄明白 AI 到底在做什么。
当前的语言模型,本质上是在人类专业能力的“可见残留物”上训练的。代码、文章、图片、客服记录、产品规格,所有这些被完成过的工作副产品,被模型吸收后打包成廉价商品向所有人开放。
一个简单的推论:曾经稀缺的技能变得普及了。提一个 Pull Request、做一张缩略图、写一份邮件,人人都能干。这是好事吗?从短期来看,是的。
Every 内部的现象印证了这一点。运营和客服人员开始写代码提 PR,市场人员制作缩略图,工程师和产品经理写起了文章和指南,这些事他们以前从来不碰。
但问题出在下一步。
当所有人都能调用同样的模型、同样训练好的能力时,产出的东西就变得一模一样了。默认输出的东西范围从“还行”到“纯粹垃圾”之间。不是某一种特定的错误,而是肉眼可见的同质化,翻来覆去地重复。
OpenClaw 这个开源 AI agent 项目,截至今年 5 月已经收到了 44,469 个 PR。对比一下,Kubernetes 在 2022 年全年也就 5,200 个 PR。数量暴增的背后是同样的模型能力在被大量复用,结果就是供给泛滥,品质稀释。
当一个东西变得且千篇一律时,它就变成了商品。
3. 差异,才是新的稀缺
人类对同质化的容忍度比你想象的低。
有一个非常有趣的观察:人在第一次看到新模型的能力时会被震撼,甚至害怕。但几个月后,它就变得稀松平常了。这是因为你的标准在不断变化的。你不再满足于随便一个 React 应用或研究报告,而是想要一个看起来恰好适合这个人、这家公司、这个情境的东西。大多数人更想要的是鲜活的、花了更多时间和精力才能做出来的东西。
当工作变得富裕而且到处看起来一样时,那些不符合模式的工作就成了稀缺品。
模型只知道已经做过的工作,而人类知道现在、此时此刻需要做什么。这个区别决定了 AI 能做多少、做不了多少。
这不是一个暂时性的缺口,等模型变强了就会消失的东西。这是一个结构性的差距,根植于语言模型的工作方式本身。
你可以这样理解:模型是把过去的经验打包给你,但正在发生的事情还没有来得及变成语料。一个情境一旦被固化为文字,它就成了一具尸体。人类对一个特定的时刻、客户、代码库或者对话是有实时感知的,这种鲜活感模型只能模拟,无法真正拥有。
这就是廉价的专家能力正在创造更多专家需求的深层原因。运营人员用 AI 提了 PR,需要工程师来审查。市场人员用 AI 做缩略图,需要设计师来细化。工程师用 AI 写文章,需要编辑来把关。
每一个廉价产出的背后,都站着一个人在处理它产生的后果。
4. 基准测试的陷阱
到这里你可能要问:那基准测试的指数级进步怎么说?模型迟早要追上来的。
这是一个容易犯的错。Dan 给它起了个名字叫“图表精神病”。当你盯着 METR 的时间线,看着模型的自主时长从几分钟飙到几小时,再外推一下,就觉得所有工作都要消失了。
但基准测试有一个隐藏的结构性特征:它是在框架内衡量表现的。
要测试一个模型,你得先给它一个提示。这个提示定义了一个小宇宙、一组重要的事情、一种处理问题的方式。模型的表现反映的是它在框架中的能力,而非模型本身的智能。
Dan 在内部做了一个高级工程师基准测试。把一段 vibe coding 写出来的满是问题的代码库扔给模型,让它做一次第一性原理重写。GPT-5.5 得了 62 分,人类高级工程师在 80 到 90 分。
两者看起来只差 30 分了,似乎很快就能追上。但关键是,那个 62 分的背后有大把的人类智慧在起作用。你得决定什么时候需要重写、重写范围是什么、哪些代码要保留、架构要不要换、数据库和缓存服务器怎么处理、现有数据怎么办......这些决策都是在模型开始工作之前就已经由人类完成的工作。而基准测试是不测量这一部分的。
基准测试真正告诉我们的是:模型在你给它设定好的框架内能跑多快。它不能告诉我们模型已经变成了你。这个范畴错误,就是恐慌的底层来源。
5. 框架不是框定者
Dan 的论证在最深处触及了一个哲学问题:即使 AGI 到来了,会怎么样?
他给出的回答颇为巧妙。如果一直持续运行 agent 在经济上是划算的,那就算 AGI。但这个 AGI 仍然需要人类给它设定目标。它可以自主选择和切换框架,但框架不是框定者。不管模型变得多强大,仍然有一个人在引导它达成某个目标。
文章的最后有一个小故事:一个愚蠢的人每天早上找不到自己的衣服,有一天他把每件衣服的位置都记在纸上。第二天按纸条穿戴整齐了,却发现自己找不到了。
我们现在就好比这样的情况。那些基准测试分数,就是我们的纸条。我们把它当成了自己。
每次看到模型在某个新任务上取得突破,我们就恐慌了一次。但实际上,我们只是看到模型爬上了我们刚画出来的那条边界。边界是我们画的,模型爬上去了,然后我们又画一条新的。
芝诺悖论里的乌龟和阿喀琉斯,人类是那只乌龟。你以为永远落后几步就输了,但事实是你总会在前面发现新的赛道。
6. 这对你意味着什么
不管你现在做什么工作,总有一种工作形态会结构性地跑在模型前面:用 AI 解决你今天看到的、当下的问题。
具体的技能可能会被取代。写代码、做翻译、画图,这些都是可见的残留物,最容易变成商品。但判断力、情境感、对“现在什么重要”的实时把握,这些能力不会被取代。不是因为它们更高级,而是因为它们还没有被足够多的人完成过,还没有凝固成可供训练的语料。
这篇文章给我最大的启发不是“AI 不会取代你”,那是一个过于简单的结论。更深一层的洞察是:AI 越进步,人类判断力的价值就越被放大,而不是被压缩。
不是因为 AI 不够强,恰恰是因为它太强了。它让所有人都能做出 70 分的东西,于是 90 分的东西就变得更稀缺、更有价值。而这个 90 分,在当前的技术框架下,仍然需要有一个人做出决定。

