越自动化，越需要人- 大数跨境

首页

越自动化，越需要人

AI驱动数字化转型

2026-05-28

导读：随着时代的发展，AI越来越进步，人类的工作量却不降反增？这不是暂时的反直觉，而是结构性变化的结果。基准测试的指数增长不代表模型在超越你，它只是在爬你画的框架。

随着时代的发展，AI越来越进步，人类的工作量却不降反增？

这不是暂时的反直觉，而是结构性变化的结果：利用模型把过去的专业能力进行商品化，由于供给暴增导致同质化泛滥，于是差异成了新的稀缺，而差异只能来自人类对当下情境的判断力。

基准测试的指数增长不代表模型在超越你，它只是在爬你画的框架。

1. AI 加速跑，工作却在原地等你

有一个反直觉的事实正在 AI 行业内部悄悄发酵。

Every 公司的 CEO Dan Shipper 最近写了一篇文章，讲他团队内部的真实体验。Every 把所有能自动化的环节全部进行了自动化，从编码到写作到设计到客服，全线铺开。他们是 OpenAI、Anthropic、Google 新模型的早期内测用户，按理说应该是最不需要人类劳动力的团队了。

结果他们要干的活反而比以往更多。将近 30 人的团队，不但一个没裁，还在不停的招人。客服还是真人坐镇，只是多了 agent 辅助。而写作和编辑也还是真人在做。

这不是孤例。如果你跟 AI 行业的早期使用者聊，听到的都是同一个调子：相比之前，要做的事反而更多了。

这话跟我们从新闻当中听到的完全相反。新闻告诉你，AI 要取代你的工作，基准测试曲线在指数级飙升，连 Citadel 的 Ken Griffin 都说“这不是中端白领工作，这是技术含量极高的工作在被 agentic AI 自动化”。但走到实际使用者中间，故事却翻了个面。

那么，哪个版本才是真的？

2. 廉价的能力正在淹没市场

要理解这个悖论，先得弄明白 AI 到底在做什么。

当前的语言模型，本质上是在人类专业能力的“可见残留物”上训练的。代码、文章、图片、客服记录、产品规格，所有这些被完成过的工作副产品，被模型吸收后打包成廉价商品向所有人开放。

一个简单的推论：曾经稀缺的技能变得普及了。提一个 Pull Request、做一张缩略图、写一份邮件，人人都能干。这是好事吗？从短期来看，是的。

Every 内部的现象印证了这一点。运营和客服人员开始写代码提 PR，市场人员制作缩略图，工程师和产品经理写起了文章和指南，这些事他们以前从来不碰。

但问题出在下一步。

当所有人都能调用同样的模型、同样训练好的能力时，产出的东西就变得一模一样了。默认输出的东西范围从“还行”到“纯粹垃圾”之间。不是某一种特定的错误，而是肉眼可见的同质化，翻来覆去地重复。

OpenClaw 这个开源 AI agent 项目，截至今年 5 月已经收到了 44,469 个 PR。对比一下，Kubernetes 在 2022 年全年也就 5,200 个 PR。数量暴增的背后是同样的模型能力在被大量复用，结果就是供给泛滥，品质稀释。

当一个东西变得且千篇一律时，它就变成了商品。

3. 差异，才是新的稀缺

人类对同质化的容忍度比你想象的低。

有一个非常有趣的观察：人在第一次看到新模型的能力时会被震撼，甚至害怕。但几个月后，它就变得稀松平常了。这是因为你的标准在不断变化的。你不再满足于随便一个 React 应用或研究报告，而是想要一个看起来恰好适合这个人、这家公司、这个情境的东西。大多数人更想要的是鲜活的、花了更多时间和精力才能做出来的东西。

当工作变得富裕而且到处看起来一样时，那些不符合模式的工作就成了稀缺品。

模型只知道已经做过的工作，而人类知道现在、此时此刻需要做什么。这个区别决定了 AI 能做多少、做不了多少。

这不是一个暂时性的缺口，等模型变强了就会消失的东西。这是一个结构性的差距，根植于语言模型的工作方式本身。

你可以这样理解：模型是把过去的经验打包给你，但正在发生的事情还没有来得及变成语料。一个情境一旦被固化为文字，它就成了一具尸体。人类对一个特定的时刻、客户、代码库或者对话是有实时感知的，这种鲜活感模型只能模拟，无法真正拥有。

这就是廉价的专家能力正在创造更多专家需求的深层原因。运营人员用 AI 提了 PR，需要工程师来审查。市场人员用 AI 做缩略图，需要设计师来细化。工程师用 AI 写文章，需要编辑来把关。

每一个廉价产出的背后，都站着一个人在处理它产生的后果。

4. 基准测试的陷阱

到这里你可能要问：那基准测试的指数级进步怎么说？模型迟早要追上来的。

这是一个容易犯的错。Dan 给它起了个名字叫“图表精神病”。当你盯着 METR 的时间线，看着模型的自主时长从几分钟飙到几小时，再外推一下，就觉得所有工作都要消失了。

但基准测试有一个隐藏的结构性特征：它是在框架内衡量表现的。

要测试一个模型，你得先给它一个提示。这个提示定义了一个小宇宙、一组重要的事情、一种处理问题的方式。模型的表现反映的是它在框架中的能力，而非模型本身的智能。

Dan 在内部做了一个高级工程师基准测试。把一段 vibe coding 写出来的满是问题的代码库扔给模型，让它做一次第一性原理重写。GPT-5.5 得了 62 分，人类高级工程师在 80 到 90 分。

两者看起来只差 30 分了，似乎很快就能追上。但关键是，那个 62 分的背后有大把的人类智慧在起作用。你得决定什么时候需要重写、重写范围是什么、哪些代码要保留、架构要不要换、数据库和缓存服务器怎么处理、现有数据怎么办......这些决策都是在模型开始工作之前就已经由人类完成的工作。而基准测试是不测量这一部分的。

基准测试真正告诉我们的是：模型在你给它设定好的框架内能跑多快。它不能告诉我们模型已经变成了你。这个范畴错误，就是恐慌的底层来源。

5. 框架不是框定者

Dan 的论证在最深处触及了一个哲学问题：即使 AGI 到来了，会怎么样？

他给出的回答颇为巧妙。如果一直持续运行 agent 在经济上是划算的，那就算 AGI。但这个 AGI 仍然需要人类给它设定目标。它可以自主选择和切换框架，但框架不是框定者。不管模型变得多强大，仍然有一个人在引导它达成某个目标。

文章的最后有一个小故事：一个愚蠢的人每天早上找不到自己的衣服，有一天他把每件衣服的位置都记在纸上。第二天按纸条穿戴整齐了，却发现自己找不到了。

我们现在就好比这样的情况。那些基准测试分数，就是我们的纸条。我们把它当成了自己。

每次看到模型在某个新任务上取得突破，我们就恐慌了一次。但实际上，我们只是看到模型爬上了我们刚画出来的那条边界。边界是我们画的，模型爬上去了，然后我们又画一条新的。

芝诺悖论里的乌龟和阿喀琉斯，人类是那只乌龟。你以为永远落后几步就输了，但事实是你总会在前面发现新的赛道。

6. 这对你意味着什么

不管你现在做什么工作，总有一种工作形态会结构性地跑在模型前面：用 AI 解决你今天看到的、当下的问题。

具体的技能可能会被取代。写代码、做翻译、画图，这些都是可见的残留物，最容易变成商品。但判断力、情境感、对“现在什么重要”的实时把握，这些能力不会被取代。不是因为它们更高级，而是因为它们还没有被足够多的人完成过，还没有凝固成可供训练的语料。

这篇文章给我最大的启发不是“AI 不会取代你”，那是一个过于简单的结论。更深一层的洞察是：AI 越进步，人类判断力的价值就越被放大，而不是被压缩。

不是因为 AI 不够强，恰恰是因为它太强了。它让所有人都能做出 70 分的东西，于是 90 分的东西就变得更稀缺、更有价值。而这个 90 分，在当前的技术框架下，仍然需要有一个人做出决定。

【声明】内容源于网络

AI驱动数字化转型

专注AI，促进智造行业数据衍生，服务智能制造企业的数字化、智能化，聚焦大模型私域部署、大模型微调、数据清洗、AI模型训练、私域知识库及agent技术延展等。行业智能，落地为先。

内容 1007

粉丝 0

AI驱动数字化转型专注AI，促进智造行业数据衍生，服务智能制造企业的数字化、智能化，聚焦大模型私域部署、大模型微调、数据清洗、AI模型训练、私域知识库及agent技术延展等。行业智能，落地为先。

总阅读5.4k

粉丝0

内容1.0k