本文阅读时间:约 15 分钟
(注:下文中的“我”系作者本人)
引言
当 AI 输出的价值稳定超过 Token 成本后,瓶颈已从模型能力转移至人的精力。
这一认知彻底改变了我过去半年的工作方式。OpenClaw 作者 Peter 曾一天提交 627 次代码,平均间隔不到 2.3 分钟。这并非高效,而是让人被绑在 AI 旁陪跑,透支判断力。我在 5 月完成了 496 次提交,但这仅说明吞吐量变化,而非效能提升。真正的指标应是:识别了多少问题、拦截了多少候选改动、有多少经验证后稳妥合入主干。
工作方式的进化核心在于:如何用更少的人力在线时间,让更多的 Token 持续流动?答案并非更好的 IDE 插件或更聪明的模型,而是一整套云端持续进化的 Harness 基础设施。
关于 AI Coding,每两个月我都有新认知,却总被更深的瓶颈卡住。以下是我到达这一结论的探索路径。
初期使用 Cursor 等 AI IDE,效率虽提升三至五成,但本质未变:人仍是执行主体,人不操作,AI 即停止。从 Token 角度看,产出仅是“节省打字时间”,人停则 Token 停。
茹炳晟曾指出,软件工程过去五十年一直在“管理人的不确定性”,方法论旨在管理人而非替代人。Copilot 和 Cursor 未跳出此范式,仅是给工匠换了把更好的锤子。Vibe Coding 虽能用自然语言生成代码,但 80% 时间仍消耗在非核心基建搭建上,难以驱动复杂应用运行。
真正的体感变化发生在 Opus 4.5 之后。CLI Agent 的出现标志着从“辅助驾驶”到“自主执行体”的跨越。我曾花 30 秒描述需求,Agent 用 5 分钟完成了预估需半天的改动,且代码规范、测试通过。
数据显示:分析 2400 行 TypeScript 模块耗时 10 分钟,产出近千行报告;Bug 修复从描述到提交仅需 60 秒;设计文档 Review 发现多个关键问题仅需 5 分钟。大模型首次让“用算力换取高阶智能”成为可能,劈开了软件工程五十年“高阶认知无法固化”的死结。
但天花板随之出现:单终端串行执行导致人手闲置却被注意力绑定,无法并行处理多任务。
并发的陷阱:Token 在加速,人在崩溃
试图通过多终端并发解决效率问题,结果却适得其反。四个 Agent 并行虽将一小时工作量压缩至 15 分钟,但频繁的上下文切换和 Prompt 构思消耗了大量精力。并发并未消灭工作,只是将“等待时间”换成了“调度时间”。
Thoughtworks 的 Birgitta Böckeler 指出,Context Engineering 是双向放大器,坏的结构问题也会被放大。手动管理上下文导致 Agent 接收的信息质量不稳定,人反而成了瓶颈。核心问题应从“如何让自己更快”转变为“如何让 Token 消耗更多,同时减少对人的注意力消耗”。
委派:把人压缩到决策位
随着 QoderWork 成熟,我的角色从执行者、调度器转变为纯粹的决策者,只做三件事:提需求、审方案、验结果。
架构采用三层委派:自然语言需求经 QoderWork 精炼为结构化 Prompt,Task Agent 在独立上下文运行,QoderCLI 在独立 worktree 翻译代码。信息逐层精炼,控制权逐层下放。
-
例如输入“实现 Vaults API",系统自动拆解为规格锚点、加密方案、验收标准等结构化指令,下层 Agent 据此生成具体代码。 -
又如分析"agent loop 能否抽成无状态 SDK",Agent 自主完成写 Prompt、启动 workspace、轮询状态、汇报结论全流程。我仅花 30 秒阅读结论并决策,后续直接接收可合并的代码 CR。
稳定运行靠什么
三层委派的核心在于 Context Engineering 的落地。通过 AGENTS.md 定义职责边界,MEMORY.md 记录项目上下文,USER.md 记录偏好,构成 Agent 的长期记忆。分层管理全局不变规则、会话级目标和按需加载信息,避免每次对话重复交代背景。
Agent 读取上下文无损且零沟通成本,克服了“人月神话”中的协作开销。Qoder 从 IDE 到 Quest 模型,再到专家团模式和 Desktop 升级,其产品演进路径正是对这一实践的产品化沉淀。



睡后 Token:瓶颈的真正转移
三层委派解决了在线时的高效 Token 消耗,但更根本的问题是:Token 为何要等人在线?若产出价值高于成本,凌晨运行与白天无异,甚至成本更低。“睡后 Token"的核心是将输入、边界、验证提前设计,让人离线时 Token 持续产出候选结果,次日由人做价值判断。
634 进,12 出
在 QoderWork 的 issue 自动处理场景中,上周数据漏斗显示:输入 634 个 issue,筛出 190 个有效缺陷,自动生成 25 个 CR,最终人工 review 合入 12 个。漏斗的价值不在于生成数量,而在于拦截了 622 个无效改动。Agent 生成的 CR 先视为负债,通过严格验收口方可转为资产。
Böckeler 提出风险评估三维度:概率、影响、可检测性。其中“可检测性”是关键,必须将风险检测设计进工作流而非事后补救。夜间批量任务如文档 Review、API 一致性检查等,均可安排在非工作时间执行,杠杆率从 1:N 提升至接近 1:24。
但 Harness 会咬人
“睡后 Token"的可靠运行依赖完善的 Harness。自动化脚本如同宠物,需照料终端、容器、上下文和凭证。任何进程挂掉都会中断工作流。Agent 开发 70% 的成本不在模型推理,而在 Harness:Token 编排引擎、安全沙箱、可观测性、状态持久化及错误恢复。
未来技术栈选型可能不再纠结于框架,而是看“有没有现成的 Harness"。个人脚手架因模型快速进化而易过期,无法规模化传承。每个工程师自建 Harness 虽快,但组织层面难以生效。
Cloud Agents:从个人脚本到平台
平台托管的核心是长期任务的可恢复性,需满足三点:
-
Session 不怕断:状态落在事件流中,任务可随时暂停恢复。 -
Sandbox 不怕换:执行环境可替换,支持 Self Hosted 自托管以符合合规需求。 -
Harness 不怕重启:无状态大脑可通过 wake(sessionId) 接管,不依赖本地环境。
Qoder Cloud Agents 将手搓的调度、恢复逻辑转化为平台基础设施,构建过程本身也是 Harness 的深度验证。
手脑分离
Cloud Agents 架构核心是“手脑分离”:Brain 负责推理决策,Hands 负责执行操作,两者独立升级。
-
升级复利:Brain 升级用户零迁移成本,API 稳定,智能自动进化。 -
故障隔离:Brain 与 Hands 通过事件流通信,单侧重启不丢任务,保障长程任务稳定性。 -
资源效率:计算密集型 Brain 与 IO 密集型 Hands 独立伸缩,支撑万级并发推理。
Harness 的价值在于用确定性工程系统约束非确定性模型产出,让 Agent 从 Demo 走向生产环境。
极简接入:你的代码里没有 AI
Cloud Agents 接入仅需五步:获取令牌、创建环境、定义 Agent、建立 Session、收发消息。开发者只需编写编排逻辑,Agent 的“智能”封装在 API 中。后端服务仅作管道,无需处理意图识别或对话管理。
内部验证显示,一天内即可跑通 6 Agent 协同系统。开发者专注于业务逻辑,无需操心 Agent Loop 或沙箱生命周期。当平台吸收 Harness 复杂度后,开发 AI 应用与写普通 Web 应用无异,区别仅在于拥有一个能推理决策的超级后端。
Skill as a Service
Cloud Agents 将本地 Skill 转化为云端 Service。资深 SRE 的故障诊断、安全专家的漏洞扫描、架构师的 API Review 等最佳实践,可发布为 API 供全员调用。个人经验转化为组织级复用能力,体现 B2B2C 逻辑,让用户直接享受深度打磨的 Agent 红利。
Qoder 和 QoderWork 内置 Cloud Agents Skills,用户可在编辑器内快速创建 Agent 并编排任务,将“如何用好 Cloud Agents"本身也封装成了 Skill。
自评估循环
Agent 具备自动验证输出质量的能力。完成任务后自评估结果是否符合预期、有无遗漏、测试是否通过。若不达标则自主重试,直至成功或明确报告能力边界。风险检测内置于运行循环,无需依赖人工事后检查。
已经在跑了
Cloud Agents 已上线并投入真实业务使用,涵盖客服自动化、代码审计、文档生成等场景。未来演进方向包括:多 Agent 并行协作、Dream & Memory 跨 Session 记忆、Self-Hosted 自托管沙箱以及 Browser/Computer Use 能力扩展。
平台以天为单位迭代,Harness 持续进化而用户无需修改代码,这正是基础设施与个人脚本的根本区别。
更往前一步的思考
回到最初,我的工作方式已从盯屏幕转变为定义问题、压缩上下文、设置验收口。以前写代码像手工打铁,靠经验和专注;现在更像抽卡,单次 Token 成本低,价值来自严格的筛选机制。
AI 压低了技能门槛,人的价值位置前移:从写实现转为定义问题。所谓“有品味”,即知道什么值得自动化、什么必须拦截。Cloud Agents 让这种新分工不再是个人实验,平台吸收复杂度后,开发者只需关注唯一重要的事:定义值得解决的问题。睡后 Token 改变的不是作息,而是工程分工:人负责价值、边界和验收,平台负责稳定运行长任务。

