Qoder 工程实践：当瓶颈从模型转移到人- 大数跨境

首页

Qoder 工程实践：当瓶颈从模型转移到人

阿里技术

2026-06-12

导读：当 Al 输出的价值稳定超过 Token 成本之后，瓶颈从模型能力转移到了人的精力。

这是 2026 年的第 23 篇文章

本文阅读时间：约 15 分钟

（注：下文中的“我”系作者本人）

引言

当 AI 输出的价值稳定超过 Token 成本后，瓶颈已从模型能力转移至人的精力。

这一认知彻底改变了我过去半年的工作方式。OpenClaw 作者 Peter 曾一天提交 627 次代码，平均间隔不到 2.3 分钟。这并非高效，而是让人被绑在 AI 旁陪跑，透支判断力。我在 5 月完成了 496 次提交，但这仅说明吞吐量变化，而非效能提升。真正的指标应是：识别了多少问题、拦截了多少候选改动、有多少经验证后稳妥合入主干。

工作方式的进化核心在于：如何用更少的人力在线时间，让更多的 Token 持续流动？答案并非更好的 IDE 插件或更聪明的模型，而是一整套云端持续进化的 Harness 基础设施。

关于 AI Coding，每两个月我都有新认知，却总被更深的瓶颈卡住。以下是我到达这一结论的探索路径。

从「更快打字」到「任务自主交付」

初期使用 Cursor 等 AI IDE，效率虽提升三至五成，但本质未变：人仍是执行主体，人不操作，AI 即停止。从 Token 角度看，产出仅是“节省打字时间”，人停则 Token 停。

茹炳晟曾指出，软件工程过去五十年一直在“管理人的不确定性”，方法论旨在管理人而非替代人。Copilot 和 Cursor 未跳出此范式，仅是给工匠换了把更好的锤子。Vibe Coding 虽能用自然语言生成代码，但 80% 时间仍消耗在非核心基建搭建上，难以驱动复杂应用运行。

第一次感受到范式变化

真正的体感变化发生在 Opus 4.5 之后。CLI Agent 的出现标志着从“辅助驾驶”到“自主执行体”的跨越。我曾花 30 秒描述需求，Agent 用 5 分钟完成了预估需半天的改动，且代码规范、测试通过。

数据显示：分析 2400 行 TypeScript 模块耗时 10 分钟，产出近千行报告；Bug 修复从描述到提交仅需 60 秒；设计文档 Review 发现多个关键问题仅需 5 分钟。大模型首次让“用算力换取高阶智能”成为可能，劈开了软件工程五十年“高阶认知无法固化”的死结。

但天花板随之出现：单终端串行执行导致人手闲置却被注意力绑定，无法并行处理多任务。

并发的陷阱：Token 在加速，人在崩溃

试图通过多终端并发解决效率问题，结果却适得其反。四个 Agent 并行虽将一小时工作量压缩至 15 分钟，但频繁的上下文切换和 Prompt 构思消耗了大量精力。并发并未消灭工作，只是将“等待时间”换成了“调度时间”。

Thoughtworks 的 Birgitta Böckeler 指出，Context Engineering 是双向放大器，坏的结构问题也会被放大。手动管理上下文导致 Agent 接收的信息质量不稳定，人反而成了瓶颈。核心问题应从“如何让自己更快”转变为“如何让 Token 消耗更多，同时减少对人的注意力消耗”。

委派：把人压缩到决策位

随着 QoderWork 成熟，我的角色从执行者、调度器转变为纯粹的决策者，只做三件事：提需求、审方案、验结果。

架构采用三层委派：自然语言需求经 QoderWork 精炼为结构化 Prompt，Task Agent 在独立上下文运行，QoderCLI 在独立 worktree 翻译代码。信息逐层精炼，控制权逐层下放。

例如输入“实现 Vaults API"，系统自动拆解为规格锚点、加密方案、验收标准等结构化指令，下层 Agent 据此生成具体代码。
又如分析"agent loop 能否抽成无状态 SDK"，Agent 自主完成写 Prompt、启动 workspace、轮询状态、汇报结论全流程。我仅花 30 秒阅读结论并决策，后续直接接收可合并的代码 CR。

稳定运行靠什么

三层委派的核心在于 Context Engineering 的落地。通过 AGENTS.md 定义职责边界，MEMORY.md 记录项目上下文，USER.md 记录偏好，构成 Agent 的长期记忆。分层管理全局不变规则、会话级目标和按需加载信息，避免每次对话重复交代背景。

Agent 读取上下文无损且零沟通成本，克服了“人月神话”中的协作开销。Qoder 从 IDE 到 Quest 模型，再到专家团模式和 Desktop 升级，其产品演进路径正是对这一实践的产品化沉淀。

睡后 Token：瓶颈的真正转移

三层委派解决了在线时的高效 Token 消耗，但更根本的问题是：Token 为何要等人在线？若产出价值高于成本，凌晨运行与白天无异，甚至成本更低。“睡后 Token"的核心是将输入、边界、验证提前设计，让人离线时 Token 持续产出候选结果，次日由人做价值判断。

634 进，12 出

在 QoderWork 的 issue 自动处理场景中，上周数据漏斗显示：输入 634 个 issue，筛出 190 个有效缺陷，自动生成 25 个 CR，最终人工 review 合入 12 个。漏斗的价值不在于生成数量，而在于拦截了 622 个无效改动。Agent 生成的 CR 先视为负债，通过严格验收口方可转为资产。

Böckeler 提出风险评估三维度：概率、影响、可检测性。其中“可检测性”是关键，必须将风险检测设计进工作流而非事后补救。夜间批量任务如文档 Review、API 一致性检查等，均可安排在非工作时间执行，杠杆率从 1:N 提升至接近 1:24。

但 Harness 会咬人

“睡后 Token"的可靠运行依赖完善的 Harness。自动化脚本如同宠物，需照料终端、容器、上下文和凭证。任何进程挂掉都会中断工作流。Agent 开发 70% 的成本不在模型推理，而在 Harness：Token 编排引擎、安全沙箱、可观测性、状态持久化及错误恢复。

未来技术栈选型可能不再纠结于框架，而是看“有没有现成的 Harness"。个人脚手架因模型快速进化而易过期，无法规模化传承。每个工程师自建 Harness 虽快，但组织层面难以生效。

Cloud Agents：从个人脚本到平台

平台托管的核心是长期任务的可恢复性，需满足三点：

Session 不怕断：状态落在事件流中，任务可随时暂停恢复。
Sandbox 不怕换：执行环境可替换，支持 Self Hosted 自托管以符合合规需求。
Harness 不怕重启：无状态大脑可通过 wake(sessionId) 接管，不依赖本地环境。

Qoder Cloud Agents 将手搓的调度、恢复逻辑转化为平台基础设施，构建过程本身也是 Harness 的深度验证。

手脑分离

Cloud Agents 架构核心是“手脑分离”：Brain 负责推理决策，Hands 负责执行操作，两者独立升级。

升级复利：Brain 升级用户零迁移成本，API 稳定，智能自动进化。
故障隔离：Brain 与 Hands 通过事件流通信，单侧重启不丢任务，保障长程任务稳定性。
资源效率：计算密集型 Brain 与 IO 密集型 Hands 独立伸缩，支撑万级并发推理。

Harness 的价值在于用确定性工程系统约束非确定性模型产出，让 Agent 从 Demo 走向生产环境。

极简接入：你的代码里没有 AI

Cloud Agents 接入仅需五步：获取令牌、创建环境、定义 Agent、建立 Session、收发消息。开发者只需编写编排逻辑，Agent 的“智能”封装在 API 中。后端服务仅作管道，无需处理意图识别或对话管理。

内部验证显示，一天内即可跑通 6 Agent 协同系统。开发者专注于业务逻辑，无需操心 Agent Loop 或沙箱生命周期。当平台吸收 Harness 复杂度后，开发 AI 应用与写普通 Web 应用无异，区别仅在于拥有一个能推理决策的超级后端。

Skill as a Service

Cloud Agents 将本地 Skill 转化为云端 Service。资深 SRE 的故障诊断、安全专家的漏洞扫描、架构师的 API Review 等最佳实践，可发布为 API 供全员调用。个人经验转化为组织级复用能力，体现 B2B2C 逻辑，让用户直接享受深度打磨的 Agent 红利。

Qoder 和 QoderWork 内置 Cloud Agents Skills，用户可在编辑器内快速创建 Agent 并编排任务，将“如何用好 Cloud Agents"本身也封装成了 Skill。

自评估循环

Agent 具备自动验证输出质量的能力。完成任务后自评估结果是否符合预期、有无遗漏、测试是否通过。若不达标则自主重试，直至成功或明确报告能力边界。风险检测内置于运行循环，无需依赖人工事后检查。

已经在跑了

Cloud Agents 已上线并投入真实业务使用，涵盖客服自动化、代码审计、文档生成等场景。未来演进方向包括：多 Agent 并行协作、Dream & Memory 跨 Session 记忆、Self-Hosted 自托管沙箱以及 Browser/Computer Use 能力扩展。

平台以天为单位迭代，Harness 持续进化而用户无需修改代码，这正是基础设施与个人脚本的根本区别。

更往前一步的思考

回到最初，我的工作方式已从盯屏幕转变为定义问题、压缩上下文、设置验收口。以前写代码像手工打铁，靠经验和专注；现在更像抽卡，单次 Token 成本低，价值来自严格的筛选机制。

AI 压低了技能门槛，人的价值位置前移：从写实现转为定义问题。所谓“有品味”，即知道什么值得自动化、什么必须拦截。Cloud Agents 让这种新分工不再是个人实验，平台吸收复杂度后，开发者只需关注唯一重要的事：定义值得解决的问题。睡后 Token 改变的不是作息，而是工程分工：人负责价值、边界和验收，平台负责稳定运行长任务。

欢迎留言一起参与讨论~

【声明】内容源于网络

阿里技术

阿里技术官方号，阿里的硬核技术、前沿创新、开源项目都在这里。

内容 431

粉丝 0

阿里技术阿里技术官方号，阿里的硬核技术、前沿创新、开源项目都在这里。

总阅读21.4k

粉丝0

内容431