Claude Code 从 Demo 到产线 · 企业 Harness 工程化的 8 道关卡- 大数跨境

首页

Claude Code 从 Demo 到产线 · 企业 Harness 工程化的 8 道关卡

AI科技大本营

2026-06-13

导读：2025 年我们都在玩 Vibe Coding，而 2026 年，企业真正需要的是 Harness Engineering。

责编 | 梦依丹
出品 | CSDN（ID：CSDNnews）

在 AI 辅助编程普及的当下，许多开发者体验过"Vibe Coding"的便捷：输入 Prompt 即可生成精美 Demo。然而，当技术团队试图将此类工具引入百万行级的企业级生产系统时，往往面临“硬着陆”困境：

新会话开启后，AI 遗忘项目既定的技术栈与代码规范；
长对话后期，因上下文污染和注意力漂移，AI 逻辑混乱甚至原地打转；
自动生成代码存在隐藏逻辑缺陷或依赖问题，导致 PR 多次被退回。

这些痛点揭示了一个事实：Demo 惊艳不等于产线可用。AI 编程的瓶颈已不再是模型智力，而是工程化能力。

近日，新加坡科技研究局高性能计算研究所 AI 研究员、知名技术作家黄佳（咖哥）做客 CSDN「AI 进化论」栏目，深入拆解了如何将 Claude Code 从 Demo 推进至产线的完整方法论。黄佳指出："2025 年我们都在玩 Vibe Coding，而 2026 年，企业真正需要的是 Harness Engineering。”本文基于其分享内容，梳理了 Agent 推向生产环境必须跨越的“八道关卡”及对应的工程设计模式。

核心共识：Agent = Model + Harness

在系统拆解之前，需厘清核心公式：Agent = Model + Harness。

Agent=Model+Harness

"Harness"原意为马具。马匹力大无穷，若无马具控制则无法拉车。大语言模型同理，它仅是具备理解与生成能力的“智力引擎”，而 Harness 则是包裹在模型外层的工程化基础设施，涵盖上下文管理、工具调度、事件拦截及状态持久化等。

截图自黄佳老师 PPT

多项行业实测证实：同一模型在不同 Harness 下的表现差异，远大于不同模型在同一 Harness 下的差距。例如在 TerminalBench 基准测试中，仅优化 Harness 层便使模型能力从基线以下跃升至 Top 5；Vercel 团队发现，剔除 80% 的 Agent 工具后，流程更精简，Token 消耗骤降且响应更快。因此，调教 Harness 才是释放 AI 真实工程效能的关键变量。

第一关：如何让 AI 读懂巨型代码库？

痛点：AI 记不住项目规范，大库读不完

每次新建会话需重新解释项目背景，且受限于上下文窗口，面对百万行级代码库，AI 常面临“读不完”或“读了后面忘前面”的窘境。

解法：五层记忆体系 + 上下文分诊

1. 建立分层的记忆架构

不应将所有规范塞入同一配置文件，建议构建五层记忆体系：

Enterprise 级：企业全局 CLAUDE.md，写入不可绕过的安全与合规策略（如严禁代码外发、禁止硬编码密钥）。
User 级：存放个人编码偏好（如交流语言、快捷指令映射）。
Project 级：团队共享的项目级规范（如规定使用 Fastify 框架和 pnpm 包管理）。Anthropic 官方建议该文件控制在 200~300 行以内，作为始终在线的 P0 槽，每行皆为关键规则。
Rules 级：将细分领域规范（如前端组件、数据库迁移、测试策略）拆解为独立文件。利用 YAML Frontmatter 的 paths 字段声明 Glob 模式进行条件化加载，实现按需取用。
Local 级：存放个人临时备忘，自动纳入.gitignore，不提交至代码库。

2. 上下文分诊：类比操作系统调度

在大模型时代，LLM 是 CPU，Context 是内存，文件系统则是磁盘。无法将磁盘全部堆进内存，需引入类似 OS 虚拟内存管理器的“上下文分诊”机制，将候选信息分为四个等级（P0 ~ P3）。

截图自黄佳老师 PPT

通过分诊调度，例如排查“订单扣款失败”问题时，AI 仅调入 3 段核心日志（P0/P1）与 5 段历史工单句柄（P3），将上下文体积从 18K 压缩至 2K Token，信噪比大幅提升，定位准确度更高。

第二关：如何控制 AI 的幻觉？

痛点：AI 给出看起来对、实际是错的代码

长会话中，Claude Code 在 95% 容量时会自动触发上下文压缩。若将详细的错误堆栈压缩为简单描述，AI 将丢失反馈回路，可能花费数小时重试已被排除的错误方案，导致原地打转。

解法：结构化上下文 + Hooks 质量门禁

1. 结构化输入，注入而非生成

减少幻觉的关键在于让 AI 基于已有代码进行“注入修改”，而非“凭空创造”。下达任务时应提供结构化信息：

反例：帮我优化这个函数。
正例：优化 src/utils/parser.ts 的 parseConfig 函数，瓶颈在第 42 行的循环。

2. Stop Hook 作为契约：将控制交回确定性工程

"Prompt 是请求，Hook 是契约。”无需在 Prompt 中反复要求 AI“不要胡思乱想”，而应利用确定性的 Hook 门禁拦截不可靠产出。通过在扩展层配置 Stop Hook（在 AI 生成代码后、交付前触发），自动静默运行单元测试与代码静态检查：

{
  "hooks": {
    "Stop": [
      {
        "matcher": "All",
        "command": "pnpm lint && pnpm test",
        "blocking": true
      }
    ]
  }
}

若测试未通过，系统直接阻断提交并报错，将结果反馈给 AI 令其自愈，直至通过后再交付。

第三关：如何实现经验复用？

痛点：好 Prompt 锁在个人脑子里，无法团队共享

开发者常在终端重复编写类似的代码审查、测试生成等 Prompt，导致新人上手慢，团队重复造轮子。

解法：从 Prompt 到声明式 Skill

Claude Code 支持将优质 Prompt 封装为.claude/skills/目录下的 Skill 资产，并通过 Git 版本控制。新人克隆代码库即可继承团队沉淀的 AI 编程能力。

Skill 实质是包含 SKILL.md 的目录。为节省 Token，Claude 采用渐进式披露设计：

启动阶段：仅加载每个 Skill 顶部的 name 和 description（约 100 tokens 元数据）。
匹配阶段：当用户输入命中 Skill 语义（如提到“审查代码”），系统才展开完整的 SKILL.md 主文件。
执行阶段：仅在需要动作时，动态调用挂载的 bundled 脚本或外部资源。

这种“只在翻开对应章节时才看内容”的设计，在多 Skill 系统运行时可节省约 98% 的 Token 空间。

第四关：算力贵、用量不透明？探寻 Token 经济学

痛点：一次任务烧了多少钱说不清，长对话越到后面越贵

解法：反向选型、多层路由与 Talker-Reasoner 架构

1. 建立模型选择矩阵

企业部署中，全跑高档 Opus 模型会造成极大浪费。统计显示，多达 41% 的查询仅为简单的 SQL 模板填空，只需最便宜的 Haiku 模型即可胜任。

通过在 Harness 中配置三层路由机制：Haiku (60%) → Sonnet (30%) → Opus (10%)，在保障产出质量前提下，月账单可从 48 万骤降至 12 万，综合成本下降达 65%~75%。

2. 反向选型：在受限模型下选择“模式”

当预算和环境受限，只能部署开源便宜模型（如 Qwen-32B）时，模式选择成为核心：

单次调用 Opus：价格高昂，面对边缘 case 仍可能出错。
Haiku 便宜模型 + 迭代自愈：让 Haiku 写代码，另一个 Haiku 做 Code Review，循环迭代 2 轮。其综合算力成本远低于单次调用顶级模型，但最终产出质量反而实现反超。

3. Talker-Reasoner 双系统

针对实时对话等高频交互场景，长时间思考延迟会导致用户以为系统卡死。借鉴 Kahneman 双系统理论，可将架构重构为 Talker-Reasoner 协同模型：

Talker：采用 200ms 的极速便宜模型（如 Haiku），负责立即回复用户、边聊边等；
Reasoner：采用慢速但聪明的模型（如 Opus/reasoning），在后台进行深度推理，将推理出的信念状态（belief state）源源不断供给 Talker。

此举成功将思考延迟在用户感知中“隐藏”。

第五关：约束与放手

痛点：AI 改对了 Bug，却顺手改了三处不该改的安全逻辑

解法：约束行动而不是约束思考，引入 HITL 人工审核

治理 AI 行动边界时，切忌在 Prompt 里细化每一个思考步骤，这会束缚模型推理自由。“约束限定的是行动的边界，而不是思考的自由。”合理的工程约束应放置在产生副作用的地方：

只读/低爆炸半径操作：（如查代码、看文档）自动放行，不中断流程。
可写/中等影响操作：留痕放行，记录全链路 Keyed log，事后支持完整 replay 溯源。
高爆炸半径/不可逆操作：强制触发阻断，并在控制台弹出 HITL 人工审核面板，需人工确认后方可继续执行。

第六关：复杂的编排载体该如何抉择？

痛点：SubAgent、Skill、Workflow、Agent Team 概念混淆，不知道怎么组织

解法：一张四方图厘清边界

在 Harness 设计中，这四种编排载体分别映射现实世界中的四种工作实体：

Skill = 岗位操作手册：静态的、跨任务复用的知识包与 SOP 模板，代表 Agent 的职业能力。
SubAgent = 专职员工：具备独立的、被隔离的上下文空间，执行完特定任务后即刻销毁，实现防污染。
Workflow = SOP 流程图：将控制流显式、确定性地冻结在代码或脚本中，适用于多步、有明确目标的长期自动化流程。
Agent Team = 持续协作的虚拟团队：维持长期的、多人的对话交互，各个 Mate 角色拥有持久化 Session。

在成熟的企业项目中，这四者通常互补、嵌套使用，共同组合为一套业务流水线。

第七关：如何防止长任务状态漂移？

痛点：复杂的长任务跑着跑着就偏离了目标

解法：三平面分立架构 + 草稿纸看板

针对 Agent 操作多套系统并维持长周期任务时的“状态漂移”问题，核心解法是推行三权分立的状态平面管理：

执行调度平面：采用 DAG 结构，只记录任务状态与执行流，不掺杂自然语言叙事与业务参数。
机械参数平面：严格键值的结构化字典，是业务 API 入参的唯一可审计来源。
叙事对齐平面：采用自然语言记录“目标与进展”，作为防漂移的“防波堤”，包含三个核心：
- 锚（Anchor）：锁定用户的原始最终目标，无论中间跳转多少轮，均以此校准。
- 账（Ledger）：里程碑台账，结构化纪要“做到了哪一步”、“确认了什么”。
- 集（Collection）：投影工作集。每一步只给 AI 投影当前该看的、最小的上下文集合，降低检索开销。

此外，引入“草稿纸看板”设计，将 AI 内部思考流外化为可读、可审计、可随时恢复的物理看板并落盘保存。即使因意外故障崩溃，系统也能根据记录瞬间恢复状态并继续运行。

第八关：从 Demo 到产线，如何合规治理？

痛点：能写代码不等于能交付系统，谁来对 AI 的生产出错负责？

解法：可观测性 + 来源坐标 + 团队的两条纪律

AI 作为概率性模型无法承担最终生产安全责任，“背锅”和负责的永远是人。走向生产环境的最后一步是构筑可观测与安全追溯防线：

Provenance 来源坐标体系：对系统中每一个机械参数进行严格的链路追踪（哪个工具产生、从响应哪条路径抽取、处于哪一步 turn、由哪个用户输入发起），确保出事能精准回溯源头。

两条铁的纪律：

纪律一：角色规则前置，别等出事再通过 Prompt 去补，必须写进 Skill 或 agent.md。
纪律二：实行 Pre-task gating。在 AI 动手写代码前，强迫其先进行评估，说出“要做好这件事，还需要补充什么信息、明确哪些问题”。不评估，不准写代码。

从 Vibe Coding 的热闹，走到 Harness Engineering 的严谨，这是 Agent 工业化落地的必经之路。为了不让这些踩坑经验重新回到封闭的个人脑海里，黄佳老师联合业内资深专家（茹炳晟、姜宁、梁博），共同发起了 Agent 设计模式共同体（Agent Design Patterns Society, 简称 ADPS）。

【声明】内容源于网络

AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员，提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

内容 7048

粉丝 0

AI科技大本营为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员，提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

总阅读100.7k

粉丝0

内容7.0k