大数跨境

Claude Code 从 Demo 到产线 · 企业 Harness 工程化的 8 道关卡

Claude Code 从 Demo 到产线 · 企业 Harness 工程化的 8 道关卡 AI科技大本营
2026-06-13
25
导读:2025 年我们都在玩 Vibe Coding,而 2026 年,企业真正需要的是 Harness Engineering。
责编 | 梦依丹
出品 | CSDN(ID:CSDNnews)
在 AI 辅助编程普及的当下,许多开发者体验过"Vibe Coding"的便捷:输入 Prompt 即可生成精美 Demo。然而,当技术团队试图将此类工具引入百万行级的企业级生产系统时,往往面临“硬着陆”困境:
  • 新会话开启后,AI 遗忘项目既定的技术栈与代码规范;
  • 长对话后期,因上下文污染和注意力漂移,AI 逻辑混乱甚至原地打转;
  • 自动生成代码存在隐藏逻辑缺陷或依赖问题,导致 PR 多次被退回。
这些痛点揭示了一个事实:Demo 惊艳不等于产线可用。AI 编程的瓶颈已不再是模型智力,而是工程化能力。
近日,新加坡科技研究局高性能计算研究所 AI 研究员、知名技术作家黄佳(咖哥)做客 CSDN「AI 进化论」栏目,深入拆解了如何将 Claude Code 从 Demo 推进至产线的完整方法论。黄佳指出:"2025 年我们都在玩 Vibe Coding,而 2026 年,企业真正需要的是 Harness Engineering。”本文基于其分享内容,梳理了 Agent 推向生产环境必须跨越的“八道关卡”及对应的工程设计模式。

核心共识:Agent = Model + Harness

在系统拆解之前,需厘清核心公式:Agent = Model + Harness

Agent=Model+Harness

"Harness"原意为马具。马匹力大无穷,若无马具控制则无法拉车。大语言模型同理,它仅是具备理解与生成能力的“智力引擎”,而 Harness 则是包裹在模型外层的工程化基础设施,涵盖上下文管理、工具调度、事件拦截及状态持久化等。
截图自黄佳老师 PPT
多项行业实测证实:同一模型在不同 Harness 下的表现差异,远大于不同模型在同一 Harness 下的差距。例如在 TerminalBench 基准测试中,仅优化 Harness 层便使模型能力从基线以下跃升至 Top 5;Vercel 团队发现,剔除 80% 的 Agent 工具后,流程更精简,Token 消耗骤降且响应更快。因此,调教 Harness 才是释放 AI 真实工程效能的关键变量。

第一关:如何让 AI 读懂巨型代码库?

痛点:AI 记不住项目规范,大库读不完

每次新建会话需重新解释项目背景,且受限于上下文窗口,面对百万行级代码库,AI 常面临“读不完”或“读了后面忘前面”的窘境。

解法:五层记忆体系 + 上下文分诊

1. 建立分层的记忆架构

不应将所有规范塞入同一配置文件,建议构建五层记忆体系:
  • Enterprise 级:企业全局 CLAUDE.md,写入不可绕过的安全与合规策略(如严禁代码外发、禁止硬编码密钥)。
  • User 级:存放个人编码偏好(如交流语言、快捷指令映射)。
  • Project 级:团队共享的项目级规范(如规定使用 Fastify 框架和 pnpm 包管理)。Anthropic 官方建议该文件控制在 200~300 行以内,作为始终在线的 P0 槽,每行皆为关键规则。
  • Rules 级:将细分领域规范(如前端组件、数据库迁移、测试策略)拆解为独立文件。利用 YAML Frontmatter 的 paths 字段声明 Glob 模式进行条件化加载,实现按需取用。
  • Local 级:存放个人临时备忘,自动纳入.gitignore,不提交至代码库。

2. 上下文分诊:类比操作系统调度

在大模型时代,LLM 是 CPU,Context 是内存,文件系统则是磁盘。无法将磁盘全部堆进内存,需引入类似 OS 虚拟内存管理器的“上下文分诊”机制,将候选信息分为四个等级(P0 ~ P3)。
截图自黄佳老师 PPT
通过分诊调度,例如排查“订单扣款失败”问题时,AI 仅调入 3 段核心日志(P0/P1)与 5 段历史工单句柄(P3),将上下文体积从 18K 压缩至 2K Token,信噪比大幅提升,定位准确度更高。

第二关:如何控制 AI 的幻觉?

痛点:AI 给出看起来对、实际是错的代码

长会话中,Claude Code 在 95% 容量时会自动触发上下文压缩。若将详细的错误堆栈压缩为简单描述,AI 将丢失反馈回路,可能花费数小时重试已被排除的错误方案,导致原地打转。

解法:结构化上下文 + Hooks 质量门禁

1. 结构化输入,注入而非生成

减少幻觉的关键在于让 AI 基于已有代码进行“注入修改”,而非“凭空创造”。下达任务时应提供结构化信息:
  • 反例:帮我优化这个函数。
  • 正例:优化 src/utils/parser.ts 的 parseConfig 函数,瓶颈在第 42 行的循环。

2. Stop Hook 作为契约:将控制交回确定性工程

"Prompt 是请求,Hook 是契约。”无需在 Prompt 中反复要求 AI“不要胡思乱想”,而应利用确定性的 Hook 门禁拦截不可靠产出。通过在扩展层配置 Stop Hook(在 AI 生成代码后、交付前触发),自动静默运行单元测试与代码静态检查:
{
  "hooks": {
    "Stop": [
      {
        "matcher": "All",
        "command": "pnpm lint && pnpm test",
        "blocking": true
      }
    ]
  }
}
若测试未通过,系统直接阻断提交并报错,将结果反馈给 AI 令其自愈,直至通过后再交付。

第三关:如何实现经验复用?

痛点:好 Prompt 锁在个人脑子里,无法团队共享

开发者常在终端重复编写类似的代码审查、测试生成等 Prompt,导致新人上手慢,团队重复造轮子。

解法:从 Prompt 到声明式 Skill

Claude Code 支持将优质 Prompt 封装为.claude/skills/目录下的 Skill 资产,并通过 Git 版本控制。新人克隆代码库即可继承团队沉淀的 AI 编程能力。
Skill 实质是包含 SKILL.md 的目录。为节省 Token,Claude 采用渐进式披露设计:
  • 启动阶段:仅加载每个 Skill 顶部的 name 和 description(约 100 tokens 元数据)。
  • 匹配阶段:当用户输入命中 Skill 语义(如提到“审查代码”),系统才展开完整的 SKILL.md 主文件。
  • 执行阶段:仅在需要动作时,动态调用挂载的 bundled 脚本或外部资源。
这种“只在翻开对应章节时才看内容”的设计,在多 Skill 系统运行时可节省约 98% 的 Token 空间。

第四关:算力贵、用量不透明?探寻 Token 经济学

痛点:一次任务烧了多少钱说不清,长对话越到后面越贵

解法:反向选型、多层路由与 Talker-Reasoner 架构

1. 建立模型选择矩阵

企业部署中,全跑高档 Opus 模型会造成极大浪费。统计显示,多达 41% 的查询仅为简单的 SQL 模板填空,只需最便宜的 Haiku 模型即可胜任。
通过在 Harness 中配置三层路由机制:Haiku (60%) → Sonnet (30%) → Opus (10%),在保障产出质量前提下,月账单可从 48 万骤降至 12 万,综合成本下降达 65%~75%。

2. 反向选型:在受限模型下选择“模式”

当预算和环境受限,只能部署开源便宜模型(如 Qwen-32B)时,模式选择成为核心:
  • 单次调用 Opus:价格高昂,面对边缘 case 仍可能出错。
  • Haiku 便宜模型 + 迭代自愈:让 Haiku 写代码,另一个 Haiku 做 Code Review,循环迭代 2 轮。其综合算力成本远低于单次调用顶级模型,但最终产出质量反而实现反超。

3. Talker-Reasoner 双系统

针对实时对话等高频交互场景,长时间思考延迟会导致用户以为系统卡死。借鉴 Kahneman 双系统理论,可将架构重构为 Talker-Reasoner 协同模型:
  • Talker:采用 200ms 的极速便宜模型(如 Haiku),负责立即回复用户、边聊边等;
  • Reasoner:采用慢速但聪明的模型(如 Opus/reasoning),在后台进行深度推理,将推理出的信念状态(belief state)源源不断供给 Talker。
此举成功将思考延迟在用户感知中“隐藏”。

第五关:约束与放手

痛点:AI 改对了 Bug,却顺手改了三处不该改的安全逻辑

解法:约束行动而不是约束思考,引入 HITL 人工审核

治理 AI 行动边界时,切忌在 Prompt 里细化每一个思考步骤,这会束缚模型推理自由。“约束限定的是行动的边界,而不是思考的自由。”合理的工程约束应放置在产生副作用的地方:
  • 只读/低爆炸半径操作:(如查代码、看文档)自动放行,不中断流程。
  • 可写/中等影响操作:留痕放行,记录全链路 Keyed log,事后支持完整 replay 溯源。
  • 高爆炸半径/不可逆操作:强制触发阻断,并在控制台弹出 HITL 人工审核面板,需人工确认后方可继续执行。

第六关:复杂的编排载体该如何抉择?

痛点:SubAgent、Skill、Workflow、Agent Team 概念混淆,不知道怎么组织

解法:一张四方图厘清边界

在 Harness 设计中,这四种编排载体分别映射现实世界中的四种工作实体:
  • Skill = 岗位操作手册:静态的、跨任务复用的知识包与 SOP 模板,代表 Agent 的职业能力。
  • SubAgent = 专职员工:具备独立的、被隔离的上下文空间,执行完特定任务后即刻销毁,实现防污染。
  • Workflow = SOP 流程图:将控制流显式、确定性地冻结在代码或脚本中,适用于多步、有明确目标的长期自动化流程。
  • Agent Team = 持续协作的虚拟团队:维持长期的、多人的对话交互,各个 Mate 角色拥有持久化 Session。
在成熟的企业项目中,这四者通常互补、嵌套使用,共同组合为一套业务流水线。

第七关:如何防止长任务状态漂移?

痛点:复杂的长任务跑着跑着就偏离了目标

解法:三平面分立架构 + 草稿纸看板

针对 Agent 操作多套系统并维持长周期任务时的“状态漂移”问题,核心解法是推行三权分立的状态平面管理:
  • 执行调度平面:采用 DAG 结构,只记录任务状态与执行流,不掺杂自然语言叙事与业务参数。
  • 机械参数平面:严格键值的结构化字典,是业务 API 入参的唯一可审计来源。
  • 叙事对齐平面:采用自然语言记录“目标与进展”,作为防漂移的“防波堤”,包含三个核心:
    • 锚(Anchor):锁定用户的原始最终目标,无论中间跳转多少轮,均以此校准。
    • 账(Ledger):里程碑台账,结构化纪要“做到了哪一步”、“确认了什么”。
    • 集(Collection):投影工作集。每一步只给 AI 投影当前该看的、最小的上下文集合,降低检索开销。
此外,引入“草稿纸看板”设计,将 AI 内部思考流外化为可读、可审计、可随时恢复的物理看板并落盘保存。即使因意外故障崩溃,系统也能根据记录瞬间恢复状态并继续运行。

第八关:从 Demo 到产线,如何合规治理?

痛点:能写代码不等于能交付系统,谁来对 AI 的生产出错负责?

解法:可观测性 + 来源坐标 + 团队的两条纪律

AI 作为概率性模型无法承担最终生产安全责任,“背锅”和负责的永远是人。走向生产环境的最后一步是构筑可观测与安全追溯防线:
Provenance 来源坐标体系:对系统中每一个机械参数进行严格的链路追踪(哪个工具产生、从响应哪条路径抽取、处于哪一步 turn、由哪个用户输入发起),确保出事能精准回溯源头。
两条铁的纪律:
  • 纪律一:角色规则前置,别等出事再通过 Prompt 去补,必须写进 Skill 或 agent.md。
  • 纪律二:实行 Pre-task gating。在 AI 动手写代码前,强迫其先进行评估,说出“要做好这件事,还需要补充什么信息、明确哪些问题”。不评估,不准写代码。
从 Vibe Coding 的热闹,走到 Harness Engineering 的严谨,这是 Agent 工业化落地的必经之路。为了不让这些踩坑经验重新回到封闭的个人脑海里,黄佳老师联合业内资深专家(茹炳晟、姜宁、梁博),共同发起了 Agent 设计模式共同体(Agent Design Patterns Society, 简称 ADPS)。
【声明】内容源于网络
0
0
AI科技大本营
为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
内容 7048
粉丝 0
AI科技大本营 为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
总阅读100.7k
粉丝0
内容7.0k