-
LLM:最核心的 next-token 模型,原始发动机; -
Reasoning model:仍然是 LLM,但被训练成在给出答案之前,先做更多的推理、验证和候选比较; -
Agent:一个在模型外的控制循环——给定一个目标,这一层决定接下来去看什么、调哪个工具、怎么更新状态、什么时候停; -
Agent harness:agent 的软件控制层,负责管上下文、工具、prompt、状态、控制流; -
Coding harness:agent harness 的一个特化版本,专门为软件工程优化——管代码上下文、工具、执行、反馈迭代。
-
稳定前缀:通用指令、工具描述、工作区摘要,这部分基本稳定,可以缓存复用; -
动态部分:短期记忆、最近会话记录、最新用户请求,这部分需要每轮更新。
-
裁剪(Clipping):缩短长文档片段、大段工具输出、记忆笔记、会话记录条目。防止某一段话因为本身很长,就把整个 prompt 预算给占了; -
会话压缩(Transcript reduction):把完整的会话历史变成一个更小的可提示摘要。
-
工作记忆:agent 显式保持的小而浓缩的状态; -
完整会话记录:完整记录所有用户请求、工具输出、LLM 响应。
-
2022–2023:prompt engineering——把一个问题问得更好 -
2024–2025:context engineering——给模型提供更合适的上下文、RAG、工具调用 -
2026 起:harness engineering——设计围绕模型的完整软件控制层
-
模型层:仍然是巨头主导,开源和闭源的差距在缩小 -
Harness 层:空间还很大,Claude Code 和 Codex 也只是专门针对 coding 的,其他领域(数据分析、研究、设计、法律)的 harness 都还没真正被做出来 -
垂直 harness:针对特定工作流深度优化的 harness,可能是对抗通用大模型降维打击最实际的路径

