我用 Claude Code 省下了 80% 的 Token，但这事要从一个崩溃的任务说起- 大数跨境

首页

我用 Claude Code 省下了 80% 的 Token，但这事要从一个崩溃的任务说起

文宇元智科技

2026-02-17

导读：有一天，我盯着屏幕上那个刺眼的红色提示——"Token limit exceeded"，心里只有一个念

有一天，我盯着屏幕上那个刺眼的红色提示——"Token limit exceeded"，心里只有一个念头：完了，明天又要从头来过了。

事情是这样的。我之前在重构一个参数标定的项目，几千行代码，"应该很快"。我自信满满地把整个代码库丢给 Claude Code："帮我把...进行实现。"

第一轮，Claude 说"好的，我明白了"，分析了 8K tokens。第二轮，它改错了文件，我纠正它，累计 12K。第三轮，它开始给我讲解"什么是参数标定"以及"为什么 XXX方法更好"——大哥，我是要你改代码，不是写论文啊！——这一轮飙到 18K。

第四轮，红灯亮起。对话中断，上下文清零。

我算了笔账：38K tokens 花出去，相当于几十块钱，产出为零。更重要的是，我明天得重新建立上下文，重新解释需求，重新纠正它的"误解"。那个"很快"的任务，变成了一个无底洞。

那天晚上我想：这不对。不是 Claude 笨，是我的用法有问题。还得调用Skill。

第一个坑：我以为喂越多，它越聪明

说实话，我一开始真的以为，给 AI 越多上下文，它就越聪明。所以我把整个代码库、需求文档、甚至 Slack 记录都贴进去了。

结果呢？它像是被信息淹没的学生，反而抓不住重点。有一次我让它优化工具函数，它却去改了配置文件——就因为我提到过一次。

更惨的是账单。单次请求动辄 15K+ tokens，一个月够吃好几顿火锅。

顿悟时刻：AI 不需要知道整个世界，它只需要知道"现在该干什么"。

第二个坑：AI 的"失忆症"和我的"复读机"模式

你有没有遇到过？聊了几轮后，AI 突然开始给你上课，而不是改代码。

我一开始当复读机："请直接修改"、"不要解释"、"执行即可"。累，且低效。

后来懂了——上下文太长，AI 开始"迷失"，分不清指令和讨论。于是它选"安全"做法：解释，而不是行动。

顿悟时刻：问题不在 AI，在我没有给它一个清晰的"任务边界"。

第三个坑：断点噩梦——明天从头再来

最绝望的是断点。

一个简单的任务，我想当天搞定。结果 Token 耗尽，对话中断，上下文清零。第二天，我要重新描述背景、解释目标、提供示例...我称之为"上下文建立税"，每次重启都要交一遍。

顿悟时刻：我需要一个"存档点"，让任务可以中断、恢复、接力执行。

我的笨办法进化史

意识到问题后，我开始试验各种"土办法"。

阶段一：手动删减（累且蠢）

我尝试手动删除历史消息里的"废话"。但什么叫废话？昨天的讨论今天还相关吗？我删着删着，就把关键信息也删了，AI 开始问"你昨天说的那个约束是什么来着"。

这条路走不通。

阶段二：给每个任务写"小抄"

于是我换了个思路。每次开新对话前，我手动写一张"小抄"：

这次要干什么
怎么算完成
有什么红线不能碰
需要看哪些文件

效果好了很多！AI 终于有了焦点。但小抄的格式不统一，有时候漏写关键信息，有时候写太多又超 Token。

阶段三：三件套成型（终于对了）

经过几天的折腾，我现在用这套方法，把那个 38K tokens 的血案降到了 8K，而且再也不会"跑偏"了。

第一招：TCP——我的标准化"小抄"

我不再随便写小抄，而是用固定格式：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(linetask_goal: "一句话说清楚要干什么"acceptance_criteria:   - "怎么算完成，一条条列出来"hard_constraints:  - "什么绝对不能碰"dependencies_in:  - "只需要看这些文件的关键信息"

这招叫 TCP（Task Context Pack，任务域上下文包）。核心就一点：只给 AI 它需要知道的，不多不少。我强制自己把上下文压缩到 600-1200 tokens，就像给 AI 戴上了聚焦镜。

第二招：Compression Gate——学会"说重点"

但有时候我必须给 AI 一些背景信息，比如需求文档。这时候我先用"压缩闸门"处理一遍：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line### Key Facts（≤7条）- 必须带数字：响应时间≤200ms，并发≥5000 QPS- 版本号：React 18.x，MySQL 8.0
### Dependencies（≤5条）- 只列对本任务有影响的依赖
### Risks（≤3条）- 可能导致返工的风险

硬规则：每一条关键事实必须带数字、阈值、单位或版本号。不说"要快"，说"P99 ≤200ms"；不说"很多人用"，说"5万 DAU"。

这样压缩后，2000 字的需求文档变成 15 条结构化信息，AI 再也不会误解。

第三招：RGS——终于能"存档"了

最关键的突破是 RGS（Rolling Global Summary，滚动摘要）。这是一个我维护的全局状态文件，长这样：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line## 模块处理状态| 模块ID | 状态 | 关键发现 ||--------|------|----------|| auth | 完成 | JWT 方案通过测试 || payment | 进行中 | 回调重构中 |
## 累积风险- 数据库迁移回滚方案待确认

严格限制在 400-800 tokens。每次任务结束，我更新这个"存档点"。下次开新对话，我只需要给 AI 这个摘要，它就能接上进度，不需要重新建立上下文。

第四招：Budget First——花钱要有计划

最后，我开始给每个任务分配 Token 预算：

25% 用于理解需求
55% 用于实际干活
20% 用于输出结果

如果"干活"部分快超预算了，我就触发"收敛模式"——让 AI 跳过中间推导，直接给结论和关键证据。这样至少保证任务能完成，不会"烂尾"。

整个流程就是：

我现在的工作流程（送你直接用）

说了这么多，你可能想问：具体怎么用？

这是我现在的标准操作流程，你可以直接拿去改着用：

Step 0: 创建"存档点"新建一个 rolling-global-summary.md，写入项目目标和当前阶段。

Step 1: 写"小抄"（TCP）每次开任务前，按这个格式写：

ounter(lineounter(lineounter(lineounter(linetask_goal: "一句话目标"acceptance_criteria: ["完成标准1", "完成标准2"]hard_constraints: ["红线1", "红线2"]dependencies_in: ["相关文件的关键事实≤7条"]

Step 2: 自我检查（Scope Lock）问自己：这个目标超范围了吗？剥离无关需求。

Step 3: 信息分级给 AI 的信息分四级：

L0（指令和标准）：全保留
L1（背景要点）：压缩到 1-2 句
L2（参考资料）：只留索引
L3（废话）：删掉

Step 4: 固定输出格式我强迫 AI（和自己）按这个结构输出：

ounter(lineounter(lineounter(lineounter(lineounter(lineresult: [核心结论]assumptions: [我假设了什么]evidence: [关键证据，带数字]local_summary_update: [要更新到存档点的信息]open_questions: [有什么阻塞问题]

Step 5: 更新"存档点"任务结束，把 local_summary_update 合并到 RGS，删掉旧信息保持精简。

这些都是我血和泪的教训

最后，送你一张"失败模式速查表"——都是我踩过的坑：

如果你发现...	试试这个硬修复
AI 开始复述全局背景	你的 TCP 里放了原文，只放 RGS 摘要
RGS 越来越长，看不过来了	强制上限 800 tokens，超了按优先级丢
AI 漏掉了关键约束	检查 Key Facts 有没有带数字/阈值/单位
输出越来越啰嗦	强制五段结构，每段限定条目数
任务老是做到一半 Token 耗尽	Step 0 就分预算，接近阈值触发收敛

讲在最后

说实话，Token 管理这件事，本质上不是"克扣"，而是"尊重"——尊重 AI 的注意力，也尊重自己的钱包。

我现在每次开复杂任务前，都会花 5 分钟初始化 RGS 和 TCP 模板。这 5 分钟的前置投入，往往能省下几倍的时间和 Token。更重要的是，我再也不用经历那个晚上的绝望了。

如果你也用 Claude Code、Cursor 或者 Windsurf，不妨试试这套方法。有问题随时找我聊——相信我，我踩过的坑，比你想象的要多。

下次，我打算写写多 Skill 协作的血泪史。那又是另一个故事了。

【声明】内容源于网络

文宇元智科技

拥有复合材料多尺度仿真与疲劳寿命预测、ABAQUS高级建模及Fortran/Python二次开发经验,可提供：1.复合材料结构仿真与优化2.疲劳损伤仿真与寿命预测技术3.CAE-Python自动化工具链搭建4.有限元-机器学习融合模型开发

内容 72

粉丝 0

文宇元智科技拥有复合材料多尺度仿真与疲劳寿命预测、ABAQUS高级建模及Fortran/Python二次开发经验,可提供：1.复合材料结构仿真与优化2.疲劳损伤仿真与寿命预测技术3.CAE-Python自动化工具链搭建4.有限元-机器学习融合模型开发

总阅读206

粉丝0

内容72