

Cursor 限时免费使用 OpenAI Codex 模型！

十二AI编程

2025-12-08

导读：附带模型优化细节

大家好，我是十二。专注于分享AI编程方面的内容，欢迎关注。另有 Cursor、Claude Code、Codex 的优惠渠道，欢迎私信。

Cursor 前两天上线了最新的 OpenAI Codex 模型，GPT-5.1-Codex-Max，并且宣布 12 月 11 日之前都可以免费使用。

另外，Cursor 团队还专门写了一篇文章，来介绍为了让 GPT-5.1-Codex-Max 模型在 Cursor 中更好地工作，Cursor 团队做了哪些优化。

文章还挺有意思的，里面有不少有价值的细节，一起来看下。

构建稳健的 agent harness

harness 是 Cursor 的一个重要的 agent，Cursor 中的每个模型都需要针对性的指令和对 agent harness 的微调，以提升输出质量、防止模型偷懒、更有效地调用工具等。

因为模型训练时接触到的模式不同，直接上线往往会“水土不服”，所以 Cursor 团队需要对这些模型做一轮“本地化调校”。

Cursor 团队会用 Cursor Bench 这样的内部评测体系来不断测试模型，最终通过成功率、工具调用能力、以及用户采纳情况来判断模型是否真正准备好上线。

Cursor 团队为 Codex 做的关键更新

OpenAI 的 Codex 系列模型是他们最新前沿模型的某些变体，专门针对 agentic 的编码场景训练，为了让它在 Cursor 里稳定工作，Cursor 团队针对性地做了不少调整。

1. 更贴近 shell 的使用方式

Codex 的训练偏向 CLI / shell 的工作流，它更习惯用 shell 来找文件、读文件、做编辑。

为了不让 Codex 在 Cursor 里到处跑 shell 命令，Cursor 团队把 Cursor 的工具名称改得更像 shell 工具（比如 rg），并明确告诉模型：如果有工具可用，优先用工具而不是 shell 命令。

Cursor 的沙箱机制也能确保就算 Codex 真的跑了 shell，也不会造成安全问题。这种设计既不破坏 Codex 的习惯，又能让动作更加可控。

2. 对“推理摘要”的控制

Codex 会在执行过程中输出一些“推理摘要”。Cursor 团队希望这些信息既能帮助用户了解进度，又不要太啰嗦，于是他们在提示中规定了：

推理摘要保持在 1–2 句仅在发现新信息或策略切换时出现不要写“我正在解释给用户听”这种元话语

值得注意的是，Cursor 团队发现，减少这些中途沟通的要求后，Codex 的最终输出质量更高。

3. 阅读并处理 linter 错误

Cursor 团队为 agent 提供了读取 linter 错误的工具，按理说模型修改代码后应该主动检查 lint。但实际情况是：仅提供工具定义不够，需要明确告诉模型“什么时候该用这个工具”。

所以 Cursor 团队干脆给了非常直接的指令，比如：

在进行实质性编辑之后，使用 read_lints 工具检查最近编辑的文件是否存在 linter 错误。如果你引入了任何错误，并且你能很容易地找到解决方法，就去修复它们。

这种“字面化”的说明反而最有效，让 Codex 能主动执行标准化流程。

4. 保留推理轨迹

这一条非常重要。Codex 在工具调用之间依赖内部推理轨迹来维持连贯的计划。如果这些轨迹丢失，模型就会忘记前面做过什么、为什么那么做，造成性能大幅下降。

Cursor 团队的实验显示，丢失推理轨迹会让 Codex 的性能下降约 30%。

为了避免这种情况，Cursor 团队加入了机制，确保推理轨迹能在多轮中正确传递，让模型的计划始终连贯。

5. 引导模型主动采取行动

Cursor 的目标是：除非用户明确说“不要动代码”，否则 agent 应该尝试直接解决问题，而不是一遍遍询问。

Cursor 团队在提示里写得很清楚：

除非用户明确要求查看计划或其他明确表示不应写代码的意图，否则假定用户希望你进行代码更改或运行工具以解决问题。在这些情况下，把拟议解决方案输出为消息是不合适的，你应该直接去实现更改。如果遇到挑战或阻塞，你应该尝试自行解决。

这个调整可以让 Codex 行为更果断，减少用户等待时间，体验也更流畅。

6. 避免提示冲突

因为 OpenAI 模型会强烈依赖提示顺序（system > user > tool），Cursor 团队必须非常小心 system prompt 中的每一句话，不然可能无意中压制模型完成任务的动力。

他们举了一个例子：

如果 system prompt 强调“节省 tokens”，这条信息会影响模型去执行更有野心的任务或大规模探索的意愿。

有时 Codex 会停下来固执地说，“我不应浪费 tokens，我认为不值得继续这个任务！”

于是 Cursor 团队调整了 harness，以确保 Cursor 提供的提示不会包含可能无意中与用户消息相矛盾的指令。否则，Codex 可能进入一种不愿遵从用户请求的状态。

总结

从这次 Codex 的适配过程可以看出，模型能力越强、agent 行为越复杂，对工具链、提示设计、推理轨迹管理的要求也就越高。

Cursor 团队的做法是一个非常值得参考的实践示范——既关注模型本身，也关注模型在产品环境里的行为稳定性，这样才能尽可能的发挥每个模型的能力。

AI编程交流群

欢迎进群交流，关注公众号，点击【进交流群】，加我好友，我拉你进群。

感谢阅读，如果觉得不错，随手点个赞、在看、转发三连吧~

【声明】内容源于网络

十二AI编程

专注AI编程、AI工具提效、AI副业搞钱等内容的分享。

内容 50

粉丝 0

十二AI编程专注AI编程、AI工具提效、AI副业搞钱等内容的分享。

总阅读923

粉丝0

内容50