大数跨境
0
0

Cursor 限时免费使用 OpenAI Codex 模型!

Cursor 限时免费使用 OpenAI Codex 模型! 十二AI编程
2025-12-08
3
导读:附带模型优化细节
大家好,我是十二。专注于分享AI编程方面的内容,欢迎关注。另有 Cursor、Claude Code、Codex 的优惠渠道,欢迎私信。
Cursor 前两天上线了最新的 OpenAI Codex 模型,GPT-5.1-Codex-Max,并且宣布 12 月 11 日之前都可以免费使用。
另外,Cursor 团队还专门写了一篇文章,来介绍为了让 GPT-5.1-Codex-Max 模型在 Cursor 中更好地工作,Cursor 团队做了哪些优化。
文章还挺有意思的,里面有不少有价值的细节,一起来看下。
构建稳健的 agent harness
harness 是 Cursor 的一个重要的 agent,Cursor 中的每个模型都需要针对性的指令和对 agent harness 的微调,以提升输出质量、防止模型偷懒、更有效地调用工具等。
因为模型训练时接触到的模式不同,直接上线往往会“水土不服”,所以 Cursor 团队需要对这些模型做一轮“本地化调校”。
Cursor 团队会用 Cursor Bench 这样的内部评测体系来不断测试模型,最终通过成功率、工具调用能力、以及用户采纳情况来判断模型是否真正准备好上线。
Cursor 团队为 Codex 做的关键更新
OpenAI 的 Codex 系列模型是他们最新前沿模型的某些变体,专门针对 agentic 的编码场景训练,为了让它在 Cursor 里稳定工作,Cursor 团队针对性地做了不少调整。
1. 更贴近 shell 的使用方式
Codex 的训练偏向 CLI / shell 的工作流,它更习惯用 shell 来找文件、读文件、做编辑。
为了不让 Codex 在 Cursor 里到处跑 shell 命令,Cursor 团队把 Cursor 的工具名称改得更像 shell 工具(比如 rg),并明确告诉模型:如果有工具可用,优先用工具而不是 shell 命令。
Cursor 的沙箱机制也能确保就算 Codex 真的跑了 shell,也不会造成安全问题。这种设计既不破坏 Codex 的习惯,又能让动作更加可控。
2. 对“推理摘要”的控制
Codex 会在执行过程中输出一些“推理摘要”。Cursor 团队希望这些信息既能帮助用户了解进度,又不要太啰嗦,于是他们在提示中规定了:
推理摘要保持在 1–2 句仅在发现新信息或策略切换时出现不要写“我正在解释给用户听”这种元话语
值得注意的是,Cursor 团队发现,减少这些中途沟通的要求后,Codex 的最终输出质量更高。
3. 阅读并处理 linter 错误
Cursor 团队为 agent 提供了读取 linter 错误的工具,按理说模型修改代码后应该主动检查 lint。但实际情况是:仅提供工具定义不够,需要明确告诉模型“什么时候该用这个工具”。
所以 Cursor 团队干脆给了非常直接的指令,比如:
在进行实质性编辑之后,使用 read_lints 工具检查最近编辑的文件是否存在 linter 错误。如果你引入了任何错误,并且你能很容易地找到解决方法,就去修复它们。
这种“字面化”的说明反而最有效,让 Codex 能主动执行标准化流程。
4. 保留推理轨迹
这一条非常重要。Codex 在工具调用之间依赖内部推理轨迹来维持连贯的计划。如果这些轨迹丢失,模型就会忘记前面做过什么、为什么那么做,造成性能大幅下降。
Cursor 团队的实验显示,丢失推理轨迹会让 Codex 的性能下降约 30%。
为了避免这种情况,Cursor 团队加入了机制,确保推理轨迹能在多轮中正确传递,让模型的计划始终连贯。
5. 引导模型主动采取行动
Cursor 的目标是:除非用户明确说“不要动代码”,否则 agent 应该尝试直接解决问题,而不是一遍遍询问。
Cursor 团队在提示里写得很清楚:
除非用户明确要求查看计划或其他明确表示不应写代码的意图,否则假定用户希望你进行代码更改或运行工具以解决问题。在这些情况下,把拟议解决方案输出为消息是不合适的,你应该直接去实现更改。如果遇到挑战或阻塞,你应该尝试自行解决。
这个调整可以让 Codex 行为更果断,减少用户等待时间,体验也更流畅。
6. 避免提示冲突
因为 OpenAI 模型会强烈依赖提示顺序(system > user > tool),Cursor 团队必须非常小心 system prompt 中的每一句话,不然可能无意中压制模型完成任务的动力。
他们举了一个例子:
如果 system prompt 强调“节省 tokens”,这条信息会影响模型去执行更有野心的任务或大规模探索的意愿。
有时 Codex 会停下来固执地说,“我不应浪费 tokens,我认为不值得继续这个任务!”
于是 Cursor 团队调整了 harness,以确保 Cursor 提供的提示不会包含可能无意中与用户消息相矛盾的指令。否则,Codex 可能进入一种不愿遵从用户请求的状态。
总结
从这次 Codex 的适配过程可以看出,模型能力越强、agent 行为越复杂,对工具链、提示设计、推理轨迹管理的要求也就越高。
Cursor 团队的做法是一个非常值得参考的实践示范——既关注模型本身,也关注模型在产品环境里的行为稳定性,这样才能尽可能的发挥每个模型的能力。
AI编程交流群
欢迎进群交流,关注公众号,点击【进交流群】,加我好友,我拉你进群。
感谢阅读,如果觉得不错,随手点个赞、在看、转发三连吧~

【声明】内容源于网络
0
0
十二AI编程
专注AI编程、AI工具提效、AI副业搞钱等内容的分享。
内容 50
粉丝 0
十二AI编程 专注AI编程、AI工具提效、AI副业搞钱等内容的分享。
总阅读923
粉丝0
内容50