OpenAI 发布 GPT-5.1-Codex-Max：能自主工作 24 小时的新一代智能编程助手

BitaHub社区

2025-11-28

导读：OpenAI发布GPT-5.1-Codex-Max，可自主工作24小时，代码推理能力领先Gemini 3 Pro，采用Compaction技术，集成Codex工具链，安全沙箱隔离，开启工程级AI代理时

OpenAI 推出 GPT-5.1-Codex-Max，将其定位为面向软件工程场景的全新智能编程助手，并直接替代原有的 GPT-5.1-Codex 成为 Codex 系列默认模型。新模型强调长程推理能力、更高的工程任务持续性，以及更强的交互特性，能够在一个持续上下文中承担多阶段、跨文件、跨模块的大型开发任务。

整体来看，Codex-Max 标志着 AI 编程从“生成代码工具”向“能够持续工作、独立推进任务的智能开发助手”正式跨越。

📊 更强的代码推理能力：多项基准全面领先 Gemini 3 Pro

新模型在多个关键代码基准上领先或持平 Google 最新的 Gemini 3 Pro，尤其在需要深度推理的任务中优势明显：

SWE-Bench Verified：77.9%（高推理模式），略高于 Gemini 3 Pro 的 76.2%
Terminal-Bench 2.0：58.1%，高于 Gemini 的 54.2%
LiveCodeBench Pro：2439，与 Gemini 3 Pro 持平
在对比 Gemini 3 Pro 的最高规格 Deep Thinking 版本时，Codex-Max 在 agentic coding（自主推理式编程）方向仍保持小幅领先

相较上一代 GPT-5.1-Codex，Codex-Max 的增幅更为显著：

SWE-Lancer IC SWE：79.9% → 大幅提升自 66.3%
SWE-Bench Verified：77.9% → 优于上一代的 73.7%
Terminal Bench 2.0：58.1% → 优于 52.8%

这些数据表明，新模型在 长推理链路、跨文件逻辑整合和真实工程任务 中拥有更高上限。

🧠技术核心：依靠“Compaction”实现的超长时序推理

GPT-5.1-Codex-Max 的关键突破在于引入了 Compaction（压缩推理）机制。Compaction 解决了令开发者最头痛的两个问题：

在极长上下文中保持思路不乱
模型能够在逐渐接近上下文窗口极限时自动“保留关键信息、丢弃无用细节”，确保任务在百万级 tokens 中依旧逻辑一致。
显著提升推理效率
在中等推理力度下，新模型的“思考 token”消耗比上一代减少约 30%，在延长推理深度的同时降低了延迟与成本。在 OpenAI 内部测试中，它已经能够完成 超过 24 小时的连续任务，包括：

多轮迭代的大型代码重构
持续纠错 + 测试驱动开发
自主调试与重试策略

这意味着模型已能稳定支持工程级“长任务”流程，而非只解决短回复或小段代码。

🧩 深度集成 Codex 工具链：覆盖整个工程生命周期

目前，GPT-5.1-Codex-Max 已在 OpenAI 自研的 Codex 系列工具中可用，主要包括：

Codex CLI（@openai/codex） —— 已默认升级为 Codex-Max
OpenAI 官方 IDE 扩展
交互式可视化开发环境（如 CartPole、折射模拟器）
OpenAI 内部的代码审查工具链

虽然尚未开放 API，但 OpenAI 表示将“即将开放”。目前开发者可通过 Codex CLI 在终端环境立即体验 Codex-Max。模型支持与实时工具交互，包括：

CartPole 交互式策略梯度训练可视化
Snell’s Law 光学模拟器（动态光线追踪）

这些场景展示了模型在可视化推理、实时仿真与工程开发上的结合能力，使其具备“边算边改、边看边调”的智能代理特征。

🛡️ 安全设计：最强安全代码模型，但保持严格沙箱隔离

虽然 Codex-Max 未达到 OpenAI 最高级别安全标准，但它是目前公开提供的最强网络安全能力模型。它支持：

自动化漏洞检测
自动修复
代码安全审查

同时，模型默认运行在严格隔离的本地沙箱中：

禁止默认联网
不访问不受信任文件
带有审计、风控、异常行为中断机制

这种设计确保模型在具有高度自主性的同时，避免被利用来执行复杂攻击或安全绕过。

⚙️应用场景与工程价值

已对 ChatGPT Plus、Pro、Business、Edu、Enterprise 全线开放，OpenAI 内部的 95% 工程师每周使用 Codex，平均提交的 pull request 数量提升约 70%，表现出显著的工程加速效果。

尽管 Codex-Max 具备强大的半自主开发能力，但 OpenAI 仍强调它是“工程助手”，所有产出的代码、日志与调用细节都是可审计的，方便开发者进行人工复核。

🔮展望：迈向真正的“工程级 AI 代理”时代

GPT-5.1-Codex-Max 的发布表明，代码模型正在从“生成代码”演进到：

能持续推理、跨文件理解、执行真实工程任务的全流程代理。

依托 Compaction 机制带来的超长推理能力，模型已具备处理 以项目甚至仓库为单位 的任务，这是过去 LLM 难以胜任的工作。

随着后续 API 开放、与更多 IDE 深度合作、以及更严格的安全基础设施建设，Codex-Max 很可能成为下一代智能开发环境的核心组件，加速 AI 工程化的落地。

【声明】内容源于网络

BitaHub社区

BitaHub是一个开放的AI和深度学习社区，为广大开发者提供先进的、有竞争力的GPU算力资源及数据集、模型资源，同时提供了一个全流程的AI开发平台，包括模型训练、推理、数据集管理。

内容 50

粉丝 0

BitaHub社区 BitaHub是一个开放的AI和深度学习社区，为广大开发者提供先进的、有竞争力的GPU算力资源及数据集、模型资源，同时提供了一个全流程的AI开发平台，包括模型训练、推理、数据集管理。

总阅读30

粉丝0

内容50