大数跨境
0
0

OpenAI 发布 GPT-5.1-Codex-Max:能自主工作 24 小时的新一代智能编程助手

OpenAI 发布 GPT-5.1-Codex-Max:能自主工作 24 小时的新一代智能编程助手 BitaHub社区
2025-11-28
0
导读:OpenAI发布GPT-5.1-Codex-Max,可自主工作24小时,代码推理能力领先Gemini 3 Pro,采用Compaction技术,集成Codex工具链,安全沙箱隔离,开启工程级AI代理时

OpenAI 推出 GPT-5.1-Codex-Max,将其定位为面向软件工程场景的全新智能编程助手,并直接替代原有的 GPT-5.1-Codex 成为 Codex 系列默认模型。新模型强调长程推理能力、更高的工程任务持续性,以及更强的交互特性,能够在一个持续上下文中承担多阶段、跨文件、跨模块的大型开发任务。

整体来看,Codex-Max 标志着 AI 编程从“生成代码工具”向“能够持续工作、独立推进任务的智能开发助手”正式跨越。


📊 更强的代码推理能力:多项基准全面领先 Gemini 3 Pro


新模型在多个关键代码基准上领先或持平 Google 最新的 Gemini 3 Pro,尤其在需要深度推理的任务中优势明显:


  • SWE-Bench Verified:77.9%(高推理模式),略高于 Gemini 3 Pro 的 76.2%

  • Terminal-Bench 2.0:58.1%,高于 Gemini 的 54.2%

  • LiveCodeBench Pro:2439,与 Gemini 3 Pro 持平

  • 在对比 Gemini 3 Pro 的最高规格 Deep Thinking 版本时,Codex-Max 在 agentic coding(自主推理式编程)方向仍保持小幅领先


相较上一代 GPT-5.1-Codex,Codex-Max 的增幅更为显著:


  • SWE-Lancer IC SWE:79.9% → 大幅提升自 66.3%

  • SWE-Bench Verified:77.9% → 优于上一代的 73.7%

  • Terminal Bench 2.0:58.1% → 优于 52.8%


这些数据表明,新模型在 长推理链路、跨文件逻辑整合和真实工程任务 中拥有更高上限。


🧠技术核心:依靠“Compaction”实现的超长时序推理


GPT-5.1-Codex-Max 的关键突破在于引入了 Compaction(压缩推理)机制。Compaction 解决了令开发者最头痛的两个问题:


  1. 在极长上下文中保持思路不乱 

    模型能够在逐渐接近上下文窗口极限时自动“保留关键信息、丢弃无用细节”,确保任务在百万级 tokens 中依旧逻辑一致。


  2. 显著提升推理效率

    在中等推理力度下,新模型的“思考 token”消耗比上一代减少约 30%,在延长推理深度的同时降低了延迟与成本。在 OpenAI 内部测试中,它已经能够完成 超过 24 小时的连续任务,包括:


  • 多轮迭代的大型代码重构

  • 持续纠错 + 测试驱动开发

  • 自主调试与重试策略


这意味着模型已能稳定支持工程级“长任务”流程,而非只解决短回复或小段代码。


🧩 深度集成 Codex 工具链:覆盖整个工程生命周期


目前,GPT-5.1-Codex-Max 已在 OpenAI 自研的 Codex 系列工具中可用,主要包括:


  • Codex CLI(@openai/codex) —— 已默认升级为 Codex-Max

  • OpenAI 官方 IDE 扩展

  • 交互式可视化开发环境(如 CartPole、折射模拟器)

  • OpenAI 内部的代码审查工具链


虽然尚未开放 API,但 OpenAI 表示将“即将开放”。目前开发者可通过 Codex CLI 在终端环境立即体验 Codex-Max。模型支持与实时工具交互,包括:


  • CartPole 交互式策略梯度训练可视化

  • Snell’s Law 光学模拟器(动态光线追踪)


这些场景展示了模型在可视化推理、实时仿真与工程开发上的结合能力,使其具备“边算边改、边看边调”的智能代理特征。


🛡️ 安全设计:最强安全代码模型,但保持严格沙箱隔离


虽然 Codex-Max 未达到 OpenAI 最高级别安全标准,但它是目前公开提供的最强网络安全能力模型。它支持:


  • 自动化漏洞检测

  • 自动修复

  • 代码安全审查


同时,模型默认运行在严格隔离的本地沙箱中:


  • 禁止默认联网

  • 不访问不受信任文件

  • 带有审计、风控、异常行为中断机制


这种设计确保模型在具有高度自主性的同时,避免被利用来执行复杂攻击或安全绕过。


⚙️应用场景与工程价值


已对 ChatGPT Plus、Pro、Business、Edu、Enterprise 全线开放,OpenAI 内部的 95% 工程师每周使用 Codex,平均提交的 pull request 数量提升 约 70%,表现出显著的工程加速效果。

尽管 Codex-Max 具备强大的半自主开发能力,但 OpenAI 仍强调它是“工程助手”,所有产出的代码、日志与调用细节都是可审计的,方便开发者进行人工复核。


🔮展望:迈向真正的“工程级 AI 代理”时代


GPT-5.1-Codex-Max 的发布表明,代码模型正在从“生成代码”演进到:

能持续推理、跨文件理解、执行真实工程任务的全流程代理。

依托 Compaction 机制带来的超长推理能力,模型已具备处理 以项目甚至仓库为单位 的任务,这是过去 LLM 难以胜任的工作。

随着后续 API 开放、与更多 IDE 深度合作、以及更严格的安全基础设施建设,Codex-Max 很可能成为下一代智能开发环境的核心组件,加速 AI 工程化的落地。


【声明】内容源于网络
0
0
BitaHub社区
BitaHub是一个开放的AI和深度学习社区,为广大开发者提供先进的、有竞争力的GPU算力资源及数据集、模型资源,同时提供了一个全流程的AI开发平台,包括模型训练、推理、数据集管理。
内容 50
粉丝 0
BitaHub社区 BitaHub是一个开放的AI和深度学习社区,为广大开发者提供先进的、有竞争力的GPU算力资源及数据集、模型资源,同时提供了一个全流程的AI开发平台,包括模型训练、推理、数据集管理。
总阅读30
粉丝0
内容50