

OpenAI O3-Pro模型发布

AI算法之道

2025-06-11

导读：OpenAI O3-Pro模型发布

点击蓝字

关注我们

引言

OpenAI刚刚宣布了两项重大更新。首先，o3模型价格直降80%；其次，他们推出了名为o3-pro的全新模型。

o3-pro是目前OpenAI最先进的多模态深度推理模型。它能通过逐步拆解问题，在编程、数学、科学、视觉理解等诸多领域提供更可靠的解决方案。

我知道OpenAI的模型命名体系简直一团糟。如果你分不清o3与GPT-4.x系列或GPT-4o的区别，别担心——所有人都被绕晕了。以下是快速梳理：

GPT-4.x：基础多模态模型（无深度推理能力），支持文本和图像

GPT-4o：字母"o"代表"全能"（omni），可处理文本、图像及音频

o3与o3-pro：具备推理能力的多模态模型，属于"思考型"模型（以文本为主，有限图像支持）

这些推理模型能自主调用ChatGPT内的所有工具：包括网络搜索、用Python分析上传文件/数据、视觉输入推理，甚至在某些场景下生成图像。

相比o3基础版，o3-pro通过更强的算力支撑实现深度思考，持续提供更优质的解答。

什么是o3-Pro?

要理解o3-pro，必须先了解OpenAI的o3模型在后台的运作机制——因为o3-pro本质上就是获得更多思考时间和算力加持的o3升级版。

o系列模型是 OpenAI 以推理能力为重点的系列。它们的训练方式与传统的 GPT 系列不同。除了在互联网文本上进行预训练，OpenAI 还通过大规模强化学习（RL）训练了 o3。其核心思想是：你不仅可以训练模型重复信息，还可以教它逐步推理解决问题。

在o3开发过程中，OpenAI发现强化学习呈现出与GPT预训练相同的"算力越多=性能越强"的缩放规律。换言之，只要增加模型的算力预算并延长其推理时间，性能就会持续突破预期上限。

他们用强化学习技术重走了这条缩放路径，在训练和推理环节都投入了十倍级的算力。最终结果是：o3获得的思考资源越多，表现就越聪明。

这个发现至关重要——它解释了o3-pro存在的根本逻辑。这并非新架构，而是为每个请求分配更多算力和推理预算的o3。相同的缩放定律依然适用：投入越多计算资源，产出答案质量越高。

OpenAI甚至验证过：在相同延迟和成本条件下，o3已超越o1的表现。而当他们允许o3"延长思考时间"时，其性能仍能持续提升——这正是o3-pro要释放的潜力。

让我们看看o3-pro在写作、编程、数据分析等领域的基准测试中如何全面碾压o3。

在编程、数学和科学问题的可靠性方面，o3-pro的得分依然超越了旧版o系列模型。

在解析复杂查询（尤其是多步骤编程任务或强逻辑性的业务需求）时，o3展现的能力相比GPT-4o和4.1堪称质的飞跃。

比如我曾尝试构建一个任务规划智能体，需要将高层目标拆解为可执行任务，并要求每个步骤都附带逻辑论证。GPT-4o经常偷工减料或输出模糊清单，而o3是首个能持续生成细节完备、逻辑严密的规划方案的模型。

如今o3-pro在保持相同架构的前提下，为开发者提供了更充沛的算力与推理资源。理论上，这意味着面对真正棘手的难题时，我们将获得更可靠的深度推理能力和更优异的性能表现。

核心能力

以下是 o3-pro 的功能总结：

20 万上下文窗口
最大输出 10 万 token
知识截止日期为 2024 年 6 月 1 日
支持推理专用 token

目前，10 万输出 token 的限制正受到一些开发者的批评。谷歌已经支持高达 100 万的输出 token。为什么 OpenAI 不能提高这个限制呢？

就我个人而言，我并不介意这 10 万的限制。实际上，我几乎从未使用完所有这些 token。对于长篇结构化输出或需要管理大量状态的智能体 (agent) 来说，10 万 token 完全够用。

支持的工具（仅限 API）：

文件检索
图像生成（仅限输入）
MCP（多模态对话编程）

不支持的工具：

网络搜索
代码解释器
计算机控制

换句话说，o3-pro 是一个深度思考者，但不是一把瑞士军刀。它不会运行你的 Python 脚本或浏览网页。但它在处理复杂输入和多部分查询方面的推理能力，比 OpenAI 迄今为止发布的任何其他模型都要好。

o3-pro 仅通过Responses API提供，专为需要保持状态和深度推理的多轮交互设计。其杀手锏在于可调用工具链：包括网络检索、文件分析、视觉推理、Python计算、记忆个性化响应等。

其他需要注意的限制：

深度推理请求通常需要1-3分钟完成（复杂编程任务实测数据）

推荐使用后台模式避免超时

当前ChatGPT临时会话功能暂不可用（技术问题修复中）

不支持图像生成和Canvas画布功能

定价

现在重点聊聊成本问题——这对基于该模型开发智能体或应用的开发者至关重要。

每百万token定价：

输入：20美元

输出：80美元

将这个价格与现已淘汰的 o1-pro 模型相比，价格下降了87%。

但请记住，o3-pro 仍然比基础的 o3 模型贵了10倍。以下是这三种 o3 模型的对比：

如果你的应用需要高吞吐量或快速响应，成本会很快变得昂贵。对于那些真正能从深度推理中受益的智能体来说，价值可能是值得的。对于休闲应用或聊天体验，使用 o3 或甚至 GPT-4.x 可能还是更好的选择。

大家可以在这里了解各模型的详细价格信息。

链接：https://platform.openai.com/docs/pricing

如何访问？

截至今日，ChatGPT Pro版用户可在应用内使用o3-pro模型（已取代停用的o1-pro模型）。开发者也可通过API调用o3-pro。企业版和教育版用户将于下周获得该功能。

若您已是Plus订阅用户但尚未通过API或ChatGPT界面获得o3-pro访问权限，可尝试以下技巧：

首先，访问 platform.openai.com 并用你的 ChatGPT 账号登录。

然后打开 Playground 控制台，在 Prompts 标签下，展开 Model 下拉菜单，

你会找到 o3-pro-2025–06–10。

你还可以连接各种工具，以激活更强大的功能，比如文件搜索、图片生成、连接 MCP 服务器等等。

我个人对MCP集成功能特别感兴趣。目前平台仅提供11个应用模板，也可通过点击"新增"按钮手动填写表单连接服务器。

测试

现在，我们来测试一下o3-pro的推理能力。

提问：你回答这个问题的内容有多少个单词？

o3-pro 返回了正确答案，但思考过程耗时超过34秒。对于一个只需回答一个单词的简单问题来说，这个速度出奇地慢。

出于好奇，我切换到GPT-4o并问了同样的问题。GPT-4o在不到两秒内就给出了答案。

这说明，对于基础任务，你并不总是需要一个具备高级推理能力的模型。选择合适的模型至关重要。

尽管o3-pro具备高级推理能力，但在某些视觉任务上仍然表现不佳。例如，网友分享了一个案例，他让AI计算一个手部表情符号的手指数量。

提问：这只手有几根手指？

AI错误地回答“5”，而实际上输入的表情符号图片显示的是6根手指。

这很可能是因为o3-pro依赖的是学习到的模式，而非真正的视觉“理解”。它训练时接触了数百万张正常手的图片，而这些手几乎都是5根手指。因此，当它看到6根手指的手时，其内在偏差会强烈“预期”这是一只5指手。

此外，这类模型的图像编码器在将图片转换为嵌入向量时，有时会压缩或丢失细节。微妙的或异常的变化（比如多出一根手指）可能无法在语言模型推理所依赖的表示中完整保留。

无论原因为何，在图像中计数物体、手指或辨识精细细节，对于任何“多模态”模型而言，仍然是较难的任务之一。

结论

o3-pro 的大幅降价使得更多开发者能够使用具有高级推理能力的模型。虽然o3-pro的定价并不便宜，但对于需要深度思考和高品质推理的智能体或应用来说，其价值或许物有所值。

同时我也密切关注着竞争对手动向。就在OpenAI发布o3-pro后，有消息称谷歌正准备推出新版Gemini Ultra。如果Gemini Ultra最终在价格、速度及编程推理能力上更胜一筹，这个月的模型大战就有好戏看了。

当然，我也很想听听各位对o3-pro的看法。你们已经试用过了吗？

点击上方小卡片关注我

添加个人微信，进专属粉丝群！

【声明】内容源于网络

AI算法之道

一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

内容 573

粉丝 0

AI算法之道一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

总阅读256

粉丝0

内容573