01
引言
OpenAI刚刚宣布了两项重大更新。首先,o3模型价格直降80%;其次,他们推出了名为o3-pro的全新模型。
o3-pro是目前OpenAI最先进的多模态深度推理模型。它能通过逐步拆解问题,在编程、数学、科学、视觉理解等诸多领域提供更可靠的解决方案。
我知道OpenAI的模型命名体系简直一团糟。如果你分不清o3与GPT-4.x系列或GPT-4o的区别,别担心——所有人都被绕晕了。以下是快速梳理:
GPT-4.x:基础多模态模型(无深度推理能力),支持文本和图像
GPT-4o:字母"o"代表"全能"(omni),可处理文本、图像及音频
o3与o3-pro:具备推理能力的多模态模型,属于"思考型"模型(以文本为主,有限图像支持)
这些推理模型能自主调用ChatGPT内的所有工具:包括网络搜索、用Python分析上传文件/数据、视觉输入推理,甚至在某些场景下生成图像。
相比o3基础版,o3-pro通过更强的算力支撑实现深度思考,持续提供更优质的解答。
02
要理解o3-pro,必须先了解OpenAI的o3模型在后台的运作机制——因为o3-pro本质上就是获得更多思考时间和算力加持的o3升级版。
o系列模型是 OpenAI 以推理能力为重点的系列。它们的训练方式与传统的 GPT 系列不同。除了在互联网文本上进行预训练,OpenAI 还通过大规模强化学习(RL)训练了 o3。其核心思想是:你不仅可以训练模型重复信息,还可以教它逐步推理解决问题。
在o3开发过程中,OpenAI发现强化学习呈现出与GPT预训练相同的"算力越多=性能越强"的缩放规律。换言之,只要增加模型的算力预算并延长其推理时间,性能就会持续突破预期上限。
他们用强化学习技术重走了这条缩放路径,在训练和推理环节都投入了十倍级的算力。最终结果是:o3获得的思考资源越多,表现就越聪明。
这个发现至关重要——它解释了o3-pro存在的根本逻辑。这并非新架构,而是为每个请求分配更多算力和推理预算的o3。相同的缩放定律依然适用:投入越多计算资源,产出答案质量越高。
OpenAI甚至验证过:在相同延迟和成本条件下,o3已超越o1的表现。而当他们允许o3"延长思考时间"时,其性能仍能持续提升——这正是o3-pro要释放的潜力。
让我们看看o3-pro在写作、编程、数据分析等领域的基准测试中如何全面碾压o3。
在编程、数学和科学问题的可靠性方面,o3-pro的得分依然超越了旧版o系列模型。
在解析复杂查询(尤其是多步骤编程任务或强逻辑性的业务需求)时,o3展现的能力相比GPT-4o和4.1堪称质的飞跃。
比如我曾尝试构建一个任务规划智能体,需要将高层目标拆解为可执行任务,并要求每个步骤都附带逻辑论证。GPT-4o经常偷工减料或输出模糊清单,而o3是首个能持续生成细节完备、逻辑严密的规划方案的模型。
如今o3-pro在保持相同架构的前提下,为开发者提供了更充沛的算力与推理资源。理论上,这意味着面对真正棘手的难题时,我们将获得更可靠的深度推理能力和更优异的性能表现。
03
以下是 o3-pro 的功能总结:
-
20 万上下文窗口 -
最大输出 10 万 token -
知识截止日期为 2024 年 6 月 1 日 -
支持推理专用 token
目前,10 万输出 token 的限制正受到一些开发者的批评。谷歌已经支持高达 100 万的输出 token。为什么 OpenAI 不能提高这个限制呢?
就我个人而言,我并不介意这 10 万的限制。实际上,我几乎从未使用完所有这些 token。对于长篇结构化输出或需要管理大量状态的智能体 (agent) 来说,10 万 token 完全够用。
支持的工具(仅限 API):
-
文件检索 -
图像生成(仅限输入) -
MCP(多模态对话编程)
不支持的工具:
-
网络搜索 -
代码解释器 -
计算机控制
换句话说,o3-pro 是一个深度思考者,但不是一把瑞士军刀。它不会运行你的 Python 脚本或浏览网页。但它在处理复杂输入和多部分查询方面的推理能力,比 OpenAI 迄今为止发布的任何其他模型都要好。
其他需要注意的限制:
深度推理请求通常需要1-3分钟完成(复杂编程任务实测数据)
推荐使用后台模式避免超时
当前ChatGPT临时会话功能暂不可用(技术问题修复中)
不支持图像生成和Canvas画布功能
04
现在重点聊聊成本问题——这对基于该模型开发智能体或应用的开发者至关重要。
每百万token定价:
输入:20美元
输出:80美元
将这个价格与现已淘汰的 o1-pro 模型相比,价格下降了87%。

但请记住,o3-pro 仍然比基础的 o3 模型贵了10倍。以下是这三种 o3 模型的对比:
如果你的应用需要高吞吐量或快速响应,成本会很快变得昂贵。对于那些真正能从深度推理中受益的智能体来说,价值可能是值得的。对于休闲应用或聊天体验,使用 o3 或甚至 GPT-4.x 可能还是更好的选择。
大家可以在这里了解各模型的详细价格信息。
链接:https://platform.openai.com/docs/pricing
05
截至今日,ChatGPT Pro版用户可在应用内使用o3-pro模型(已取代停用的o1-pro模型)。开发者也可通过API调用o3-pro。企业版和教育版用户将于下周获得该功能。
若您已是Plus订阅用户但尚未通过API或ChatGPT界面获得o3-pro访问权限,可尝试以下技巧:
首先,访问 platform.openai.com 并用你的 ChatGPT 账号登录。
然后打开 Playground 控制台,在 Prompts 标签下,展开 Model 下拉菜单,
你会找到 o3-pro-2025–06–10。
你还可以连接各种工具,以激活更强大的功能,比如文件搜索、图片生成、连接 MCP 服务器等等。
我个人对MCP集成功能特别感兴趣。目前平台仅提供11个应用模板,也可通过点击"新增"按钮手动填写表单连接服务器。
06
现在,我们来测试一下o3-pro的推理能力。
提问:你回答这个问题的内容有多少个单词?
o3-pro 返回了正确答案,但思考过程耗时超过34秒。对于一个只需回答一个单词的简单问题来说,这个速度出奇地慢。
出于好奇,我切换到GPT-4o并问了同样的问题。GPT-4o在不到两秒内就给出了答案。
这说明,对于基础任务,你并不总是需要一个具备高级推理能力的模型。选择合适的模型至关重要。
尽管o3-pro具备高级推理能力,但在某些视觉任务上仍然表现不佳。例如,网友分享了一个案例,他让AI计算一个手部表情符号的手指数量。
提问:这只手有几根手指?
AI错误地回答“5”,而实际上输入的表情符号图片显示的是6根手指。
这很可能是因为o3-pro依赖的是学习到的模式,而非真正的视觉“理解”。它训练时接触了数百万张正常手的图片,而这些手几乎都是5根手指。因此,当它看到6根手指的手时,其内在偏差会强烈“预期”这是一只5指手。
此外,这类模型的图像编码器在将图片转换为嵌入向量时,有时会压缩或丢失细节。微妙的或异常的变化(比如多出一根手指)可能无法在语言模型推理所依赖的表示中完整保留。
无论原因为何,在图像中计数物体、手指或辨识精细细节,对于任何“多模态”模型而言,仍然是较难的任务之一。
07
o3-pro 的大幅降价使得更多开发者能够使用具有高级推理能力的模型。虽然o3-pro的定价并不便宜,但对于需要深度思考和高品质推理的智能体或应用来说,其价值或许物有所值。
同时我也密切关注着竞争对手动向。就在OpenAI发布o3-pro后,有消息称谷歌正准备推出新版Gemini Ultra。如果Gemini Ultra最终在价格、速度及编程推理能力上更胜一筹,这个月的模型大战就有好戏看了。
当然,我也很想听听各位对o3-pro的看法。你们已经试用过了吗?
点击上方小卡片关注我
添加个人微信,进专属粉丝群!

