大数跨境
0
0

OpenAI O3-Pro模型发布

OpenAI O3-Pro模型发布 AI算法之道
2025-06-11
1
导读:OpenAI O3-Pro模型发布
点击蓝字
关注我们










01


引言


OpenAI刚刚宣布了两项重大更新。首先,o3模型价格直降80%;其次,他们推出了名为o3-pro的全新模型。

o3-pro是目前OpenAI最先进的多模态深度推理模型。它能通过逐步拆解问题,在编程、数学、科学、视觉理解等诸多领域提供更可靠的解决方案。

我知道OpenAI的模型命名体系简直一团糟。如果你分不清o3与GPT-4.x系列或GPT-4o的区别,别担心——所有人都被绕晕了。以下是快速梳理:

  • GPT-4.x:基础多模态模型(无深度推理能力),支持文本和图像

  • GPT-4o:字母"o"代表"全能"(omni),可处理文本、图像及音频

  • o3与o3-pro:具备推理能力的多模态模型,属于"思考型"模型(以文本为主,有限图像支持)

这些推理模型能自主调用ChatGPT内的所有工具:包括网络搜索、用Python分析上传文件/数据、视觉输入推理,甚至在某些场景下生成图像。

相比o3基础版,o3-pro通过更强的算力支撑实现深度思考,持续提供更优质的解答





02

  什么是o3-Pro?

要理解o3-pro,必须先了解OpenAI的o3模型在后台的运作机制——因为o3-pro本质上就是获得更多思考时间和算力加持的o3升级版。

o系列模型是 OpenAI 以推理能力为重点的系列。它们的训练方式与传统的 GPT 系列不同。除了在互联网文本上进行预训练,OpenAI 还通过大规模强化学习(RL)训练了 o3。其核心思想是:你不仅可以训练模型重复信息,还可以教它逐步推理解决问题。

在o3开发过程中,OpenAI发现强化学习呈现出与GPT预训练相同的"算力越多=性能越强"的缩放规律。换言之,只要增加模型的算力预算并延长其推理时间,性能就会持续突破预期上限。

他们用强化学习技术重走了这条缩放路径,在训练和推理环节都投入了十倍级的算力。最终结果是:o3获得的思考资源越多,表现就越聪明。

这个发现至关重要——它解释了o3-pro存在的根本逻辑。这并非新架构,而是为每个请求分配更多算力和推理预算的o3。相同的缩放定律依然适用:投入越多计算资源,产出答案质量越高。

OpenAI甚至验证过:在相同延迟和成本条件下,o3已超越o1的表现。而当他们允许o3"延长思考时间"时,其性能仍能持续提升——这正是o3-pro要释放的潜力。

让我们看看o3-pro在写作、编程、数据分析等领域的基准测试中如何全面碾压o3。

在编程、数学和科学问题的可靠性方面,o3-pro的得分依然超越了旧版o系列模型。

在解析复杂查询(尤其是多步骤编程任务或强逻辑性的业务需求)时,o3展现的能力相比GPT-4o和4.1堪称质的飞跃。

比如我曾尝试构建一个任务规划智能体,需要将高层目标拆解为可执行任务,并要求每个步骤都附带逻辑论证。GPT-4o经常偷工减料或输出模糊清单,而o3是首个能持续生成细节完备、逻辑严密的规划方案的模型。

如今o3-pro在保持相同架构的前提下,为开发者提供了更充沛的算力与推理资源。理论上,这意味着面对真正棘手的难题时,我们将获得更可靠的深度推理能力和更优异的性能表现。





03

  核心能力

以下是 o3-pro 的功能总结:

  • 20 万上下文窗口
  • 最大输出 10 万 token
  • 知识截止日期为 2024 年 6 月 1 日
  • 支持推理专用 token

目前,10 万输出 token 的限制正受到一些开发者的批评。谷歌已经支持高达 100 万的输出 token。为什么 OpenAI 不能提高这个限制呢?

就我个人而言,我并不介意这 10 万的限制。实际上,我几乎从未使用完所有这些 token。对于长篇结构化输出或需要管理大量状态的智能体 (agent) 来说,10 万 token 完全够用。

支持的工具(仅限 API):

  • 文件检索
  • 图像生成(仅限输入)
  • MCP(多模态对话编程)

不支持的工具:

  • 网络搜索
  • 代码解释器
  • 计算机控制

换句话说,o3-pro 是一个深度思考者,但不是一把瑞士军刀。它不会运行你的 Python 脚本或浏览网页。但它在处理复杂输入和多部分查询方面的推理能力,比 OpenAI 迄今为止发布的任何其他模型都要好。

o3-pro 仅通过Responses API提供,专为需要保持状态和深度推理的多轮交互设计。其杀手锏在于可调用工具链:包括网络检索、文件分析、视觉推理、Python计算、记忆个性化响应等。

其他需要注意的限制:

  • 深度推理请求通常需要1-3分钟完成(复杂编程任务实测数据)

  • 推荐使用后台模式避免超时

  • 当前ChatGPT临时会话功能暂不可用(技术问题修复中)

  • 不支持图像生成和Canvas画布功能





04

  定 价

现在重点聊聊成本问题——这对基于该模型开发智能体或应用的开发者至关重要。

每百万token定价:

  • 输入:20美元

  • 输出:80美元

将这个价格与现已淘汰的 o1-pro 模型相比,价格下降了87%。

但请记住,o3-pro 仍然比基础的 o3 模型贵了10倍。以下是这三种 o3 模型的对比:

如果你的应用需要高吞吐量或快速响应,成本会很快变得昂贵。对于那些真正能从深度推理中受益的智能体来说,价值可能是值得的。对于休闲应用或聊天体验,使用 o3 或甚至 GPT-4.x 可能还是更好的选择。

大家可以在这里了解各模型的详细价格信息。

链接:https://platform.openai.com/docs/pricing







    05

      如何访问?

    截至今日,ChatGPT Pro版用户可在应用内使用o3-pro模型(已取代停用的o1-pro模型)。开发者也可通过API调用o3-pro。企业版和教育版用户将于下周获得该功能。

    若您已是Plus订阅用户但尚未通过API或ChatGPT界面获得o3-pro访问权限,可尝试以下技巧:

    首先,访问 platform.openai.com 并用你的 ChatGPT 账号登录。

    然后打开 Playground 控制台,在 Prompts 标签下,展开 Model 下拉菜单,

    你会找到 o3-pro-2025–06–10。

    你还可以连接各种工具,以激活更强大的功能,比如文件搜索、图片生成、连接 MCP 服务器等等。

    我个人对MCP集成功能特别感兴趣。目前平台仅提供11个应用模板,也可通过点击"新增"按钮手动填写表单连接服务器。






    06

      测 试

    现在,我们来测试一下o3-pro的推理能力。

    提问:你回答这个问题的内容有多少个单词?

    o3-pro 返回了正确答案,但思考过程耗时超过34秒。对于一个只需回答一个单词的简单问题来说,这个速度出奇地慢。

    出于好奇,我切换到GPT-4o并问了同样的问题。GPT-4o在不到两秒内就给出了答案。

    这说明,对于基础任务,你并不总是需要一个具备高级推理能力的模型。选择合适的模型至关重要。

    尽管o3-pro具备高级推理能力,但在某些视觉任务上仍然表现不佳。例如,网友分享了一个案例,他让AI计算一个手部表情符号的手指数量。

    提问:这只手有几根手指?

    AI错误地回答“5”,而实际上输入的表情符号图片显示的是6根手指。

    这很可能是因为o3-pro依赖的是学习到的模式,而非真正的视觉“理解”。它训练时接触了数百万张正常手的图片,而这些手几乎都是5根手指。因此,当它看到6根手指的手时,其内在偏差会强烈“预期”这是一只5指手。

    此外,这类模型的图像编码器在将图片转换为嵌入向量时,有时会压缩或丢失细节。微妙的或异常的变化(比如多出一根手指)可能无法在语言模型推理所依赖的表示中完整保留。

    无论原因为何,在图像中计数物体、手指或辨识精细细节,对于任何“多模态”模型而言,仍然是较难的任务之一。





    07

      结 论

    o3-pro 的大幅降价使得更多开发者能够使用具有高级推理能力的模型。虽然o3-pro的定价并不便宜,但对于需要深度思考和高品质推理的智能体或应用来说,其价值或许物有所值。

    同时我也密切关注着竞争对手动向。就在OpenAI发布o3-pro后,有消息称谷歌正准备推出新版Gemini Ultra。如果Gemini Ultra最终在价格、速度及编程推理能力上更胜一筹,这个月的模型大战就有好戏看了。

    当然,我也很想听听各位对o3-pro的看法。你们已经试用过了吗?





    点击上方小卡片关注我




    添加个人微信,进专属粉丝群!



    【声明】内容源于网络
    0
    0
    AI算法之道
    一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号,涵盖视觉CV、神经网络、模式识别等方面,包括相应的硬件和软件配置,以及开源项目等。
    内容 573
    粉丝 0
    AI算法之道 一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号,涵盖视觉CV、神经网络、模式识别等方面,包括相应的硬件和软件配置,以及开源项目等。
    总阅读256
    粉丝0
    内容573