大数跨境

OpenAI一夜连发三款语音模型,你的声音要被AI接管了

OpenAI一夜连发三款语音模型,你的声音要被AI接管了 cDesgin-天渊
2026-05-09
4
导读:GPT-Realtime-2推理语音+实时翻译70种语言+流式转录,三款模型同时上线,语音AI从玩具变成工具
试想一下:你打一个跨国电话,对面说的是法语,你听到的是中文——实时翻译,零延迟。这不是科幻,这是昨天发生的事。

一夜三发OpenAI这次玩真的

5月8日,OpenAI一口气发布了三款语音AI模型。不是PPT,不是预告,是真真切切能调用的API。

三款模型分别叫什么?

  • GPT-Realtime-2
     — 首款GPT-5级推理语音模型,能处理复杂请求、工具调用、甚至你说话时打断它
  • GPT-Realtime-Translate
     — 实时同步翻译,70多种输入语言,13种输出语言
  • GPT-Realtime-Whisper
     — 低延迟流式转录,说话即转文字

GPT-Realtime-2:不只是听懂你说话

这是三款里最重磅的。为什么?因为它是第一个把GPT-5级别的推理能力装进语音交互的模型。

以前的语音助手是什么体验?"嘿Siri,设个闹钟"——简单指令勉强能听,稍微复杂点就"我在网上找到了这些信息"。

GPT-Realtime-2不一样。你可以跟它说:"帮我订明天下午3点飞上海的机票,要靠窗的,价格不超过1500。"它会自己查航班、比较价格、完成预订——全程语音,不用你碰一下屏幕。

更绝的是,它支持打断。你说到一半突然改主意,"等等,改成后天吧",它能无缝接住,不会像以前的语音助手那样傻掉。

价格呢?音频输入$32/百万Token,输出$64/百万Token。对开发者来说不算便宜,但考虑到能力,值。

实时翻译:70种语言,零等待

第二款模型,GPT-Realtime-Translate,专门解决一个古老的问题——语言障碍。

支持70多种输入语言,翻译成13种输出语言。实时同步,不是"你说完我翻",而是"你边说我边翻"。

$0.034/分钟。一分钟三分四厘钱。打一个跨国商务电话,翻译费可能比电话费还便宜。

这意味着什么?意味着以后跟外国客户开会、跟海外团队协作,再也不需要翻译人员了。AI直接帮你搞定。

实时转写:说话即文字

第三款,GPT-Realtime-Whisper。名字有点长,但功能很简单——你说话,它实时转成文字。

$0.017/分钟,不到两分钱。会议纪要、采访记录、课堂笔记……这些曾经需要人工花几个小时做的事,现在AI实时搞定。

而且它已经集成进了Realtime API,开发者可以直接调用。不需要额外对接,一套接口搞定语音对话、翻译、转写三件事。

语音AI的iPhone时刻?

把这三款模型放在一起看,你会发现OpenAI在下很大的一盘棋。

之前的ChatGPT是文字交互。GPT-4o加了图片理解。现在,语音这块拼图也补上了。

而且不是那种"能用但不好用"的语音——是真正的GPT-5级推理+实时翻译+流式转录。三合一。

有人说这是语音AI的"iPhone时刻"。我觉得这个比喻不太准确。更准确的说法是:这是语音AI从"玩具"变成"工具"的时刻。

说实话,这三款模型让我最兴奋的不是技术本身,而是价格。实时翻译$0.034/分钟,实时转写$0.017/分钟——这个价格,已经低到普通用户都用得起了。技术再强,贵得离谱也没用。OpenAI显然意识到了这一点。当AI语音服务比一杯咖啡还便宜的时候,真正的普及才算开始。而这一天,可能比我们想象的来得更快。

作者:cDesign-天渊 | 发布日期:2026年5月9日

【声明】内容源于网络
0
0
cDesgin-天渊
AI前沿资讯,AI项目落地
内容 40
粉丝 0
cDesgin-天渊 AI前沿资讯,AI项目落地
总阅读32
粉丝0
内容40