

GPT-4o官宣免费：究极进化，年度最强AI语音助理完美复刻“贾维斯”

华军AI产品榜

2024-05-14

导读：OpenAI的新模型GPT-4o，以免费开放的姿态重新定义AI助理的潜能，实现前所未有的多模态交互和拟人化响应。

‍‍点击上方「蓝字」关注我们

公众号最近叕改版啦~

将本号设为⭐星标才能接收到我们的文章

以下文章节选自量子位，编辑 EVA

未来已来！

科幻故事背景设定下的未来世界，⏩快进到2024年到来！

当地时间5月13日，OpenAI深夜放出重磅旗舰大模型！

代号「GPT-4o」，截胡今晚开幕的谷歌I/O开发者大会。

并且官宣免费使用，支持横跨图文音视频多模态的听

、看

、说

。

颠覆一切行业AI助理形态，直接可以通过手机摄像头捕捉周遭环境，并给出自己的观点，输出的语音还带有逼真的人类情绪与语气，直接炸裂！

AI，「她」还能感受用户的呼吸节奏，也能用比以往都要丰富的语气实时回复，甚至可以像人类之间交谈那样，做到随时打断。

AI甚至还有了一些非常拟人的情绪状态，比如当GPT-4o识别了用户手写的「我爱ChatGPT」文字时，甚至会有娇羞的反应！

整个发布节奏极快，大约只进行了半小时，期间露出了很多苹果设备，看来OpenAI与苹果的密切合作即将上线。

GPT-4o的「O」到底是什么意思？

在发布会之前，网上众说纷纭，有人猜测是「GPT-4.5」，甚至还有人猜测是「GPT-4s」，这直接对标iPhone型号了。

但没想到，今天凌晨给我们的答案是：GPT-4o，Four Oh？

根据官方介绍，GPT-4o里的「O」是“Omni”的缩写，即是“全能”的意思。

因为GPT-4o可以接受文本、音频和图像的任意组合作为输入信息，并输出多模态的结果，因此可谓“全能战神”。

首次达到“拟人级”响应

在过去，几乎所有的AI系统给人们的感觉都是：你一句我一句，需要有人提示才能给出答复的“回合制游戏”。

GPT-4o可以在实现短至232ms、平均320ms的极限响应回复音频输出，这与我们人类在日常对话中的来往响应速度一致。

不知为何，ChatGPT Plus会员的「含金量」突然降低了好多！

👇🏻对比一下更新后的免费权益与付费权益：

世人皆笑醒，GPT4-o直接开放了ChatGPT的几乎所有基础功能，包括视觉、联网、记忆、执行代码、GPT Store等等…

这一切全部都是免费了，与此前外媒的爆料完全吻合。

免费会员与Plus会员的区别仅仅在于发起对话的次数。

OpenAI CTO穆拉蒂说：这等于将「GPT-4级」的大模型直接开放给用户了。

但事实上，她对产品的定义还是谦虚了。

因为👇🏻有开发者爆料，GPT-4o在公开的测评榜单对标其他大模型时，得分甚至超越了GPT-4 Turbo。

妥妥白嫖的神级大模型！

这样超强的模型仅仅只是免费体验吗？

那还不够，GPT-4o的API调用，直接打对折。减价还加量，响应速度还提升了一倍，单位时间内的调用API接口次数提升了5倍！

一部分网友指出，在GPT-4o的帮助下，将可以借助科技的力量让盲人重新获得认知世界的能力。

甚至不少网友已经开始幻想，单身狗是不是可以直接跟ChatGPT“谈恋爱”了？？

多种实战应用场景真机演示

估计还有家人们，有印象去年底谷歌刚刚发布Gemini大模型的时候，那个宣传造假的宣传片，对话“丝滑流畅”宛如与贾维斯对话。

结果很快狠狠打脸，Gemini的宣传效果被曝光是依赖后期剪辑营造的虚假实时对话，而今天，OpenAI通过线上直播直接演示了。

比如，让ChatGPT为两个不同国家的人们充当翻译机，当听到英语就翻译成意大利语，听到意大利语就翻译成英语。

除了实际应用的场景演示外，有一个事情是许多网友想干的——

那就是让两个AI机器人互相对话，最后还唱起来了，戏剧感直接拉满。

两台手机安装了新旧两版的ChatGPT应用，用于对比效果。

首先，新版ChatGPT通过手机的摄像头，可以很清楚便是出OpenAI总裁Brockman的衣着打扮以及房间内的环境。

接下来便是两个AI之间唠嗑的时间，它俩从Brockman的衣着品味开始聊起，左边不断提出新问题，右边一一解答。

接着，它们又开始唠起了房间的装潢风格、布置和光线氛围，后边具备多模态能力的GPT-4o甚至还注意到Brockman正在以上帝视角注视着它俩。

为了突出更丰富的直播场景，OpenAI安排了一位女子出现在Brockman身后搞些小动作。

这是为了提高考核难题专门安排的小剧场。GPT-4o很快便准确描述出女子正在男子身后恶搞小动作。

这局“AI茶话会”临近尾声，AI甚至还唱起了歌。旋律悠扬，音色也与真人毫无二致。

端到端训练，一次训练到位的多模态模型

在发布会前夕，OpenAI CEO奥特曼发推文表示，新的大模型就像「Magic」“魔法”一般。

那么，让观众感到惊艳的“魔法大模型”是如何训练的呢？

很可惜，OpenAI已经不再对外公布技术论文，官网只放出了一段十分简短的技术路线说明。

「在GPT-4o之前，ChatGPT的语音模式是由三个独立模型组成的工作流，即：语音转文本→GPT3.5/GPT-4→文本转语音。」

这样的工作模式，最大的问题便是延迟极高。整个系统的延迟足足有2.8秒（GPT-3.5）和5.4秒（GPT-4），而且丢失了大量的其他信息，比如人声的音调、多名说话者及背景音，也无法输出笑声、唱歌声，或表达人类的情感。

而GPT-4o是一个跨越文本、视觉和音频，由“端到端”直接一步到位训练出来的新模型，这意味着所有输入和输出都由同一个神经网络处理。

根据官方的介绍，在语音翻译任务上，GPT-4o强于OpenAI自研的语音转换模型Whisper-V3以及谷歌、Meta等竞争对手的语音模型。

在视觉理解上，GPT-4o再次反超谷歌“超大杯”Gemini 1.0 Ultra与Claude 3 Opus。

最后，关于那个最具争议的问题——

问：是不是我多注册几个ChatGPT的账号，就可以跳开对话次数的限制。我也不需要订阅20美金的那个会员了？

那可不一定。诚然，以目前的免费门槛来看，20美金月费的性价比不突出了。

但下月便是苹果WWDC开发者大会，已经确定要合作的两家公司——OpenAI与苹果，还会玩出什么新花样，进而带动iPhone的销量增长，目前还有好戏可以等着看呢。

👇🏻推荐好文👇🏻

国产Sora视频模型诞生，一鸣惊人！

「Remini」五一爆红，AI滤镜玩法速看！

想及时接收【AI奇点网】最新文章❓

点击页底账号，再点右上角【…】添加星标⭐️

分享丨点赞丨在看 「三连」拜托拜托~👇🏻

👇🏻点一下「关注」

一起洞见智慧未来

【声明】内容源于网络

华军AI产品榜

华军软件园出品，每月发布国内AI产品排行数据丨发现最受欢迎的先进工具丨统计维度业内最多

内容 73

粉丝 0

华军AI产品榜华军软件园出品，每月发布国内AI产品排行数据丨发现最受欢迎的先进工具丨统计维度业内最多

总阅读0

粉丝0

内容73