大数跨境
0
0

GPT-4o官宣免费:究极进化,年度最强AI语音助理完美复刻“贾维斯”

GPT-4o官宣免费:究极进化,年度最强AI语音助理完美复刻“贾维斯” 华军AI产品榜
2024-05-14
0
导读:OpenAI的新模型GPT-4o,以免费开放的姿态重新定义AI助理的潜能,实现前所未有的多模态交互和拟人化响应。

‍‍点击上方「蓝字」关注我们



公众号最近叕改版啦~
将本号设为⭐星标才能接收到我们的文章
以下文章节选自量子位,编辑 EVA
未来已来!
科幻故事背景设定下的未来世界,⏩快进到2024年到来!
当地时间5月13日,OpenAI深夜放出重磅旗舰大模型!
代号「GPT-4o」,截胡今晚开幕的谷歌I/O开发者大会。
并且官宣免费使用,支持横跨图文音视频多模态的听、看、说
颠覆一切行业AI助理形态,直接可以通过手机摄像头捕捉周遭环境,并给出自己的观点,输出的语音还带有逼真的人类情绪与语气,直接炸裂!
AI,「她」还能感受用户的呼吸节奏,也能用比以往都要丰富的语气实时回复,甚至可以像人类之间交谈那样,做到随时打断。

AI甚至还有了一些非常拟人的情绪状态,比如当GPT-4o识别了用户手写的「我爱ChatGPT」文字时,甚至会有娇羞的反应!


整个发布节奏极快,大约只进行了半小时,期间露出了很多苹果设备,看来OpenAI与苹果的密切合作即将上线。
GPT-4o的「O」到底是什么意思?
在发布会之前,网上众说纷纭,有人猜测是「GPT-4.5」,甚至还有人猜测是「GPT-4s」,这直接对标iPhone型号了。
但没想到,今天凌晨给我们的答案是:GPT-4o,Four Oh?
根据官方介绍,GPT-4o里的「O」是“Omni”的缩写,即是“全能”的意思。
因为GPT-4o可以接受文本、音频和图像的任意组合作为输入信息,并输出多模态的结果,因此可谓“全能战神”。
首次达到“拟人级”响应
在过去,几乎所有的AI系统给人们的感觉都是:你一句我一句,需要有人提示才能给出答复的“回合制游戏”。
GPT-4o可以在实现短至232ms、平均320ms的极限响应回复音频输出,这与我们人类在日常对话中的来往响应速度一致。
不知为何,ChatGPT Plus会员的「含金量」突然降低了好多!
👇🏻对比一下更新后的免费权益与付费权益:
世人皆笑醒,GPT4-o直接开放了ChatGPT的几乎所有基础功能,包括视觉、联网、记忆、执行代码、GPT Store等等…
这一切全部都是免费了,与此前外媒的爆料完全吻合。
免费会员与Plus会员的区别仅仅在于发起对话的次数。
OpenAI CTO穆拉蒂说:这等于将「GPT-4级」的大模型直接开放给用户了。
但事实上,她对产品的定义还是谦虚了。
因为👇🏻有开发者爆料,GPT-4o在公开的测评榜单对标其他大模型时,得分甚至超越了GPT-4 Turbo。
妥妥白嫖的神级大模型!
这样超强的模型仅仅只是免费体验吗?
那还不够,GPT-4o的API调用,直接打对折。减价还加量,响应速度还提升了一倍,单位时间内的调用API接口次数提升了5倍!
一部分网友指出,在GPT-4o的帮助下,将可以借助科技的力量让盲人重新获得认知世界的能力。
甚至不少网友已经开始幻想,单身狗是不是可以直接跟ChatGPT“谈恋爱”了??
多种实战应用场景真机演示
估计还有家人们,有印象去年底谷歌刚刚发布Gemini大模型的时候,那个宣传造假的宣传片,对话“丝滑流畅”宛如与贾维斯对话。
结果很快狠狠打脸,Gemini的宣传效果被曝光是依赖后期剪辑营造的虚假实时对话,而今天,OpenAI通过线上直播直接演示了。
比如,让ChatGPT为两个不同国家的人们充当翻译机,当听到英语就翻译成意大利语,听到意大利语就翻译成英语。
除了实际应用的场景演示外,有一个事情是许多网友想干的——
那就是让两个AI机器人互相对话,最后还唱起来了,戏剧感直接拉满。
两台手机安装了新旧两版的ChatGPT应用,用于对比效果。
首先,新版ChatGPT通过手机的摄像头,可以很清楚便是出OpenAI总裁Brockman的衣着打扮以及房间内的环境。
接下来便是两个AI之间唠嗑的时间,它俩从Brockman的衣着品味开始聊起,左边不断提出新问题,右边一一解答。
接着,它们又开始唠起了房间的装潢风格、布置和光线氛围,后边具备多模态能力的GPT-4o甚至还注意到Brockman正在以上帝视角注视着它俩。
为了突出更丰富的直播场景,OpenAI安排了一位女子出现在Brockman身后搞些小动作。
这是为了提高考核难题专门安排的小剧场。GPT-4o很快便准确描述女子正在男子身后恶搞小动作
这局“AI茶话会”临近尾声,AI甚至还唱起了歌。旋律悠扬,音色也与真人毫无二致。
端到端训练,一次训练到位的多模态模型
在发布会前夕,OpenAI CEO奥特曼发推文表示,新的大模型就像「Magic」“魔法”一般。
那么,让观众感到惊艳的“魔法大模型”是如何训练的呢?
很可惜,OpenAI已经不再对外公布技术论文,官网只放出了一段十分简短的技术路线说明。
「在GPT-4o之前,ChatGPT的语音模式是由三个独立模型组成的工作流,即:语音转文本→GPT3.5/GPT-4→文本转语音。」
这样的工作模式,最大的问题便是延迟极高。整个系统的延迟足足有2.8秒(GPT-3.5)和5.4秒(GPT-4),而且丢失了大量的其他信息,比如人声的音调、多名说话者及背景音,也无法输出笑声、唱歌声,或表达人类的情感。
而GPT-4o是一个跨越文本、视觉和音频,由“端到端”直接一步到位训练出来的新模型,这意味着所有输入和输出都由同一个神经网络处理。
根据官方的介绍,在语音翻译任务上,GPT-4o强于OpenAI自研的语音转换模型Whisper-V3以及谷歌、Meta等竞争对手的语音模型。
在视觉理解上,GPT-4o再次反超谷歌“超大杯”Gemini 1.0 Ultra与Claude 3 Opus。
最后,关于那个最具争议的问题——
问:是不是我多注册几个ChatGPT的账号,就可以跳开对话次数的限制。我也不需要订阅20美金的那个会员了?
那可不一定。诚然,以目前的免费门槛来看,20美金月费的性价比不突出了。
但下月便是苹果WWDC开发者大会,已经确定要合作的两家公司——OpenAI与苹果,还会玩出什么新花样,进而带动iPhone的销量增长,目前还有好戏可以等着看呢。

 


👇🏻推荐好文👇🏻


国产Sora视频模型诞生,一鸣惊人!



「Remini」五一爆红,AI滤镜玩法速看!



想及时接收【AI奇点网】最新文章❓
点击页底账号,再点右上角【…】添加星标⭐️
分享点赞在看 「三连」拜托拜托~👇🏻

👇🏻点一下「关注」

一起洞见智慧未来



【声明】内容源于网络
0
0
华军AI产品榜
华军软件园出品,每月发布国内AI产品排行数据丨发现最受欢迎的先进工具丨统计维度业内最多
内容 73
粉丝 0
华军AI产品榜 华军软件园出品,每月发布国内AI产品排行数据丨发现最受欢迎的先进工具丨统计维度业内最多
总阅读0
粉丝0
内容73