大数跨境
0
0

OpenAI深夜炸场!GPT-4o重磅发布!实时视频互动堪比真人!

OpenAI深夜炸场!GPT-4o重磅发布!实时视频互动堪比真人! 软积木
2024-05-14
2
导读:5月14日,OpenAI在其春季更新会上推出了旗舰模型GPT-4o,并进行了现场演示。
5月14日,OpenAI在其春季更新会上推出了旗舰模型GPT-4o,并行了现场演示。
OpenAI 表示,从今天开始,GPT-4o 的文本和图像功能会在 ChatGPT 中推出,未来几周内,带有 GPT-4o 新版本语音模式也会在 ChatGPT Plus 中推出。

1

什么是GPT-4o

GPT-4o 被OpenAI称为新一代旗舰机,其中GPT-4o中“o”代表“omni”,词意为“全能”,该模型在视觉和音频理解方面尤其出色。
视觉&音频:GPT-4o 可接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。
响应速度GPT-4o 最快可以在 232 毫秒内响应音频输入,平均响应速度为 320 毫秒,这与对话中的人类响应时间相似。
在 GPT-4o 之前,用户使用语音模式与 ChatGPT 交谈,GPT-3.5平均延迟为 2.8 秒,GPT-4 延迟 5.4 秒。
性能和价格:在英语文本和代码使用上,GPT-4o 与 GPT-4 Turbo 性能相匹配。在非英语语言的文本上,GPT-4o 在 API 中也更快且便宜 50%。
现在开发人员可以在 API 中将 GPT-4o 作为文本和视觉模型进行访问。

2

模型功能

GPT-4o的核心功能聚焦于视觉与音频的深层次理解,如下方案例演示,它不仅能够精准地读取和解析图像信息,实现人机视频的流畅交互,还能捕捉人类的面部表情细节并推断背后的情绪。
在下方示例中,GPT-4o不仅能与用户就面试准备进行沟通提供建议,还能针对数学习题进行分析和解答,同时,GPT-4o还能够进行实时翻译等。
2GPT-4o互动和唱歌
面试准备
实时翻译
数学教学分析
【视觉叙事】如下图,通过输入文字,GPT-4o将会输出故事版本的图片。
【海报设计】输入人物图像,用户可以对GPT-4o发出生成海报的指令和优化建议。
在生成海报后,还允许用户进行二次指令调整。

3

模型评估结果

按照传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉能力方面表现优异。

4

GPT-4更新内容

此外,在直播开始时,OpenAI的首席技术官米拉·穆拉蒂(Mira Murati)特别揭晓了GPT-4本次的两大显著更新。
向所有用户免费开放:这一举措意味着,无论用户身处何地,都能体验到GPT-4。
用户界面更新:新的UI设计在交互体验上进行了深度优化,让用户的操作都更加自然、轻松。

END

ChatU可免费申请试用,支持企业私有部署,多引擎AIGC操作系统安全稳定,点击下方公众号一键试用!

【声明】内容源于网络
0
0
软积木
🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网:https://www.CubixAI.com 📮商务合作:BD@cubixai.com
内容 157
粉丝 0
软积木 🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网:https://www.CubixAI.com 📮商务合作:BD@cubixai.com
总阅读92
粉丝0
内容157