

OpenAI深夜炸场！GPT-4o重磅发布！实时视频互动堪比真人！

软积木

2024-05-14

导读：5月14日，OpenAI在其春季更新会上推出了旗舰模型GPT-4o，并进行了现场演示。

5月14日，OpenAI在其春季更新会上推出了旗舰模型GPT-4o，并进行了现场演示。

OpenAI 表示，从今天开始，GPT-4o 的文本和图像功能会在 ChatGPT 中推出，未来几周内，带有 GPT-4o 新版本语音模式也会在 ChatGPT Plus 中推出。

1►

什么是GPT-4o

GPT-4o 被OpenAI称为新一代旗舰机，其中GPT-4o中“o”代表“omni”，词意为“全能”，该模型在视觉和音频理解方面尤其出色。

视觉&音频：GPT-4o 可接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的任意组合。

响应速度：GPT-4o 最快可以在 232 毫秒内响应音频输入，平均响应速度为 320 毫秒，这与对话中的人类响应时间相似。

在 GPT-4o 之前，用户使用语音模式与 ChatGPT 交谈，GPT-3.5平均延迟为 2.8 秒，GPT-4 延迟 5.4 秒。

性能和价格：在英语文本和代码使用上，GPT-4o 与 GPT-4 Turbo 性能相匹配。在非英语语言的文本上，GPT-4o 在 API 中也更快且便宜 50%。

现在开发人员可以在 API 中将 GPT-4o 作为文本和视觉模型进行访问。

2►

模型功能

GPT-4o的核心功能聚焦于视觉与音频的深层次理解，如下方案例演示，它不仅能够精准地读取和解析图像信息，实现人机视频的流畅交互，还能捕捉人类的面部表情细节并推断背后的情绪。

在下方示例中，GPT-4o不仅能与用户就面试准备进行沟通提供建议，还能针对数学习题进行分析和解答，同时，GPT-4o还能够进行实时翻译等。

2个GPT-4o互动和唱歌

面试准备

实时翻译

数学教学分析

【视觉叙事】如下图，通过输入文字，GPT-4o将会输出故事版本的图片。

【海报设计】输入人物图像，用户可以对GPT-4o发出生成海报的指令和优化建议。

在生成海报后，还允许用户进行二次指令调整。

3►

模型评估结果

按照传统基准测试，GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉能力方面表现优异。

4►

GPT-4更新内容

此外，在直播开始时，OpenAI的首席技术官米拉·穆拉蒂（Mira Murati）特别揭晓了GPT-4本次的两大显著更新。

向所有用户免费开放：这一举措意味着，无论用户身处何地，都能体验到GPT-4。

用户界面更新：新的UI设计在交互体验上进行了深度优化，让用户的操作都更加自然、轻松。

‍END

ChatU可免费申请试用，支持企业私有部署，多引擎AIGC操作系统安全稳定，点击下方公众号一键试用！

【声明】内容源于网络

软积木

🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网：https://www.CubixAI.com 📮商务合作：BD@cubixai.com

内容 157

粉丝 0

软积木 🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网：https://www.CubixAI.com 📮商务合作：BD@cubixai.com

总阅读92

粉丝0

内容157