日前,微软宣布推出用于音频和语音的 GPT-4o-Realtime-Preview 的公共预览版,这是对 Microsoft Azure OpenAI 服务的一项重大增强,它增加了高级语音功能并扩展了 GPT-4o 的多模式产品。这一里程碑进一步巩固了 Azure 在 AI 领域的领导地位,尤其是在语音技术领域。Azure 在这一领域的传统通过其语音服务长期建立,该服务历来在 Teams、Office 365 和 Edge 等核心 Microsoft 产品中集成了语音转文本、文本转语音、神经语音和实时翻译。

现在,GPT-4o-Realtime-Preview 通过将语言生成与无缝语音交互相结合,进一步突破了界限,为开发人员提供了打造更自然和对话式 AI 体验所需的工具。从创建虚拟助手到支持实时客户支持,这种新模型为语音驱动应用程序开辟了广泛的可能性。作为宣布的新 Copilot Voice 产品的一部分,新型号还与 Copilot 集成。
最新的 Azure OpenAI 服务公告
O1 系列:专为复杂数据高级推理而设计的全新模型系列。在 Azure AI Studio Playground 上进行为期两周的预览后,我们很高兴今天在 Azure 上向开发人员提供该 API。
数据区域:实现区域数据驻留以支持客户隐私和合规性。
扩展配置部署:为需要专用容量的客户将可用性扩展到全球 SKU。
微调的普遍可用性:允许 GPT-4o 和迷你模型针对专门的用例进行定制。
值得信赖的人工智能:新工具,包括 Azure AI Studio 中的评估以支持主动风险评估,以及在 DALL*E 生成的图像上加水印。
缓存提示(即将推出):通过 GPT-4o 和 o1 模型上的缓存进行更便宜、更快的推理。
这种持续的演进表明了 Azure 致力于为全球客户提供最全面、最安全、最通用的 AI 工具。
GPT-4o-Realtime-Preview有什么新功能?
GPT-4o-Realtime API:随着此版本的发布,GPT-4o 不断发展,支持音频输入和输出,实现超越传统基于文本的 AI 对话的实时、自然的语音交互。这种多模式功能使开发人员能够轻松构建创新的语音应用程序。
Azure AI Studio 早期访问游乐场:对于渴望探索的开发人员,这个专用空间允许对 GPT-4o-Realtime API 的音频功能进行早期试验。该工作室提供了一个环境来测试、微调和优化语音交互,然后再将其投入生产环境。
早期使用 GPT-4o-Realtime API for Audio 的客户分享了显著的成果,证实了其性能和影响:
响应更快:GPT-4o-Realtime API for Audio 提供的语音响应速度比许多传统的文本转语音引擎快得多,从而减少了延迟并实现了更流畅的交互。
自然对话:该模型最大限度地减少了人工智能生成的语音中经常出现的机器人语调,使对话听起来更具吸引力。
多语言支持:该API支持多种语言,允许进行自然的多语言对话,并可应用于面向全球的应用程序。
GPT-4o-Realtime-Preview 的多功能性已经改变了各个领域的运营。以下是一些早期采用者以及他们如何从这项技术中受益:
博世 (德国):集成 GPT-4o-Realtime API for Audio,用于汽车环境中的虚拟现实训练,让消费者和技术人员能够接收语音指导。
“AOAI 是我们 HeyBosch – 虚拟销售主管解决方案的理想界面,因为它是对话优先的解决方案。我们可以轻松地将 AOAI 集成到我们现有的解决方案中 – 感谢提供参考样本。虚拟代理的响应时间已大大改善,因为我们现在拥有一个结合两者(语音和 LLM)的单一界面。这有助于将延迟保持在最低限度。这种集成展示了结合 GenAI、3D 技术和实时语音处理功能创造引人注目的用户体验的可能性。”
— Vamsidhar Sunkari 博世全球软件技术私人有限公司高级专家
Lyrebird Health(澳大利亚):使用 GPT-4o-Realtime-Preview 作为医疗副驾驶,总结患者信息并实时自动执行后续任务。
“ Lyrebird Health 很高兴将音频功能引入医患关系。新的 GPT-4o 实时预览模型将使我们能够为客户和最终用户试验和推出新的体验。这将帮助我们实现提供全球最佳人力技术的使命。”
—Lyrebird Health 联合创始人兼首席执行官 Kai Van Lieshout
Azure AI Search:VoiceRAG 利用 Azure OpenAI 的 GPT-4o 实时音频模型和 Azure AI Search 创建具有检索增强生成 (RAG) 的高级语音生成 AI 应用程序。该系统集成了实时音频流和函数调用来执行知识库搜索,确保响应有理有据,而不会影响延迟。通过在后端安全地处理模型配置和检索过程,VoiceRAG 提供了一个自然的对话界面,其中包括在用户体验中无缝显示的引文。
Azure 始终坚定不移地致力于负责任的 AI,并将安全和隐私作为默认优先事项。Realtime API 采用多层安全措施,包括自动监控和人工审核,以防止滥用。
在微软致力于负责任的 AI 的指导下,Realtime API 经过了严格的评估。
Azure OpenAI 服务提供内置的内容安全功能(无需额外费用),Azure AI Studio 提供工具来评估 AI 应用程序的安全性,确保安全且负责任的 AI 体验。
随着微软不断创新和扩展 GPT-4o-Realtime API 的音频功能,微软很高兴看到开发人员和企业将如何利用这项尖端技术来创建语音驱动的应用程序,突破可能的界限。
无论您是想将语音功能集成到客户服务运营中,还是探索多语言交互的可能性,GPT-4o-Realtime API for Audio 都能提供灵活性和强大功能来转变您的 AI 解决方案。从今天开始,您可以在Azure OpenAI Studio中探索这些新功能,在 Early Access Playground 中试用它们,或者直接将公共预览版中的实时 API 集成到您的应用程序中。
为什么选择Azure OpenAI服务?
微软Azure OpenAI服务可以合规、稳定地提供企业用户使用ChatGPT模型。出于合规角度,国内企业可以选择微软的Azure OpenAI服务来使用接口,并具有以下优势:
效果一致:与OpenAI官方接口效果相同,无需担心性能差异。
国内IP调用:直接使用国内IP,连接更稳定,响应速度更快。
合规发票:符合国内法规,可直接开具专用发票。
灵活计费:按Token使用量计费,用多少付多少,成本可控。
技术支持:微软认证技术团队提供专业支持,解决技术难题。
企业优惠:现在咨询,可享受企业专属折扣。
深圳领驭科技有限公司,作为微软中国南区的核心合作伙伴及HK CSP资质持有者,已成为国内首批获得Azure OpenAI服务授权的服务商之一。我司正积极整合Azure OpenAI的强大功能,包括先进的自然语言处理、分析和推理能力,到其产品和行业解决方案中。
Azure OpenAI服务通过其大规模生成式AI模型,支持企业客户根据特定需求和场景,开发创新应用,涵盖辅助写作、代码编写、多媒体内容生成以及数据分析等多个领域,为互联网、游戏、金融、零售、医药等行业以及自动驾驶和智能制造等前沿技术领域带来深远影响。
联系我们
深圳领驭科技有限公司
电话:0755 8654 3872
电邮:marketing@leinwin.com
网址:ai.leinwin.com
地址:深圳市南山区粤海街道高新科技园中区科技中三路5号国人通信大厦A座 902

