3/20/2025 AI速递 | OpenAI发布新音频模型，提升语音识别与合成精度



3/20/2025 AI速递 | OpenAI发布新音频模型，提升语音识别与合成精度

渗透智能

2025-03-21

导读：3/20/2025 AI速递 | OpenAI发布新音频模型，提升语音识别与合成精度

目录导航

01 OpenAI发布三款先进音频模型，引领语音技术新突破

02 开源GR00T N1：共创通用智能机器人新时代

03 OpenAI推出新音频模型API，提升语音识别与合成体验

04 o1-pro API正式上线，提供更多计算资源和增强功能

05 OpenAI发布全新音频模型：提升噪音和口音识别精度，定制语音合成

06 Claude AI 现已支持网络搜索功能

07 实时语音RAG代理：Gemma 3驱动的创新技术

08 微软开源无代码数据分析工具Data Formulator

09 Anthropic推出Claude网络搜索功能，面向美国用户

10 Google AI Studio升级：提高每分钟令牌和请求限制

NO.01

OpenAI发布三款先进音频模型，引领语音技术新突破

2025/03/20 20:19:08

在最新的博客文章中，OpenAI宣布推出三款先进的音频模型，这些模型在API中提供了新的功能和性能提升。

首先，两款新的语音转文字（Speech-to-Text）模型，其表现超越了现有的Whisper模型。这些模型能够更准确地将语音转换为文本，适用于电话会议、语音助手和实时字幕等场景。

其次，一款新的文字转语音（Text-to-Speech, TTS）模型可以接受详细的指令，使用户能够定制发音风格，如语速、音调和情感表达。这种灵活性使得TTS技术在虚拟助手、电子书阅读器和个性化语音合成应用中具有广泛的应用前景。

此外，Agents SDK现在支持音频处理，这使得开发者可以轻松构建基于语音的智能代理。通过集成这些新模型，开发者可以创建更具交互性和自然性的语音应用程序。

感兴趣的读者可以访问https://t.co/MbTOlNYyca体验新的TTS模型。

这些新模型不仅提升了语音处理技术的性能，还为开发者提供了更多创新的可能性。

NO.02

开源GR00T N1：共创通用智能机器人新时代

2025/03/20 17:01:49

近日，我们收到了大量社区对我们开源的GR00T N1项目的积极反馈！欢迎大家访问我们的GitHub页面，点赞、fork并贡献代码。让我们携手共进，一步步解决通用智能机器人的难题。

GR00T N1是全球首个面向人形机器人的开放基础模型，旨在推动物理人工智能的普及。该模型仅有20亿参数，却能够从最多样化的物理动作数据集中学习，并表现出卓越性能。

关键特性包括：

真实的人形遥控操作数据。
大规模模拟数据：我们开源了30多万条轨迹。
神经轨迹：利用最先进的视频生成模型“幻想”出新的合成数据，确保像素级的物理准确性。
潜在动作：开发新算法从野外人类视频和神经生成视频中提取动作标记。

GR00T N1是一个端到端的神经网络，从光子输入到动作输出：

视觉-语言模型（系统2）通过视觉和语言指令解释物理世界，使机器人能够推理环境并规划行动。
扩散变换器（系统1）以120 Hz的频率生成平滑精确的动作，执行系统2制定的隐性计划。

我们在GR1机器人、1X Neo机器人及多种仿真基准上部署N1，实现了在家庭和工业环境中多样性操作任务高达30%的性能提升。

尽管N1主要关注人形机器人，但其也支持跨身体形式的应用。我们对其进行了微调，使其能够在售价仅为110美元的HuggingFace LeRobot SO100机械臂上运行，真正实现了开放硬件上的开放大脑。

让我们一起攻克机器人技术，一步一步来。

NO.03

OpenAI推出新音频模型API，提升语音识别与合成体验

2025/03/20 20:20:19

OpenAI今天发布了一批新的功能，其中包括三个音频模型API，这些新功能在实际应用中非常实用。

这次发布的API主要分为两类：**语音识别模型（Speech-to-text）**和**文字转语音模型（Text-to-speech）**。具体包括：

gpt-4o-transcribe（精准版）
gpt-4o-mini-transcribe（轻量版）
gpt-4o-mini-tts（支持自定义声音风格）

这些新模型相较于之前的Whisper模型，在准确率上有显著提升，特别是在有噪音、口音明显或语速变化快的环境下。

价格方面，mini版本显然更便宜，适合日常小规模使用；而gpt-4o-transcribe则更适合需要更高精准度的专业场景，如客服中心、会议记录等。

新亮点如下：

**语音转文字更精准**：新版gpt-4o-transcribe针对之前存在的“听错”、“漏听”等问题进行了优化，尤其擅长处理带口音的英语或其他语言、背景噪音较大的场景以及讲话速度较快的内容。
**TTS模型支持“声音风格指令”**：传统的TTS模型虽然可以合成自然的声音，但声音风格比较固定。而gpt-4o-mini-tts首次支持用户通过简单的指令来控制声音表现，例如“像一个有同理心的客服人员说话”、“用兴奋的语气讲述故事”等，这对开发创意内容、音频书籍、游戏配音等都是极大的提升。
**Agents SDK支持音频**：OpenAI的Agents SDK已经可以直接支持音频，开发者可以更轻松地搭建一个能“听”和“说”的智能语音助手。

此外，OpenAI还提供了一个在线Demo网站，用户可以直观体验TTS效果。官方还举办了一个创意音频分享比赛，获奖者还能获得Teenage Engineering OB-4收音机。

总体来看，这些看似细小的改进在日常应用中带来了明显的体验提升。开发者可以更容易地创造出个性化、定制化的音频内容，普通用户也能更舒适地使用语音转文字功能。

期待未来更多有趣的应用出现，也许不久后我们日常用到的客服、导航、甚至聊天，都可能因为这些改进而变得更智能、更人性化。

NO.04

o1-pro API正式上线，提供更多计算资源和增强功能

2025/03/19 22:21:49

OpenAI最近宣布其最新的o1-pro模型现已通过API向开发者开放。

该模型使用了更多的计算资源，以提供更一致且高质量的响应。目前，o1-pro仅对第1至第5层级的部分开发者开放。支持视觉处理、函数调用、结构化输出，并与Responses和Batch APIs兼容。

主要特点包括：

更高的计算能力：相比之前的o1模型，o1-pro提供了更多计算资源。
广泛的适用性：支持视觉处理、函数调用和结构化输出等功能。
与现有API集成：兼容现有的Responses和Batch APIs。

然而，更强的性能也意味着更高的成本：$150每百万输入令牌和$600每百万输出令牌。这使得o1-pro更适合那些需要高性能和高灵活性的企业级应用。

对于希望利用先进AI技术提升产品和服务质量的开发者来说，o1-pro无疑是一个值得关注的选择。

NO.05

OpenAI发布全新音频模型：提升噪音和口音识别精度，定制语音合成

2025/03/20 17:41:34

OpenAI在其API中发布了新的音频模型，包括改进了对噪音环境和口音识别能力的语音转文字模型（gpt-4o-transcribe 和 gpt-4o-mini-transcribe），以及一个新的文本转语音模型（gpt-4o-mini-tts）。该文本转语音模型允许开发者精确指定声音的表现方式。

此次发布的音频模型在多个应用场景中具有显著优势。例如，在客服中心、会议记录或视频字幕生成等场景中，更准确的语音转文字功能可以极大地提高工作效率和用户体验。同时，可定制的文本转语音功能也为内容创作者提供了更多创造性的选择。

定价如下：

gpt-4o-mini-tts：每百万个token $0.60（文本输入），$12.00（音频输出）
gpt-4o-transcribe：每百万个token $2.50（文本输入），$10.00（文本输出），$6.00（音频输入）
gpt-4o-mini-transcribe：每百万个token $1.25（文本输入），$5.00（文本输出），$3.00（音频输入）

这些新模型不仅提升了准确性，还通过灵活的定价策略为不同规模的企业和个人用户提供了更多的选择。

NO.06

Claude AI 现已支持网络搜索功能

2025/03/20 16:53:37

人工智能助手 Claude 现在终于能够访问互联网进行搜索了。此前，Claude 的功能主要依赖于其预训练的知识库，而现在，通过集成的网络搜索功能，用户可以获取到最新、最准确的信息。

这种新的搜索能力不仅提高了 Claude 的实用性和交互性，也使其能够更好地应对实时信息需求。例如，在回答涉及当前事件或最新科技动态的问题时，Claude 能够提供更为全面和及时的答案。

应用场景

新闻资讯查询：用户可以询问 Claude 最新的新闻报道或特定事件的发展。
技术问题解答：开发人员可以利用 Claude 获取最新的编程文档和技术解决方案。
市场趋势分析：商界人士可以通过 Claude 了解最新的市场动态和行业报告。

随着这项新功能的推出，Claude 在自然语言处理领域的竞争力将进一步提升。

NO.07

实时语音RAG代理：Gemma 3驱动的创新技术

2025/03/20 07:43:01

近日，开发者Akshay Pachaar推出了一项由Gemma 3技术支持的实时语音RAG（Retrieval-Augmented Generation）代理。这项创新技术允许用户以自己喜欢的声音与文档进行交互，并能在短短5秒内克隆用户的语音。

该代理的核心优势在于：

通过自然对话的方式查询和理解文档内容
支持高度个性化的语音定制，提升用户体验

此项目源代码已开源，旨在鼓励更多开发者参与到这一前沿领域的探索中来。对于希望构建类似应用的人来说，Akshay还提供了一份详细的分步指南（https://t.co/SmImJgvupr），涵盖了从环境设置到模型训练的整个过程。

随着人工智能技术的进步，此类工具不仅能够极大地提高工作效率，还能为视力障碍者或需要手眼协调操作不便的人群带来便利。

NO.08

微软开源无代码数据分析工具Data Formulator

2025/03/20 12:38:53

微软近日宣布开源了一款名为Data Formulator的无代码数据分析工具。这款工具利用了大型语言模型（LLM）的强大功能，使用户能够轻松地对数据进行转换，并通过人工智能生成令人惊叹的数据可视化效果。

Data Formulator的优势在于其易用性和强大的数据处理能力，即使是不具备编程背景的用户也能够快速上手，实现高效的数据分析和展示。此外，该工具还完全开源，意味着开发者可以自由地查看、修改和贡献代码，从而进一步提升工具的功能和性能。

无需编程基础，操作简单直观
利用AI技术自动生成高质量的可视化图表
社区支持强大，可扩展性强

随着大数据时代的到来，越来越多的企业和个人需要高效的数据分析工具来支持决策制定。微软此次开源Data Formulator，不仅为用户提供了便捷的工具，也为整个开源社区注入了新的活力。

NO.09

Anthropic推出Claude网络搜索功能，面向美国用户

2025/03/20 16:57:50

近日，人工智能公司Anthropic宣布推出其最新的人工智能助手Claude的网络搜索功能，该功能目前已在美国地区上线。这一更新使得Claude能够更好地为用户提供实时、准确的信息检索服务。

Anthropic表示，他们正在逐步向使用免费计划的用户开放这一功能，并计划在未来将网络搜索能力扩展到更多国家和地区。

主要特点：

支持实时信息检索
提高用户查询准确性
优化用户体验

此次更新是Anthropic在提升Claude功能方面的重要一步，旨在使其成为更全面、更强大的个人助手。

Anthropic还提到，他们将持续改进和扩展Claude的功能，以满足不同用户的需求。

NO.10

Google AI Studio升级：提高每分钟令牌和请求限制

2025/03/20 13:00:00

今天，Google AI Studio宣布推出更高的速率限制，为开发者提供更多灵活性。使用Gemini 2.0 Flash的用户现在可以通过升级到第二级，享受高达1000万令牌/分钟（TPM）和10,000请求/分钟（RPM）的更高限额。

为了获得这些增强的性能，用户需要成功支付250美元。此外，如果开发者有更高需求，还可以申请进一步提升限额。

主要亮点：

新的费率限制：10M TPM 和 10K RPM
升级费用：250美元
更高的限额可通过申请获得

此次调整将显著提升开发者的生产力，特别是在处理大规模数据集或高并发请求的应用场景中。

更多详情及申请流程，请访问：https://t.co/hjT214zVu9

【声明】内容源于网络

渗透智能

渗透智能 - ShirtAI ：一款全方位AI产品，集成问答+绘画+导图等功能! 支持联网功能、支持上下文对话、支持模糊匹配自定义回复消息、支持注册配置自定义赠送额度、支持生成专属邀请码邀请用户双方共同获得额度！

内容 58

粉丝 0

渗透智能渗透智能 - ShirtAI ：一款全方位AI产品，集成问答+绘画+导图等功能! 支持联网功能、支持上下文对话、支持模糊匹配自定义回复消息、支持注册配置自定义赠送额度、支持生成专属邀请码邀请用户双方共同获得额度！

总阅读21

粉丝0

内容58