
在最新的博客文章中,OpenAI宣布推出三款先进的音频模型,这些模型在API中提供了新的功能和性能提升。
首先,两款新的语音转文字(Speech-to-Text)模型,其表现超越了现有的Whisper模型。这些模型能够更准确地将语音转换为文本,适用于电话会议、语音助手和实时字幕等场景。
其次,一款新的文字转语音(Text-to-Speech, TTS)模型可以接受详细的指令,使用户能够定制发音风格,如语速、音调和情感表达。这种灵活性使得TTS技术在虚拟助手、电子书阅读器和个性化语音合成应用中具有广泛的应用前景。
此外,Agents SDK现在支持音频处理,这使得开发者可以轻松构建基于语音的智能代理。通过集成这些新模型,开发者可以创建更具交互性和自然性的语音应用程序。
感兴趣的读者可以访问https://t.co/MbTOlNYyca体验新的TTS模型。
这些新模型不仅提升了语音处理技术的性能,还为开发者提供了更多创新的可能性。

近日,我们收到了大量社区对我们开源的GR00T N1项目的积极反馈!欢迎大家访问我们的GitHub页面,点赞、fork并贡献代码。让我们携手共进,一步步解决通用智能机器人的难题。

GR00T N1是全球首个面向人形机器人的开放基础模型,旨在推动物理人工智能的普及。该模型仅有20亿参数,却能够从最多样化的物理动作数据集中学习,并表现出卓越性能。
关键特性包括:
- 真实的人形遥控操作数据。
- 大规模模拟数据:我们开源了30多万条轨迹。
- 神经轨迹:利用最先进的视频生成模型“幻想”出新的合成数据,确保像素级的物理准确性。
- 潜在动作:开发新算法从野外人类视频和神经生成视频中提取动作标记。
- 视觉-语言模型(系统2)通过视觉和语言指令解释物理世界,使机器人能够推理环境并规划行动。
- 扩散变换器(系统1)以120 Hz的频率生成平滑精确的动作,执行系统2制定的隐性计划。
尽管N1主要关注人形机器人,但其也支持跨身体形式的应用。我们对其进行了微调,使其能够在售价仅为110美元的HuggingFace LeRobot SO100机械臂上运行,真正实现了开放硬件上的开放大脑。
让我们一起攻克机器人技术,一步一步来。

OpenAI今天发布了一批新的功能,其中包括三个音频模型API,这些新功能在实际应用中非常实用。
这次发布的API主要分为两类:**语音识别模型(Speech-to-text)**和**文字转语音模型(Text-to-speech)**。具体包括:
- gpt-4o-transcribe(精准版)
- gpt-4o-mini-transcribe(轻量版)
- gpt-4o-mini-tts(支持自定义声音风格)
价格方面,mini版本显然更便宜,适合日常小规模使用;而gpt-4o-transcribe则更适合需要更高精准度的专业场景,如客服中心、会议记录等。
新亮点如下:
- **语音转文字更精准**:新版gpt-4o-transcribe针对之前存在的“听错”、“漏听”等问题进行了优化,尤其擅长处理带口音的英语或其他语言、背景噪音较大的场景以及讲话速度较快的内容。
- **TTS模型支持“声音风格指令”**:传统的TTS模型虽然可以合成自然的声音,但声音风格比较固定。而gpt-4o-mini-tts首次支持用户通过简单的指令来控制声音表现,例如“像一个有同理心的客服人员说话”、“用兴奋的语气讲述故事”等,这对开发创意内容、音频书籍、游戏配音等都是极大的提升。
- **Agents SDK支持音频**:OpenAI的Agents SDK已经可以直接支持音频,开发者可以更轻松地搭建一个能“听”和“说”的智能语音助手。
总体来看,这些看似细小的改进在日常应用中带来了明显的体验提升。开发者可以更容易地创造出个性化、定制化的音频内容,普通用户也能更舒适地使用语音转文字功能。
期待未来更多有趣的应用出现,也许不久后我们日常用到的客服、导航、甚至聊天,都可能因为这些改进而变得更智能、更人性化。

OpenAI最近宣布其最新的o1-pro模型现已通过API向开发者开放。
该模型使用了更多的计算资源,以提供更一致且高质量的响应。目前,o1-pro仅对第1至第5层级的部分开发者开放。支持视觉处理、函数调用、结构化输出,并与Responses和Batch APIs兼容。
主要特点包括:
- 更高的计算能力:相比之前的o1模型,o1-pro提供了更多计算资源。
- 广泛的适用性:支持视觉处理、函数调用和结构化输出等功能。
- 与现有API集成:兼容现有的Responses和Batch APIs。
对于希望利用先进AI技术提升产品和服务质量的开发者来说,o1-pro无疑是一个值得关注的选择。

OpenAI在其API中发布了新的音频模型,包括改进了对噪音环境和口音识别能力的语音转文字模型(gpt-4o-transcribe 和 gpt-4o-mini-transcribe),以及一个新的文本转语音模型(gpt-4o-mini-tts)。该文本转语音模型允许开发者精确指定声音的表现方式。

此次发布的音频模型在多个应用场景中具有显著优势。例如,在客服中心、会议记录或视频字幕生成等场景中,更准确的语音转文字功能可以极大地提高工作效率和用户体验。同时,可定制的文本转语音功能也为内容创作者提供了更多创造性的选择。
定价如下:
- gpt-4o-mini-tts:每百万个token $0.60(文本输入),$12.00(音频输出)
- gpt-4o-transcribe:每百万个token $2.50(文本输入),$10.00(文本输出),$6.00(音频输入)
- gpt-4o-mini-transcribe:每百万个token $1.25(文本输入),$5.00(文本输出),$3.00(音频输入)
这些新模型不仅提升了准确性,还通过灵活的定价策略为不同规模的企业和个人用户提供了更多的选择。

人工智能助手 Claude 现在终于能够访问互联网进行搜索了。此前,Claude 的功能主要依赖于其预训练的知识库,而现在,通过集成的网络搜索功能,用户可以获取到最新、最准确的信息。
这种新的搜索能力不仅提高了 Claude 的实用性和交互性,也使其能够更好地应对实时信息需求。例如,在回答涉及当前事件或最新科技动态的问题时,Claude 能够提供更为全面和及时的答案。
应用场景
- 新闻资讯查询:用户可以询问 Claude 最新的新闻报道或特定事件的发展。
- 技术问题解答:开发人员可以利用 Claude 获取最新的编程文档和技术解决方案。
- 市场趋势分析:商界人士可以通过 Claude 了解最新的市场动态和行业报告。
随着这项新功能的推出,Claude 在自然语言处理领域的竞争力将进一步提升。

近日,开发者Akshay Pachaar推出了一项由Gemma 3技术支持的实时语音RAG(Retrieval-Augmented Generation)代理。这项创新技术允许用户以自己喜欢的声音与文档进行交互,并能在短短5秒内克隆用户的语音。
该代理的核心优势在于:
- 通过自然对话的方式查询和理解文档内容
- 支持高度个性化的语音定制,提升用户体验
随着人工智能技术的进步,此类工具不仅能够极大地提高工作效率,还能为视力障碍者或需要手眼协调操作不便的人群带来便利。

微软近日宣布开源了一款名为Data Formulator的无代码数据分析工具。这款工具利用了大型语言模型(LLM)的强大功能,使用户能够轻松地对数据进行转换,并通过人工智能生成令人惊叹的数据可视化效果。
Data Formulator的优势在于其易用性和强大的数据处理能力,即使是不具备编程背景的用户也能够快速上手,实现高效的数据分析和展示。此外,该工具还完全开源,意味着开发者可以自由地查看、修改和贡献代码,从而进一步提升工具的功能和性能。
- 无需编程基础,操作简单直观
- 利用AI技术自动生成高质量的可视化图表
- 社区支持强大,可扩展性强

近日,人工智能公司Anthropic宣布推出其最新的人工智能助手Claude的网络搜索功能,该功能目前已在美国地区上线。这一更新使得Claude能够更好地为用户提供实时、准确的信息检索服务。
Anthropic表示,他们正在逐步向使用免费计划的用户开放这一功能,并计划在未来将网络搜索能力扩展到更多国家和地区。
主要特点:
- 支持实时信息检索
- 提高用户查询准确性
- 优化用户体验
Anthropic还提到,他们将持续改进和扩展Claude的功能,以满足不同用户的需求。
今天,Google AI Studio宣布推出更高的速率限制,为开发者提供更多灵活性。使用Gemini 2.0 Flash的用户现在可以通过升级到第二级,享受高达1000万令牌/分钟(TPM)和10,000请求/分钟(RPM)的更高限额。
为了获得这些增强的性能,用户需要成功支付250美元。此外,如果开发者有更高需求,还可以申请进一步提升限额。
主要亮点:
- 新的费率限制:10M TPM 和 10K RPM
- 升级费用:250美元
- 更高的限额可通过申请获得
更多详情及申请流程,请访问:https://t.co/hjT214zVu9

