01
有话题的技术
1、OpenAI 推出全新一代音频模型
访问 openai.fm 体验最新的音频功能
gpt-4o-transcribe(语音转文本):单词错误率(WER)显著降低,在多个基准测试中优于现有 Whisper 模型。采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性,并更适用于处理口音多样、环境嘈杂、语速变化等挑战场景;
gpt-4o-mini-transcribe(语音转文本):gpt-4o-transcribe 的精简版本,基于 GPT-4o-mini 架构,通过知识蒸馏技术从大模型转移能力,速度更快、效率更高,适合资源有限但仍需高质量语音识别的应用场景;
-
gpt-4o-mini-tts(文本转语音):首次支持「可引导性」(steerability),开发者不仅能指定「说什么」,还能控制「如何说」。具体而言,开发者可以预设多种语音风格,并能根据指令调整语音风格。
2、阶跃星辰 Step-Video-TI2V 图生视频模型开源,运动可控,动漫效果尤佳
今年 2 月,阶跃星辰开源了两款 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,为开源社区贡献了自己的多模态力量。
运动幅度可控:动态 & 稳定自由切换,Step-Video-TI2V 支持控制视频的「运动幅度(motion)」,平衡图生视频内容的运动性和稳定性。无论是静态稳定画面,还是高动态动作场景,都能满足创作者需求。
多种运镜控制:除了对镜头内主体运动的控制, Step-Video-TI2V 支持对多种运镜的理解,可以对生成视频中的镜头运动进行精准控制,生成大片级运镜效果。从基本的推拉摇移、升降,到各种复杂的电影级运镜效果都能驾驭。
动漫效果尤佳:Step-Video-TI2V 在动漫类任务上的效果尤其优异,非常贴合动画创作、短视频制作等应用场景。
-
支持多尺寸生成:Step-Video-TI2V 支持多种尺寸图生视频,无论是横屏的宽阔视野,竖屏的沉浸体验,还是方屏的经典复古,都能轻松驾驭。(阶跃星辰)
3、NVIDIA 开源 Canary 1B 和 180M Flash 模型:支持多语言语音识别和翻译的模型
亮点:
能够实现超过 1000 RTF 的惊人速度;
提供 880M 和 180M 两种尺寸——非常适合设备端使用;
支持单词级和片段级时间戳;
流利掌握英语、德语、法语和西班牙语;
性能稳健,幻觉现象更少;
采用 CC-BY 许可——允许商业用途。(@ Vaibhav (VB) Srivastav)
02
有亮点的产品
1、 声网开源对话式 AI 开发套件,为开发者提供「对话式 AI + 智能硬件开发」一站式解决方案
2、百度地图推出智能眼镜解决方案:提供 AR 导航,接入 DeepSeek
3、猫王妙播:行业首发 AI 智慧音响,携手音响行业进入 AI 时代
03
有态度的观点
1、黄仁勋:英伟达是世界唯一的 AI 公司
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
写在最后:


