开发者朋友们大家好:
01
有话题的技术
1、声网上线对话式 AI 引擎 Beta 版,15 分钟让 DeepSeek 开口说话
近期,DeepSeek 旋风席卷全球,其独有的深度思考+联网模式让用户纷纷惊叹好用,如果你想脱离与 AI 的文字互动,与 DeepSeek 进行更具真实感的语音对话,声网的对话式 AI 引擎让你 15 分钟内就能做到。
AI 语音秒回:AI 秒回你的提问,语音对话延迟低至 650ms
对话人声锁定: 屏蔽 95%环境人声、噪声干扰,精准识别对话人声
智能打断: 模拟真人对话节奏,随时打断与 AI 的对话,响应低至 340ms
全模型适配:实现 DeepSeek、ChatGPT 等全模型适配,更有音视频 SDK 支持 30000+终端机型适配,解决多设备兼容性的后顾之忧
-
不惧弱网:地铁、地下车库等弱网环境下,人与 AI 也能流畅对话
声网对话式 AI 引擎官网也已同步上线,开发者在了解产品功能的同时,也可通过官网申请体验最新的 Demo 应用。(@声网)
2、OpenAI 前 CTO 官宣新公司,挖来大批 ChatGPT 核心骨干,北大校友加盟
北京时间今天凌晨,OpenAI 前 CTO Mira Murati 宣布,创立名为 thinkingmachines 的 AI 公司。
帮助人们调整人工智能系统以适应其的特定需求
打造强大的基础模型,用以构建更强大的 AI 系统
-
培养开放科学的氛围,帮助整个领域理解和改进这些系统(@APPSO)
3、Deepgram 推出 Nova-3,为 AI 驱动的 STT 树立新标准
企业用例语音 AI 平台 Deepgram 近期发布了全新的语音转文本(STT) 模型 Nova-3。
恶劣的声学条件——在远距离、嘈杂和多说话人场景中准确转录语音,使其成为空中交通管制、免下车服务以及呼叫中心的理想选择。
实时多语言支持——支持跨多种语言的实时转录(同类模型中首创),适用于应急响应、全球客户服务和多语言业务等场景。
行业特定的准确性——识别医学和法律转录等专业领域的特定术语。
-
精确数据处理——确保零售、银行和金融领域的准确数字识别,同时支持实时编辑敏感信息以确保合规性和数据隐私。
此外,Nova-3 是业界首个支持自助定制的语音 AI 模型,用户无需具备深厚的机器学习专业知识即可针对特定领域对模型进行微调。
02
有亮点的产品
1、Supertone Play:AI 语音工具赋能内容创作,多语种支持与安全保障
近日,韩国娱乐公司 HYBE 旗下人工智能语音公司 Supertone 正式发布了一款名为「Supertone Play」的创新文本转语音工具,旨在为内容创作者提供高质量、富有表现力的音频解决方案。
2、Hume AI 宣布即将推出新 AI 语音产品
3、NotebookLM 前核心成员推出新产品 Huxe,帮助产品经理高效决策
透明的推理过程: 能够清晰展示系统得出结论的步骤,例如 Salesforce SOQL 查询和 Zendesk 自定义过滤器。
智能代理流程: 通过多步骤的智能代理流程,确定数据来源,执行查询,精炼结果,整合不同来源的数据,并根据用户反馈进行优化。
-
自动化报告: 自动生成用户需要跟踪的报告,例如每日 Discord 社区反馈报告。(@Raiza Martin@X、tuturetom@X)
4、「9 块 9」 的中国 AI 耳机,疯狂收割老外
AI 翻译耳机在 TikTok 上的热销引发了全球消费者的关注,特别是在美国和中东等移民聚集地区,需求迅速暴涨。通过将 AI 翻译和助手功能集成到耳机中,这些耳机不仅具备同声传译和音视频通话翻译功能,还可以进行降噪处理,提升用户体验。
03
有态度的观点
1、a16z 创始人:新公司远比现有企业更快实现 AI Agent 的完全替代
a16z 创始人 Peter Diamandis 在近日表示,现有企业远不如新公司能够迅速实现 AI Agent 的完全替代。新的 AI 公司可以围绕 AI 进行组织架构设计,从而更高效地推动技术的落地。他还指出,拜登政府与科技行业之间的对立加剧,科技并购几乎被冻结,影响了行业的发展。
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
更多 Voice Agent 学习笔记:
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
写在最后:

