01
有话题的技术
1、MoshiVis:具备图像理解能力的 AI 实时语音开源模型
图像理解:输入一张图像后,模型能以语音方式描述其内容、回答相关问题。
实时语音交互:支持全程语音输入输出,保持低延迟(<80ms)。
上下文理解:可在一般聊天和图像相关对话之间自由切换,记住上下文。
多语音风格:支持模仿不同语调,如海盗口音、耳语等,增加交互趣味性。
内在思维流(Inner Monologue):模拟模型「思考」的过程,用于训练更自然的语音生成。
-
多任务能力:可同时执行图像描述、视觉问答、OCR 等多种任务。(@ AIGitHub)
2、千问或将发布端到端多模态模型 Qwen2.5-Omni-7B
https://github.com/huggingface/transformers/pull/36752/commits/b4ff115375f02b59eb3e495c9dd3c1219e63ff50
02
有亮点的产品
1、米家智能音频眼镜 2 今日上架
昨日,小米智能生态宣布,米家智能眼镜系列产品将在今日迎来更新。而在 3 月 22 日,小米众筹曾短暂上架了「MIJIA 智能音频眼镜 2」,页面显示标准价格为 1,199 元,众筹价 999 元。据目前消息显示,MIJIA 智能音频眼镜 2 主打纤细镜腿:最细处为 5mm,表面采用 NCVM 纳米真空镀膜工艺;重量为 27.6g 起,提供 5 款框型可选,其中深空钛款采用一体成型设计;配备琴钢超弹铰链,支持第二代快拆技术。
2、宠物+AI 赛道:国产 AI 宠物摄像头出海,挑战海外市场巨头
3、谷歌 Gemini Live:开启 AI 实时视频问答新时代
谷歌今日宣布其 AI 助手 Gemini Live 即日起向高级订阅用户开放实时视觉问答功能
4、FeedbackStream:8 分钟创建 AI 面试智能体
8 分钟创建 AI 面试智能体:构建无限数量的智能体,以适应不同的场景或客户流程。用户只需提供希望智能体提出的问题,并设定访谈目标即可。
邀请客户:将访谈链接嵌入用户网站,或通过电子邮件或短信发送给客户。客户可以随时点击链接开始访谈。
-
审查访谈结果:访谈结束后,用户将收到回复通知,并可查看自动生成的摘要、建议以及完整的访谈记录。(@Product Hunt)
03
有态度的观点
1、李开复:中国大模型未来大概率只剩下三家
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
写在最后:

