01
有话题的技术
2、阿里云启动「T 项目」,加速 AI 研发
3、通义千问:QwQ-32B 登顶全球最强开源模型
4、谷歌云重磅推出高清语音模型 Chirp 3,支持 248 种声音
02
有亮点的产品
1、Zoom 发布全平台 Agent,智能体大爆发
2、WarpTuber:快手 LivePortrait 驱动的即时 VTubing 工具
WarpTuber 是一个基于快手 LivePortrait 的即时 VTubing 工具。它允许用户通过摄像头,将自己的脸部表情和面部动作即时「套」到一张照片或角色图像上,从而创造出会动的虚拟形象。(@三花 AI )
03
有态度的观点
1、李飞飞:在 AI 前沿,要保持好奇心
04
Real-Time AI Demo 分享
1、一个实时双向传输二维码数据,实现 Agent 之间通讯的协议 demo
来自@Orion Reed:开发了一个巧妙的协议,可以通过 QR 码实现双向数据传输。它通过要求每个设备确认收到前一个数据块来确保数据传输的可靠性,从而优雅地处理中断。这个协议是为 WebRTC 信令等场景设计的,也是与 @chrisshank23 合作的 Folk Canvas 项目的一部分。
2、debdeb.io:一个 AI 语音辩论项目
你可以:
创建任何主题的辩论
选择你的立场,参与其中
构建你的论据
-
获得实时听众反馈 (兴奋还是冷场?)
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

