01
有话题的技术
1、腾讯混元推出多个全新开源 3D 生成模型
-
Turbo 系列模型,通过 FlashVDM 框架实现数十倍加速,将生成时间缩短至 30 秒内; -
多视图版本模型如 Hunyuan3D-2-MV,结合多视角输入提升细节捕捉能力; -
轻量级 mini 系列模型优化架构,支持在 4080 显卡和苹果 M1 Pro 芯片上运行,降低算力成本。
2、从刘德华到雷军,AI 合成音频猖獗?Amphion 一键识别
3、马斯克收购 Hotshot 剑指视频生成赛道,短期内 Grok Video 或加速面世
4、一句话建模的时代来了,元宇宙巨头 Roblox 发布 AI 生 3D 大模型
5、英伟达正式发布 Isaac GR00T(GR00T N1):全球首款开源且可定制的通用人形机器人基础模型
02
有亮点的产品
1、谷歌 Gemini 新功能:Canvas 和 Audio Overview
Google 近日为其基于人工智能的聊天机器人 Gemini 推出了一项名为 「Canvas」 的新功能,旨在提升用户的创作和协作体验。这一功能与 OpenAI 的 ChatGPT Canvas 和 Anthropic 的 Artifacts 中的同名工具类似,为 Gemini 用户提供了一个互动空间,方便他们创建、改进和分享写作与编程项目。
2、18 岁创始人用硬核技术打造现象级 AI 健康应用 Cal AI,8 个月狂揽 500 万下载
03
有态度的观点
1、阿里巴巴董事长:AI 真正价值在于如何实际应用
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

