01
有话题的新闻
1、Freestyler: 伴奏同步的说唱合成模型
歌唱是人类文化不可或缺的一部分,体现着人类的创造力。说唱(Rap)是歌唱各类流派中最具特色的一种。从本质上讲,说唱的核心特点在于其强烈的节奏和风格,这使其与其他流派有着明显的区别。说唱歌手通常会快速且有力地唱出歌词段落,与伴奏节拍紧密同步,营造出一种充满活力且动感十足的听觉体验。如何生成自然的说唱是一个极具价值的研究方向。
2、Google 发布了「虚拟现实」版 Android,想让你把熟悉的应用「戴在头上」
谷歌日前正式发布了用于头显和眼镜设备的操作系统 Android XR。这家公司将其定位为一个全面的空间计算平台,并希望在 XR 领域与 Meta 和苹果展开竞争。
人工智能驱动的手形网格,从而适应不同手形和大小
详细的深度纹理,允许真实世界的对象遮挡虚拟内容
复杂的光估计,以匹配现实世界的照明条件
-
新的可追踪设备,可允许你把现实世界的物品,如笔记本电脑、手机、键盘和鼠标带入虚拟环境
值得一提的是,谷歌将在 2025 年举办一个 Android XR 开发者训练营,感兴趣的开发者可以访问页面进行申请。(@映维网)
3、Voice Agent 框架 TEN 已经支持 Gemini Multimodal Live API
https://github.com/TEN-framework/TEN-Agent
02
有亮点的产品
1、ChatGPT 推出视频通话和屏幕共享功能
「OpenAI 12 天」活动已进入第六天,OpenAI 公司宣布为 ChatGPT 的高级语音模式带来视频输入和屏幕共享功能,并为迎接圣诞节,限时推出全新的圣诞老人模式。
在手机上打开 ChatGPT 应用
点击聊天栏附近的语音图标
点击左下角的视频图标即可启用视频输入
-
或者点击三个点的菜单,选择「共享屏幕」进行屏幕共享(@IT 之家)
2、Midjourney 推出多人协作的世界构建工具 「Patchwork」 支持 100 人同一画布操作
Midjourney 是一家备受欢迎的 AI 图像生成初创公司,拥有超过 2100 万名 Discord 用户。近日,该公司宣布将推出一款新的世界构建工具 「Patchwork」,标志着他们从图像创作扩展到更复杂的创意合作领域。
3、AI 语音智能体平台 Vapi 完成 2000 万美元 A 轮融资,BVP 和 YC 等投资,估值达 1.3 亿美元
AI 语音智能体初创公司 Vapi(前身为 Superpowered Labs)今日宣布完成 2000 万美元 A 轮融资,由 Bessemer Venture Partners 领投,Abstract Ventures、AI Grant、Y Combinator、Saga Ventures 和 Michael Ovitz 参投。据知情人士透露,本轮融资后公司估值达 1.3 亿美元。
4、Cartesia 融资 2700 万美元,用于构建下一代实时 AI 模型
Cartesia 公司今天宣布获得由 Index Ventures 领投的 2200 万美元新融资,其开创性的状态空间模型(SSM)正在引领生成式人工智能的下一波创新浪潮,总融资额达到 2700 万美元。这笔新资金将使 Cartesia 能够扩展并加速其在任何设备上构建实时、多模态智能的使命。
Cartesia 的创始团队由一群杰出的斯坦福大学研究人员组成,其中包括 Goel、他的前实验室同事 Albert Gu(被《时代》杂志评选为人工智能领域 100 位最具影响力人物之一)、Arjun Desai 和 Brandon Yang,以及他们的前教授 Chris Ré。该团队因其开发的 SSM 而享誉全球,位于一个充满才华的博士和学术合作伙伴的丰富生态系统中心,特别是 Ré 的斯坦福实验室近年来一直是多个数十亿美元创业公司的温床,如 SambaNova、Snorkel AI 和 Together AI。他们还汇聚了一支多元化且经验丰富的产品团队,成员来自 DoorDash、Salesforce、Meta、Scale AI、Microsoft、Google Brain 和 Zoom 等知名公司,确保 Cartesia 能为各行业的企业带来实实在在的价值。
Cartesia 的 SSM 架构在性能上明显优于传统的 Transformer 模型,因为它能够与序列长度线性扩展,实现高效、低成本的推理。尽管 Transformer 模型彻底改变了人工智能的格局,并支持了我们今天所见的众多应用,但它们在上下文长度上的二次方扩展限制了推理速度。相较之下,Cartesia 的模型高效且具备更好的长期记忆和更低的延迟,同时能够在任何设备上本地运行。与 Transformer 需要关注每一个过去的标记不同,SSM 在标记流入时会动态更新模型状态并丢弃之前的标记,这使其成为实时推理的理想选择。Cartesia 创始团队广为引用的 Mamba 架构证明,SSM 已能以更少的资源匹配 Transformer 的性能,为开发人员提供了一种更高效、经济的实时人工智能应用开发方案。
2024 年 5 月,Cartesia 发布了 Sonic,这是一款低延迟语音模型,能够生成富有表现力、逼真的语音,展示了其 SSM 架构在实时 AI 应用中的强大功能。除了是速度最快的文本转语音模型(首个音频延迟<90 毫秒)之外,在第三方评估机构(如 Labelbox)进行的盲测中,Sonic 在语音质量、稳定性和准确性方面均优于市场上现有的最佳模型。
Cartesia 计划在其 Sonic 成功的基础上,制定一项长期路线图,其中包括开发能够摄取和处理不同输入(例如文本、音频、视频、图像和时间序列数据)的多模态 AI 模型,目标是创建能够在广泛应用中跨越海量上下文进行推理的实时智能。通过构建具有长期记忆和低延迟的下一代基础模型,Cartesia 旨在改变从医疗保健到机器人技术再到游戏的各个行业,为任何人在任何设备上都能使用的无处不在的、交互式的和实时的 AI 铺平道路。(@PRWEB)
03
有态度的观点
1、Discord 创始人:AI 会大大降低创作出好内容的成本
近期,Discord 创始人&CEO Jason Citron ,接受了著名播客 20VC 的访谈。
在访谈中,Jason Citron 表示,Discord 的故事说明了「打造好产品,用户就会来」并不总是奏效。而 Discord 用户增长的突破点在于,邀请人们对应用提出反馈,而不是像在推销产品一样让他们尝试。
当时,Discord 的工作人员在 Reddit 的一篇贴子里,发了一个 Discord 服务器的链接。用户在看到帖子后,点进了 Discord ,然后和工作人员交流,适用产品。Jason Citron 说,「那天我们通过这个帖子获得了 50 个用户,第二天,这 50 个用户变成了 100 个,然后开始滚雪球式增长。」
当被问到「AI 如何改变游戏创意」时,Jason Citron 表示,「我认为 AI 会大大降低创作出好内容的成本」。
他认为,以后像《艾尔登法环》这样的游戏,可能只需要 20 人,而不是 300 人来完成。AI 还会使得一些个人开发者或独立创作者能够制作出今天他们无法做到的游戏,因为现在他们会面临制作周期太长和技术限制的问题。总之,「以后我们会看到更多更小型、更高质量的游戏。」(@APPSO)
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
更多 Voice Agent 学习笔记:
写在最后:


