01
有话题的技术
1、Google Gemini 2.0 Flash 引入原生图像生成功能
昨日,Google 发文宣布,Google Gemini 2.0 Flash 正式引入原生图像生成功能。据官方介绍,Gemini 2.0 Flash 结合多模态输入、增强版推理以及自然语言理解来进行图像生成。Gemini 2.0 Flash 支持文字理解并生成图像,并能够理解上下文保持角色和图像场景的一致性;同时 Gemini 2.0 Flash 还支持自然语言对话的理解,以及利用现实世界的内容和增强版推理来生成图像,Google 官方指出,这对绘制食谱等精准类的内容将会有很大帮助。
2、Sesame Labs 发布了 CSM(对话语音模型)采用 Apache 2.0 许可协议
3、Google 推出新 AI 模型,Gemini Robotics 可实现多硬件机器人语音操控
Google DeepMind,谷歌的人工智能研究实验室,于 3 月 12 日宣布推出名为 Gemini Robotics 的新 AI 模型,旨在使现实世界的机器能够与物体互动、导航环境等。
4、字节音效生成模型来了,一键生成大片感音效!已上线即梦
字节跳动豆包大模型语音团队最新提出的 SeedFoley 模型,通过端到端架构实现了视频音效的智能生成,将 AI 视频创作带入「有声时代」。相关功能「AI 音效」已在即梦上线,用户使用即梦生成视频后,选择「AI 音效」功能,即可生成 3 个专业级音效方案。
5、阿里通义实验室语音团队负责人鄢志杰离职,系达摩院十三位「扫地僧」成员
02
有亮点的产品
1、苹果计划在 AirPods 上配备实时对话翻译功能
2、MiniMax 计划收购 AI 视频初创公司鹿影科技
智东西 3 月 13 日消息,据蓝鲸新闻今日报道,多位知情人士称,上海大模型独角兽 MiniMax 将收购深圳 AI 视频生成创企鹿影科技(Avolution.ai),双方目前已经敲定收购意向,相关流程还在持续进行。2024 年,鹿影科技在天使轮融资时的估值水平约在 1 亿人民币左右。
03
有态度的观点
1、Anthropic CEO:未来各领域都能有诺贝尔奖得主一样聪明的模型
近日,Anthropic CEO 兼联合创始人 Dario Amodei 在 The CEO Speaker series 论坛接受采访,深入探讨了 AI 未来方向、AI 对社会的影响,以及 AI 对未来的发展。采访中,Dario Amodei 透露出对于 AI 的发展抱有很大的憧憬。他通过这几年 AI 呈指数级增长分析,认为未来 AI 能够很自然地融入人类生活中。同时 Dario Amodei 预测,如果时间再向前推进两三年,甚至是四年,人类将拥有在各个领域都与诺贝尔奖获得者一样聪明的模型。「AI 是否会冲击就业」这一问题上,Dario Amodei 认为有好有坏:一方面,他认为比较优势仍然是一个强大的工具,并且总有 AI 无法替代人类的领域,也正因如此,AI 始终是帮助人类提升生产力的「好帮手」;另一方面,Dario Amodei 认为 AI 或将会令一部分人感到沮丧,甚至情绪陷入自身的怀疑。但 Dario Amodei 表示,人是可以多样性的,并且成就感会远比结果来得更加具有实在感。因此 Dario Amodei 也建议,人类在 AI 的帮助下,更应该建立一个有意义的世界,而在这个世界里人类也许可以在 AI 的帮助下,或者与 AI 合作,并创造出真正伟大的成就。(@APPSO)
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
写在最后:

