阿里通义实验室语音团队负责人鄢志杰离职；苹果计划在 AirPods 上配备实时对话翻译功能丨日报

RTE开发者社区

2025-03-14

导读：本期关键词：Gemini 2.0 Flash、Vogent、AirPods

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq、@鲍勃

有话题的技术

1、Google Gemini 2.0 Flash 引入原生图像生成功能

昨日，Google 发文宣布，Google Gemini 2.0 Flash 正式引入原生图像生成功能。据官方介绍，Gemini 2.0 Flash 结合多模态输入、增强版推理以及自然语言理解来进行图像生成。Gemini 2.0 Flash 支持文字理解并生成图像，并能够理解上下文保持角色和图像场景的一致性；同时 Gemini 2.0 Flash 还支持自然语言对话的理解，以及利用现实世界的内容和增强版推理来生成图像，Google 官方指出，这对绘制食谱等精准类的内容将会有很大帮助。

值得关注的是，Gemini 2.0 Flash 能够对长文本进行精准绘制。从官方发布的样张显示，Gemini 2.0 Flash 能够准确生成出正确的文字内容，减少生成出扭曲的「抽象」字体。

但据网友实测，目前 Gemini 2.0 Flash 对于过长的提示词文本依然没有能力处理好。Gemini 团队的研究员 Kaushik Shivakumar 也现身回复上述情况称，未来团队将会改进，目前如果需要输入较长的提示词，建议先让模型以文本形式思考，从而更好地生成图像。目前，Google 已将上述功能提供给 Google AI Studio 的开发者，开发者可以通过 Gemini API 进行体验测试。(@APPSO)

2、Sesame Labs 发布了 CSM（对话语音模型）采用 Apache 2.0 许可协议

Sesame Labs 发布了 CSM（对话语音模型），采用 Apache 2.0 许可协议。该模型基于 100 万小时数据训练，具备情境感知和情感智能语音功能，支持语音克隆和水印技术，并能实现超快速、实时语音合成。模型架构基于 llama，并使用类似 Mimi 的解码器。权重文件已在 HF Model Hub 上提供。

Sesame 近日发布了超真实的 AI 语音产品的 demo，核心目标是创造一种数字伴侣，不仅仅是处理请求的工具，而是能够进行真实对话的伙伴。为此，Sesame 团队专注于几个关键的组成部分，包括情感智能、对话动态、上下文意识和一致的人格特征。(@Vaibhav (VB) Srivastav@X)

3、Google 推出新 AI 模型，Gemini Robotics 可实现多硬件机器人语音操控

（图片来源：Google）

Google DeepMind，谷歌的人工智能研究实验室，于 3 月 12 日宣布推出名为 Gemini Robotics 的新 AI 模型，旨在使现实世界的机器能够与物体互动、导航环境等。

DeepMind 发布了一系列演示视频，展示了配备 Gemini Robotics 的机器人根据语音指令执行折叠纸张、将眼镜放入眼镜盒等任务。

据实验室介绍，Gemini Robotics 经过训练，能够在一系列不同的机器人硬件上推广应用，并将机器人「看到」的物品与可能采取的行动联系起来。

DeepMind 声称，在测试中，Gemini Robotics 使机器人能够在训练数据未涵盖的环境中表现出色。

该实验室已发布了一个精简版模型 Gemini Robotics-ER，研究人员可用来训练自己的机器人控制模型，同时还推出了一个名为 Asimov 的基准，用于评估 AI 驱动机器人的风险。(@Z Potentials)

4、字节音效生成模型来了，一键生成大片感音效！已上线即梦

字节跳动豆包大模型语音团队最新提出的 SeedFoley 模型，通过端到端架构实现了视频音效的智能生成，将 AI 视频创作带入「有声时代」。相关功能「AI 音效」已在即梦上线，用户使用即梦生成视频后，选择「AI 音效」功能，即可生成 3 个专业级音效方案。

SeedFoley 是一种端到端的视频音效生成架构，通过融合时空视频特征与扩散生成模型，实现了音效和视频的高度同步。首先，用固定的视频帧率对视频序列进行抽帧提取，然后使用一个视频编码器提取视频的表征信息，并通过多层线形变换将视频表征投射到条件空间，在改进的扩散模型框架中构建音效生成路径。（@机器之心）

5、阿里通义实验室语音团队负责人鄢志杰离职，系达摩院十三位「扫地僧」成员

Tech 星球独家获悉，阿里通义实验室语音团队负责人鄢志杰已于近期离职，离职时间为 2 月 15 日，按照以前的 P 序列（原阿里内部职级体系）比照，其职级为 P10。

鄢志杰是智能语音领域的技术大牛。公开资料显示，2003 年，鄢志杰大学本科毕业，升入中科大语音实验室，攻读博士学位，师从语音领域专家王仁华教授（科大讯飞创始人之一，曾任科大讯飞公司董事长）。

2008 年在中国科学技术大学语音实验室获博士学位之后，至 2015 年在微软亚洲研究院语音组任主管研究员。研究领域主要包括语音识别、语音合成、声纹、语音交互、手写及光学字符识别等。

鄢志杰曾在语音及文本识别领域顶级学术期刊及会议发表多篇论文，长期担任语音领域顶级学术会议及期刊的专家评审，并拥有多项美国及 PCT 专利。

随着 2023 年大模型的时代到来，鄢志杰开始担任通义听悟技术负责人，负责聚焦音视频内容的工作学习 AI 助手「听悟」，这款产品也成为阿里在国内首个开放公测的大模型应用产品。2024 年，鄢志杰以通义实验室语音团队负责人的身份出席外界活动。（@Tech 星球）

有亮点的产品

1、苹果计划在 AirPods 上配备实时对话翻译功能

知情人士透露，苹果公司正在计划推出一项新的 AirPods 功能，可以让耳机将面对面的对话实时翻译成另一种语言。由于事未公开而要求匿名的知情人士说，这项功能将作为今年晚些时候 AirPods 软件升级的一部分推出，将与即将推出的苹果移动设备操作系统 iOS 19 捆绑在一起。（@新浪财经）

2、MiniMax 计划收购 AI 视频初创公司鹿影科技

智东西 3 月 13 日消息，据蓝鲸新闻今日报道，多位知情人士称，上海大模型独角兽 MiniMax 将收购深圳 AI 视频生成创企鹿影科技（Avolution.ai），双方目前已经敲定收购意向，相关流程还在持续进行。2024 年，鹿影科技在天使轮融资时的估值水平约在 1 亿人民币左右。

知情人士称，去年以来（据相关报道应为去年 8 月左右），鹿影科技一直在持续寻求第二轮融资，但过程中并不顺利，团队本身在 AI 视频生成领域方面有一定的经验，最终选择和 MiniMax 合作属于共赢。鹿影科技成立于 2023 年 9 月，从事 AI 视频生成技术的研发，他们采用基于自研的 LCM 视觉模型打造 AI 视频生成创作平台 YoYo，主要面向二次元创作者，提供了文生视频与图生视频两种选择。（@智东西）

3、YC 孵化的公司 Vogent 利用强化学习改善语音通话

app.vogent.ai

YC 孵化的公司 Vogent 利用强化学习改善语音通话：自我设计和改进的 AI 代理，从真实失败案例中学习，无需提示工程。不再需要数百次提示迭代，或浪费 GPU（和人力）时间在无效的微调上。

他们利用强化学习方法，如 Deepseek 和其他研究实验室所使用的，其语音代理能够根据通话录音自行设计，并通过评估每一次拨号和纠正不良行为来提升自己。( @Y Combinator)

有态度的观点

1、Anthropic CEO：未来各领域都能有诺贝尔奖得主一样聪明的模型

近日，Anthropic CEO 兼联合创始人 Dario Amodei 在 The CEO Speaker series 论坛接受采访，深入探讨了 AI 未来方向、AI 对社会的影响，以及 AI 对未来的发展。采访中，Dario Amodei 透露出对于 AI 的发展抱有很大的憧憬。他通过这几年 AI 呈指数级增长分析，认为未来 AI 能够很自然地融入人类生活中。同时 Dario Amodei 预测，如果时间再向前推进两三年，甚至是四年，人类将拥有在各个领域都与诺贝尔奖获得者一样聪明的模型。「AI 是否会冲击就业」这一问题上，Dario Amodei 认为有好有坏：一方面，他认为比较优势仍然是一个强大的工具，并且总有 AI 无法替代人类的领域，也正因如此，AI 始终是帮助人类提升生产力的「好帮手」；另一方面，Dario Amodei 认为 AI 或将会令一部分人感到沮丧，甚至情绪陷入自身的怀疑。但 Dario Amodei 表示，人是可以多样性的，并且成就感会远比结果来得更加具有实在感。因此 Dario Amodei 也建议，人类在 AI 的帮助下，更应该建立一个有意义的世界，而在这个世界里人类也许可以在 AI 的帮助下，或者与 AI 合作，并创造出真正伟大的成就。(@APPSO)