01
有话题的技术
1、开局一张图,AI 秒生超燃游戏大片!微软首个世界和人类行动模型登 Nature
智东西 2 月 20 日报道,今日凌晨,微软第一个世界和人类行动模型(WHAM)Muse 登上国际顶级学术期刊 Nature。

2、MetaGPT X:首个 AI 开发团队发布,替代小型开发团队
3、谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者
近日,谷歌宣布推出一款全新的视觉 - 语言模型(Vision-Language Model, VLM),名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力,能够同时理解视觉信息和文本输入,并根据需求生成相应的输出,标志着人工智能技术在多任务处理方面的进一步突破。
4、微软团队推多模态 AI 模型 Magma:整合视觉、语言和动作决策技能
近日,微软研究团队联合多所高校的研究人员,发布了一款名为 「Magma」 的多模态 AI 模型。这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型,以便在数字和物理环境中执行复杂任务。随着科技的不断进步,多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。
以往的 AI 系统通常专注于视觉 - 语言理解或机器人操作,难以将这两种能力结合成一个统一的模型。许多现有模型虽然在特定领域内表现良好,但在不同应用场景中的泛化能力较差。例如,Pix2Act 和 WebGUM 模型在 UI 导航方面表现优异,而 OpenVLA 和 RT-2 则更适合机器人操控,但它们往往需要分别进行训练,难以跨越数字和物理环境的界限。
「Magma」 模型的推出,正是为了克服这些局限性。它通过引入一套强大的训练方法,整合多模态理解、动作定位和规划能力,旨在让 AI 代理在各种环境中无缝运行。Magma 的训练数据集包含了 3900 万样本,包括图像、视频和机器人动作轨迹。此外,该模型还采用了两项创新技术:「可标记集」(Set-of-Mark,SoM)和 「轨迹标记」(Trace-of-Mark,ToM)。前者使模型能够标记 UI 环境中的可操作视觉对象,后者则使其能够追踪物体随时间的移动,提升未来行动的规划能力。
5、西北工业大学 ASLP 实验室开源更新语音理解模型 OSUM
https://github.com/ASLP-lab/OSUM
02
有亮点的产品
1、外语视频秒变普通话!这款超强 AI 插件 YouTube Dubbing 让你一键打破语言壁垒
YouTube Dubbing 是一款强大的浏览器插件,它具有 AI 实时翻译与配音功能,只需一键点击插件按钮,就能让用户用熟悉的语言进行视频播放,轻松畅享外文视频,告别繁琐字幕。
2、传音控股将于 MWC 2025 推出两款智能眼镜产品
03
有态度的观点
1、面壁智能创始人:AGI 是一个持久战,更需要速决
近日,AI 科技评论与面壁智能创始人、清华大学副教授刘知远博士进行深入对话,其中刘知远博士表示,其中讨论了一些关于 AGI 发展的思考。刘知远博士提到,面壁智能判断 AGI 的到来,可能需要未来五年到十年的时间,将会是一个持久战。但同时他还表示,战略上是持久战,但是在战术上,需要去主动进攻。刘知远博士称,公司选择了端侧,就一定是在端侧上迅速打出自己的声音,从而壮大能力,并一场接一场的赢得战略。同时,刘知远博士还提到 AGI 需要渗透到每个人中。具体来看,需要 AI 企业把模型构造得质量足够高,成本足够低,真正让每个人都能用得起,这应该是未来的一个发展方向。此外,刘知远博士也谈及近期大火的 DeepSeek,其通过 DeepSeek 得到启示,认为只有一样东西做出来了,被大家看到了,大家才能感知到它的革命性。(@APPSO)
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
更多 Voice Agent 学习笔记:
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
写在最后:

