微软 Muse 游戏生成模型：理解游戏环境，生成玩家动作；西工大 ASLP 实验室开源语音理解模型 OSUM丨日报



微软 Muse 游戏生成模型：理解游戏环境，生成玩家动作；西工大 ASLP 实验室开源语音理解模型 OSUM丨日报

RTE开发者社区

2025-02-20

导读：本期关键词:YouTube Dubbing 、OSUM、PaliGemma 2 Mix

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq、@鲍勃

有话题的技术

1、开局一张图，AI 秒生超燃游戏大片！微软首个世界和人类行动模型登 Nature

智东西 2 月 20 日报道，今日凌晨，微软第一个世界和人类行动模型（WHAM）Muse 登上国际顶级学术期刊 Nature。

Muse 是视频游戏生成模型，其参数量最高达到 16 亿，是基于接近 7 年的人类游戏数据进行训练，其可以理解游戏中的物理和 3D 环境，然后生成对应玩家的动作以及视觉效果。

不过，因为研究工作仍处于早期，目前其仅限于以 300×180 像素的分辨率生成游戏视觉效果。

论文中显示，其生成的游戏视频效果能同时保持一致性、多样性和持久性。具体来说，其生成的两分钟视频效果人类真实游戏效果相近；会提供不同摄像机移动角度、不同角色、游戏工具的多样性效果；还支持添加新元素并自动合理融入画面。

这一模型由微软研究员游戏智能团队、可教的 AI 体验（Tai X，Teachable AI Experiences）团队与微软旗下游戏工作室 Xbox Games Studios 的电子游戏制作公司 Ninja Theory 合作开发。

微软正在开源权重和样本数据，并提供了一个可视化的交互界面 WHAM Demonstrator 供开发者体验，开发者可以在开发人员可以在 Azure AI Foundry 上学习试验权重、示例数据和 WHAM Demonstrator。

Xbox 正在考虑基于 Muse 为用户构建简短的交互式 AI 游戏体验，将很快在 Copilot Labs 上试用。

论文地址：

https://www.nature.com/articles/s41586-025-08600-3（@智东西）

2、MetaGPT X：首个 AI 开发团队发布，替代小型开发团队

MetaGPT X 多智能体开发团队现已发布。

这是一个多智能体开发团队，由 leader、product manager、architect、engineer 和 data analyst 共 5 位 AI 智能体组成，能够创建网站、博客、商店、分析、游戏等，目标是替代小型开发团队。

现在可以在官网免费试用。官方还表示，METAGPT v1.0 将在晚些时候开源。（@三花 AI ）

3、谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

近日，谷歌宣布推出一款全新的视觉 - 语言模型（Vision-Language Model， VLM），名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力，能够同时理解视觉信息和文本输入，并根据需求生成相应的输出，标志着人工智能技术在多任务处理方面的进一步突破。

PaliGemma2Mix 的功能非常强大，它集成了图像描述、光学字符识别（OCR）、图像问答、目标检测和图像分割等多种视觉 - 语言任务，适用于多种应用场景。开发者可以通过预训练检查点（checkpoints）直接使用这款模型，或根据自己的需求进行进一步微调。

该模型是基于先前的 PaliGemma2 进行优化而来，专门针对混合任务进行了调整，旨在让开发者轻松探索其强大的能力。PaliGemma2Mix 提供三种参数规模供开发者选择，包括 3B（30 亿参数）、10B（100 亿参数）和 28B（280 亿参数），并支持 224px 和 448px 两种分辨率，适应不同计算资源和任务需求。

PaliGemma2Mix 的主要功能亮点包括：

1. 图像描述：模型能够生成短篇和长篇的图像说明，例如识别一张牛站在海滩上的图片并提供详细描述。

2. 光学字符识别（OCR）:该模型可以从图像中提取文字，识别标志、标签及文档内容，为信息提取提供便利。

3. 图像问答与目标检测：用户可通过上传图片并提出问题，模型会分析图片并给出答案，此外，它还能准确识别图像中的特定对象，如动物、车辆等。

值得一提的是，开发者可以在 Kaggle 和 Hugging Face 上下载这款模型的混合权重，便于进行进一步的实验与开发。如果你对这款模型感兴趣，可以通过 Hugging Face 的演示平台进行探索，了解其强大的能力与应用潜力。

随着 PaliGemma2Mix 的推出，谷歌在视觉 - 语言模型领域的研究又向前迈进了一步，期待这项技术能够在实际应用中展现更大的价值。（@AIbase 基地）

4、微软团队推多模态 AI 模型 Magma：整合视觉、语言和动作决策技能

近日，微软研究团队联合多所高校的研究人员，发布了一款名为「Magma」的多模态 AI 模型。这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型，以便在数字和物理环境中执行复杂任务。随着科技的不断进步，多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。

以往的 AI 系统通常专注于视觉 - 语言理解或机器人操作，难以将这两种能力结合成一个统一的模型。许多现有模型虽然在特定领域内表现良好，但在不同应用场景中的泛化能力较差。例如，Pix2Act 和 WebGUM 模型在 UI 导航方面表现优异，而 OpenVLA 和 RT-2 则更适合机器人操控，但它们往往需要分别进行训练，难以跨越数字和物理环境的界限。

「Magma」模型的推出，正是为了克服这些局限性。它通过引入一套强大的训练方法，整合多模态理解、动作定位和规划能力，旨在让 AI 代理在各种环境中无缝运行。Magma 的训练数据集包含了 3900 万样本，包括图像、视频和机器人动作轨迹。此外，该模型还采用了两项创新技术：「可标记集」（Set-of-Mark，SoM）和「轨迹标记」（Trace-of-Mark，ToM）。前者使模型能够标记 UI 环境中的可操作视觉对象，后者则使其能够追踪物体随时间的移动，提升未来行动的规划能力。

「Magma」采用了先进的深度学习架构和大规模的预训练技术，以优化其在多个领域的表现。模型使用 ConvNeXt-XXL 视觉主干处理图像和视频，LLaMA-3-8B 语言模型负责处理文本输入。这种架构使「Magma」能够高效整合视觉、语言与动作执行。经过全面的训练，模型在多个任务上都取得了优异的成绩，显示出强大的多模态理解和空间推理能力。（@AIbase 基地）

5、西北工业大学 ASLP 实验室开源更新语音理解模型 OSUM

项目页面：
https://github.com/ASLP-lab/OSUM

大型语言模型（LLMs）在各种下游任务中取得了显著进展，启发了业界对语音理解语言模型（speech understanding language models， SULMs）的研发，以期实现基于语音情感、性别等副语言的高表现力交互。然而，大多数先进的 SULM 是由行业头部公司开发的，消耗大规模的数据和计算资源。而这些资源在学术界并不容易获得。此外，虽然训练好的模型和推理代码被开源了，但训练框架和数据处理流程依然缺乏透明度，这也为进一步研究产生了障碍。

西北工业大学 ASLP 实验室在研究中，提出了 OSUM，一个开放的语音理解模型，旨在探索在有限的学术资源下训练 SLUM 的潜力。OSUM 模型将 Whisper 编码器与 Qwen2 LLM 相结合，支持广泛的语音任务，包括语音识别（ASR）、带时间戳的语音识别（SRWT）、语音事件检测（VED）、语音情感识别（SER）、说话风格识别（SSR）、说话者性别分类（SGC）、说话者年龄预测（SAP）和语音转文本聊天（STTC）。通过采用 ASR+X 训练策略，OSUM 通过同时优化模态对齐和目标任务，实现了高效稳定的多任务训练。除了提供强大的性能，OSUM 还强调透明度，提供公开可用的代码，并详细介绍了数据处理流程，以期为学术界提供有价值的参考，旨在加速先进 SULM 技术的研究和创新。

目前，技术报告已更新，代码和模型已开源，同时提供 HuggingFace 页面在线体验。本项目的训练和推理同时支持华为昇腾 910B 平台和英伟达平台。(@OSUM Team)

有亮点的产品

1、外语视频秒变普通话！这款超强 AI 插件 YouTube Dubbing 让你一键打破语言壁垒

YouTube Dubbing 是一款强大的浏览器插件，它具有 AI 实时翻译与配音功能，只需一键点击插件按钮，就能让用户用熟悉的语言进行视频播放，轻松畅享外文视频，告别繁琐字幕。

它支持多种语言和主流视频平台，适合不同语言背景的用户。其主要优点包括精准的语音翻译、多语言支持、多平台兼容以及丰富的音色选择。产品提供免费基础功能，同时有付费会员模式，解锁更多高级功能，如保留背景音、说话人识别等。（@AIbase 基地）

2、传音控股将于 MWC 2025 推出两款智能眼镜产品

（图片来源：传音）

近日消息，传音控股宣布参加今年 3 月 3～6 日举行的 MWC 2025 世界移动通信大会，并将于大会上发布两款新的智能眼镜产品。

这两款眼镜的具体规格尚未明确，但从预告图片中可以推测出一些信息：

一款可能集成了光学屏幕：这款智能眼镜可能采用了先进的光学显示技术，为用户提供清晰的视觉体验；另一款则是常规 AI 眼镜：这款眼镜可能更注重 AI 功能，如语音识别、智能提醒等，为用户提供更加便捷的生活和工作体验。

据悉，传音控股的展区位于 Hall 6 Stand 6B11，参展者可以在此体验传音控股的最新产品和技术。除了两款智能眼镜外，传音控股还将展示其智能手机和平板产品。这些产品可能搭载了最新的技术和功能，为用户提供更加出色的使用体验。

传音控股是一家专注于海外智能手机市场的国产手机厂商，被外界誉为「非洲手机之王」。其在全球手机市场占有率高，特别是在非洲市场，传音的智能机市场占有率稳居榜首。

此次参展 MWC 2025 并展出两款智能眼镜，进一步体现了传音控股在智能穿戴设备领域的布局和实力。(@mwcbarcelona)

有态度的观点

1、面壁智能创始人：AGI 是一个持久战，更需要速决

近日，AI 科技评论与面壁智能创始人、清华大学副教授刘知远博士进行深入对话，其中刘知远博士表示，其中讨论了一些关于 AGI 发展的思考。刘知远博士提到，面壁智能判断 AGI 的到来，可能需要未来五年到十年的时间，将会是一个持久战。但同时他还表示，战略上是持久战，但是在战术上，需要去主动进攻。刘知远博士称，公司选择了端侧，就一定是在端侧上迅速打出自己的声音，从而壮大能力，并一场接一场的赢得战略。同时，刘知远博士还提到 AGI 需要渗透到每个人中。具体来看，需要 AI 企业把模型构造得质量足够高，成本足够低，真正让每个人都能用得起，这应该是未来的一个发展方向。此外，刘知远博士也谈及近期大火的 DeepSeek，其通过 DeepSeek 得到启示，认为只有一样东西做出来了，被大家看到了，大家才能感知到它的革命性。(@APPSO)