AI 流媒体音乐平台 Melodio 发布；多模态模型 VITA 可打断无需唤醒词丨 RTE 开发者日报



AI 流媒体音乐平台 Melodio 发布；多模态模型 VITA 可打断无需唤醒词丨 RTE 开发者日报

RTE开发者社区

2024-08-16

导读：本期关键词：Grok-2 Beta、VITA、HeadGAP

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

有话题的新闻

1、马斯克旗下大模型 Grok-2 Beta 推出，可在 X 上生成图像

Elon Musk 旗下的 xAI 以 Beta 版本的形式，推出了 Grok-2 和 Grok-2 mini 测试版，重点改善了推理能力。

xAI 关于 Grok-2 的博文写道：「Grok-2 的早期预览版现已推出，在此前 Grok-1.5 的基础上又向前迈出的重要一步，在聊天、编码和推理方面有明显改进。」「我们还推出了 Grok-2 mini，相关版本已经以 sus-column-r 的名称出现在 LMSYS 排行榜上。」

Musk 的人工智能公司计划在本月晚些时候通过企业 API 向开发者提供这两种模型。

应用程序研究员（显然也是 X 功能测试员）Nima Owji 声称，Grok 2 在代码生成、写作和新闻方面更胜一筹。

xAI 公司在宣布上述两个 Grok 模型之外，还向 Premium 和 Premium+ 订阅用户开放新权益，可以直接在 X 平台上生成图片。根据用户反馈，X 平台上的 Grok 文生图模型没有限制，可以创建政治人物图片，目前许多用户都在利用这一优势。不过，随着美国总统大选的临近，该公司很可能会面临增加这些功能限制的压力。(@ APPSO)

2、OpenAI 推出 SWE-bench Verified 基准，更准确评估 AI 模型代码生成表现

OpenAI 推出更可靠的代码生成评估基准：SWE-bench Verified，该基准是对现有 SWE-bench 的改进版本（子集），旨在更可靠地评估 AI 模型解决现实世界软件问题的能力

SWE-bench 是一个流行的软件工程评估套件，用于评估 LLM 解决从 GitHub 提取的真实软件问题的能力。它通过向 AI 代理提供代码库和问题描述，并要求其生成修复问题的补丁来进行评估。

OpenAI 指出了 SWE-bench 的三个主要问题：

单元测试过于严格：用于评估解决方案正确性的单元测试往往过于具体，有时甚至与问题无关，这可能导致拒绝正确的解决方案。
问题描述不明确：许多样本的问题描述不够具体，导致问题是什么以及应如何解决含糊不清。
开发环境难以设置：有时很难可靠地为代理设置 SWE-bench 开发环境，从而无意中导致单元测试失败。

SWE-bench Verified 的主要改进之一是使用容器化 Docker 环境开发了新的评估工具包。这一改进旨在使评估过程更加一致和可靠，降低与开发环境设置相关的问题发生的可能性。性能的提高表明，SWE-bench Verified 更好地捕捉到了人工智能模型在软件工程任务中的真正能力。（@IT 之家）

3、腾讯首个开源多模态大语言模型 VITA，可与用户进行无障碍沟通

VITA 是腾讯优图实验室联合南京大学、厦门大学和中国科学院自动化研究所推出首个开源的多模态大语言模型（MLLM）。该模型能够同时处理视频、图像、文本和音频，并且具备一流的自然交互能力，能够在不说「嘿，VITA」的情况下响应用户的对话，即使在多人交流中也能礼貌地等待时机。

VITA 基于 Mixtral8×7B 模型，扩展了汉语词汇量，并进行双语指令微调，使其能够流利地使用中文和英语。除此以外，研究者进一步通过多模态对齐和指令微调的两阶段多任务学习赋予语言模型视觉和音频能力。

VITA 的双重模型部署使其能够生成对用户查询的响应，并且持续跟踪环境输入以确保交互的精准性和及时性。此外，VITA 不仅能够作为聊天伙伴，还能在健身或旅游时提供相应建议，并且能够根据提供的图片或视频内容回答问题。（@机器之心）

4、力压 DALL-E 3 等顶级模型，谷歌开放 Imagen 3 文生图 AI 访问

谷歌于今年 5 月召开的 I / O 开发者大会上宣布 Imagen 3 模型，6 月邀请部分 Vertex AI 用户测试使用，而现在正式向美国用户开放。用户可以打开 AI Test Kitchen 体验该功能，官方称最新版本「节更清晰、光照更丰富、干扰性人工痕迹更少」。

据谷歌人工智能研究部门 DeepMind 负责人称，与前代产品 Imagen 2 相比，Imagen 3 能更准确地理解文字提示，并将其转化为图像，而且其生成的图像更具「创造性和细节」，且模型产生的干扰元素和错误也更少。

在谷歌的人工和自动评估中，Imagen 3 的表现优于 Imagen 2、DALL-E 3、Midjourney v6、Stable Diffusion 3 和 Stable Diffusion XL 1.0，Imagen 3 在将文本描述与生成的图像相匹配以及处理详细提示方面表现尤为突出。（@IT 之家）

5、昆仑万维发布全球首个 AI 流媒体音乐平台 Melodio

昆仑万维宣布，正式发布全球首个 AI 流媒体音乐平台 Melodio，并同步推出 AI 音乐商用创作平台 Mureka。两款产品均搭载昆仑万维新款自研 DiT（Diffusion Transformer）架构音乐大模型 Skymusic 2.0，这是业内首个能够持续稳定生成特定风格歌曲的 AI 音乐大模型。

据介绍，用户根据此刻的场景或心情在 Melodio 输入 Prompt，Melodio 便会持续生成相应风格的定制化音乐。用户在 Melodio 音乐生成与播放过程中可以随时修改输入文案，改变音乐生成内容，还能够实时查询生成的歌词，并对于喜欢的片段进行保存、分享。官方还表示，Melodio 是业内首个能够持续、稳定生成特定风格歌曲（如：中国风、Rap、DJ 等）的 AI 音乐平台。

此外，昆仑万维还发布了 AI 音乐商用创作平台 Mureka，专业艺术家与音乐爱好者均可在 Mureka 平台上创作专属音乐，并通过歌曲商店展示、收听、收藏、分享、下载，同时获得 AI 乐曲创作证明。（@IT 之家）

6、HeadGAP：三张视角图片即可生成逼真 3D 虚拟人

字节跳动和上海科技大学的研究人员开发了一项名为「HeadGAP」的研究，可以仅通过三张目标人物不同视角的照片，快速创建出高仿真、可动画化的 3D 虚拟人头部形象，并且可以根据参考视频实现面部表情同步。

该模型通过利用大规模多视角动态数据集来学习 3D 头部先验知识，并通过高斯 Splatting 基础的自解码网络实现动态建模。HeadGAP 通过身份共享编码和个性化潜在代码来学习高斯原语的属性，实现了快速的头像个性化定制。这一成果不仅在虚拟社交、游戏开发等领域有着广泛的应用前景，同时也为 3D 头像的个性化制作提供了新的思路和方法。（@站长之家）

有态度的观点

1、Reid Hoffman 对话 OpenAI 董事会主席：AI 处在 PC 早期，LLM 是一类新的软件，社会需要时间适应

近日，OpenAI 早期投资者&前董事会成员 Reid Hoffman 与 OpenAI 现任董事会主席& AI 初创公司 Sierra 创始人 Bret Taylor 展开了一次创业对谈。

在对话中，他们讨论了 AI 目前的发展阶段以及 LLM 对社会的潜在影响。Hoffman 和 Taylor 都认为，AI 目前的发展阶段类似于个人电脑（PC）早期的发展阶段，这意味着社会需要时间来适应这一新兴技术。Taylor 强调，LLM 作为一类新的软件，正在改变我们与软件的互动方式，与软件对话可能会成为人与软件互动的最符合人体工学的方式，因为这种互动不需要说明书，只需要进行对话。

两位业界领袖对 AI 的未来发展持乐观态度，同时也意识到了伴随技术发展而来的挑战和责任。他们认为，随着 AI 技术的进步，将会出现新的工作机会，并且 AI 将成为增强人类能力的工具，而非替代人类。

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

【声明】内容源于网络

RTE开发者社区

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流，我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源，我们将陪跑开发者，共享、共建、共成长。

内容 1122

粉丝 0

RTE开发者社区 RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流，我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源，我们将陪跑开发者，共享、共建、共成长。

总阅读33

粉丝0

内容1.1k