

重磅|阿里的大模型EMO，生产表情丰富的的人像视频

杭州文创数字科技研究院

2024-02-29

导读：据统计，目前阿里与腾讯已累计投资超过40家与 AI、数字化有关的初创企业。

1.EMO 介绍

近日，阿里又推出了 EMO ，它是 AI 肖像视频生成框架，能够通过图像和音频生成富有表现力的人像视频。

感兴趣的小伙伴可以去官网看看视频效果哈。

EMO研究论文：https://arxiv.org/pdf/2402.17485.pdf

EMO开源地址：https://humanaigc.github.io/emote-portrait-alive/

它可以直接让头像唱歌，还是很有趣的。很显然，鬼畜视频即将会被 AI 所取代。

例如上面这个视频中，《狂飙》电视剧中“高启强”畅谈罗翔普法。

再比如，蔡徐坤的一张图片，就能通过其他音频配合“唱出”一首rapper饶舌，连口型都几乎一模一样。

你看到的蒙拉丽莎图片，如今也能“开口唱歌”了，并且还能生成丰富的面部表情和各种头部姿势。

前不久OpenAI发布的Sora案例视频里面，一位 AI 生成的带墨镜的日本街头女主角，现在不仅能让她开口说话，而且还能唱出好听的歌曲。

基于EMO生成的“AI 张国荣”，可以识别音频中的音调变化，从而生成不断动态、表情丰富的化身。

2.EMO 原理

在该技术框架中，分为初步处理和高级处理两大核心阶段。初步处理阶段，通过一个名为ReferenceNet的特定网络，对来源图像及其相关动作的帧进行特征抽取。进入高级处理阶段，该框架借助一个先进的音频编码器来分析音频数据，并将其转化为嵌入形式。为了精确控制生成的面部图像，该过程结合了面部遮罩技术和一系列复杂的多帧噪声数据。此外，引入了一个核心的骨干网络，专注于优化去噪效果。在这一网络中，融合了两个关键的注意力机制：一是针对保持人物身份一致性的参考注意力机制，二是调节人物表情与动作的音频注意力机制。为了进一步细化动作与表情的自然流畅度，还嵌入了一个时间处理模块，这个模块能够调控动画中的时间流逝速率，以实现更加生动和自然的动作效果。

3.EMO 主要功能

3.1MO技术的革新性在于其能力，将静态照片与声音结合，创造出仿佛真实说话或唱歌的动态视频。这项技术确保了视频中的人物，即使在进行面部表情和头部动作的变化时，仍旧保持原照片的外观不变。

3.2关于自然度的提升，EMO技术展现了其在捕捉和呈现面部表情与头部动作方面的卓越能力。通过精确模拟细微的表情变化和头部移动，它让视频中的对话和歌唱场景显得无比真实和生动。

3.3在多样性和灵活性方面，EMO技术支援包罗万象的语言和创作风格。无论用户的兴趣在于历史人物、艺术画作、三维模型还是AI生成的图像，这项技术都能够无缝对接，满足各种创作需求。

3.4对于快节奏的适应能力，EMO技术证明了其在处理快速音频节奏时的高效同步能力。无论是面对快歌或是速度较快的对话，它都能保持视频中人物动作与音频的完美同步。

3.5在角色多样性与创新方面，EMO技术允许用户创造模仿不同人物表现的视频。这意味着可以在视频中构建多样化的角色和场景，进而丰富视频内容的表现力和吸引力。

因此，EMO技术通过将静态照片与声音相结合，不仅打破了语言和风格的界限，还能迅速适应不同节奏和表演风格，为创造既真实又动听的视频内容提供了前所未有的可能性。

-END-

【声明】内容源于网络

杭州文创数字科技研究院

杭州文创数字科技研究院以“数字科技+文化创意”深度融合为核心，依托人工智能生成内容、数字孪生、区块链、元宇宙等前沿技术，构建“技术研发—场景应用—产业赋能—国际协作”全链路生态，打造长三角地区数字文创领域的技术创新引擎与产业孵化标杆。

内容 473

粉丝 0

杭州文创数字科技研究院杭州文创数字科技研究院以“数字科技+文化创意”深度融合为核心，依托人工智能生成内容、数字孪生、区块链、元宇宙等前沿技术，构建“技术研发—场景应用—产业赋能—国际协作”全链路生态，打造长三角地区数字文创领域的技术创新引擎与产业孵化标杆。

总阅读586

粉丝0

内容473