大数跨境
0
0

重磅|阿里的大模型EMO,生产表情丰富的的人像视频

重磅|阿里的大模型EMO,生产表情丰富的的人像视频 杭州文创数字科技研究院
2024-02-29
2
导读:据统计,目前阿里与腾讯已累计投资超过40家与 AI、数字化有关的初创企业。

1.EMO 介绍


近日,阿里又推出了 EMO ,它是 AI 肖像视频生成框架,能够通过图像和音频生成富有表现力的人像视频。


感兴趣的小伙伴可以去官网看看视频效果哈。


EMO研究论文:https://arxiv.org/pdf/2402.17485.pdf


EMO开源地址:https://humanaigc.github.io/emote-portrait-alive/



它可以直接让头像唱歌,还是很有趣的。很显然,鬼畜视频即将会被 AI 所取代。

例如上面这个视频中,《狂飙》电视剧中“高启强”畅谈罗翔普法。
再比如,蔡徐坤的一张图片,就能通过其他音频配合“唱出”一首rapper饶舌,连口型都几乎一模一样。
你看到的蒙拉丽莎图片,如今也能“开口唱歌”了,并且还能生成丰富的面部表情和各种头部姿势。
前不久OpenAI发布的Sora案例视频里面,一位 AI 生成的带墨镜的日本街头女主角,现在不仅能让她开口说话,而且还能唱出好听的歌曲。
基于EMO生成的“AI 张国荣”,可以识别音频中的音调变化,从而生成不断动态、表情丰富的化身。

2.EMO 原理

在该技术框架中,分为初步处理和高级处理两大核心阶段。初步处理阶段,通过一个名为ReferenceNet的特定网络,对来源图像及其相关动作的帧进行特征抽取。进入高级处理阶段,该框架借助一个先进的音频编码器来分析音频数据,并将其转化为嵌入形式。为了精确控制生成的面部图像,该过程结合了面部遮罩技术和一系列复杂的多帧噪声数据。此外,引入了一个核心的骨干网络,专注于优化去噪效果。在这一网络中,融合了两个关键的注意力机制:一是针对保持人物身份一致性的参考注意力机制,二是调节人物表情与动作的音频注意力机制。为了进一步细化动作与表情的自然流畅度,还嵌入了一个时间处理模块,这个模块能够调控动画中的时间流逝速率,以实现更加生动和自然的动作效果。



3.EMO 主要功能

3.1MO技术的革新性在于其能力,将静态照片与声音结合,创造出仿佛真实说话或唱歌的动态视频。这项技术确保了视频中的人物,即使在进行面部表情和头部动作的变化时,仍旧保持原照片的外观不变。

3.2关于自然度的提升,EMO技术展现了其在捕捉和呈现面部表情与头部动作方面的卓越能力。通过精确模拟细微的表情变化和头部移动,它让视频中的对话和歌唱场景显得无比真实和生动。

3.3在多样性和灵活性方面,EMO技术支援包罗万象的语言和创作风格。无论用户的兴趣在于历史人物、艺术画作、三维模型还是AI生成的图像,这项技术都能够无缝对接,满足各种创作需求。

3.4对于快节奏的适应能力,EMO技术证明了其在处理快速音频节奏时的高效同步能力。无论是面对快歌或是速度较快的对话,它都能保持视频中人物动作与音频的完美同步。

3.5在角色多样性与创新方面,EMO技术允许用户创造模仿不同人物表现的视频。这意味着可以在视频中构建多样化的角色和场景,进而丰富视频内容的表现力和吸引力。

因此,EMO技术通过将静态照片与声音相结合,不仅打破了语言和风格的界限,还能迅速适应不同节奏和表演风格,为创造既真实又动听的视频内容提供了前所未有的可能性。

-END-



【声明】内容源于网络
0
0
杭州文创数字科技研究院
杭州文创数字科技研究院以“数字科技+文化创意”深度融合为核心,依托人工智能生成内容、数字孪生、区块链、元宇宙等前沿技术,构建“技术研发—场景应用—产业赋能—国际协作”全链路生态,打造长三角地区数字文创领域的技术创新引擎与产业孵化标杆。
内容 473
粉丝 0
杭州文创数字科技研究院 杭州文创数字科技研究院以“数字科技+文化创意”深度融合为核心,依托人工智能生成内容、数字孪生、区块链、元宇宙等前沿技术,构建“技术研发—场景应用—产业赋能—国际协作”全链路生态,打造长三角地区数字文创领域的技术创新引擎与产业孵化标杆。
总阅读586
粉丝0
内容473