1.EMO 介绍
感兴趣的小伙伴可以去官网看看视频效果哈。
EMO研究论文:https://arxiv.org/pdf/2402.17485.pdf
EMO开源地址:https://humanaigc.github.io/emote-portrait-alive/
它可以直接让头像唱歌,还是很有趣的。很显然,鬼畜视频即将会被 AI 所取代。
2.EMO 原理
在该技术框架中,分为初步处理和高级处理两大核心阶段。初步处理阶段,通过一个名为ReferenceNet的特定网络,对来源图像及其相关动作的帧进行特征抽取。进入高级处理阶段,该框架借助一个先进的音频编码器来分析音频数据,并将其转化为嵌入形式。为了精确控制生成的面部图像,该过程结合了面部遮罩技术和一系列复杂的多帧噪声数据。此外,引入了一个核心的骨干网络,专注于优化去噪效果。在这一网络中,融合了两个关键的注意力机制:一是针对保持人物身份一致性的参考注意力机制,二是调节人物表情与动作的音频注意力机制。为了进一步细化动作与表情的自然流畅度,还嵌入了一个时间处理模块,这个模块能够调控动画中的时间流逝速率,以实现更加生动和自然的动作效果。
3.EMO 主要功能
3.1MO技术的革新性在于其能力,将静态照片与声音结合,创造出仿佛真实说话或唱歌的动态视频。这项技术确保了视频中的人物,即使在进行面部表情和头部动作的变化时,仍旧保持原照片的外观不变。
3.2关于自然度的提升,EMO技术展现了其在捕捉和呈现面部表情与头部动作方面的卓越能力。通过精确模拟细微的表情变化和头部移动,它让视频中的对话和歌唱场景显得无比真实和生动。
3.3在多样性和灵活性方面,EMO技术支援包罗万象的语言和创作风格。无论用户的兴趣在于历史人物、艺术画作、三维模型还是AI生成的图像,这项技术都能够无缝对接,满足各种创作需求。
3.4对于快节奏的适应能力,EMO技术证明了其在处理快速音频节奏时的高效同步能力。无论是面对快歌或是速度较快的对话,它都能保持视频中人物动作与音频的完美同步。
3.5在角色多样性与创新方面,EMO技术允许用户创造模仿不同人物表现的视频。这意味着可以在视频中构建多样化的角色和场景,进而丰富视频内容的表现力和吸引力。
因此,EMO技术通过将静态照片与声音相结合,不仅打破了语言和风格的界限,还能迅速适应不同节奏和表演风格,为创造既真实又动听的视频内容提供了前所未有的可能性。
-END-






