大数跨境
0
0

蚂蚁开源生成式数字人算法EchoMimic,可用音频驱动人像动画生成

蚂蚁开源生成式数字人算法EchoMimic,可用音频驱动人像动画生成 蚂蚁技术AntTech
2024-07-24
2



1

摘要


EchoMimic是由蚂蚁集团开源的专注于增强二维数字人物驱动效能的算法用户仅需上传一张数字人或真实人物的图片及一段语音或视频资料,即可生成与之匹配的说话场景视频。该技术在表现效果上接近当前市场上的开源及商业解决方案,且在驱动模式上展现出高度灵活性,支持语音、姿态或二者的组合驱动,为用户带来灵活的定制化体验。



相较于传统依赖于购买视频与后期口型替换的行业惯例,EchoMimic显著降低了实施成本,其应用潜力在与当前流行的大型语言模型(LLM)及物联网(IoT)设备的融合中得以进一步放大,共同推动实现更加人性化、情感丰富的数字人交互界面,为用户增添深层次的情感价值维度。


目前,EchoMimic已正式在GitHub平台开源,供开发者和爱好者使用。其性能和灵活性也得到了社区的好评。此外,该技术也激发了开发者社群的极大热情,吸引了大量开发者加入,围绕EchoMimic的基础进行二次创作与拓展应用,共同促进这一技术生态的繁荣发展。


项目地址:

https://badtobest.github.io/echomimic.html

代码地址:

https://github.com/BadToBest/EchoMimic


2

前言


在数字媒体和虚拟交互的世界中,数字人技术正逐渐成为连接现实与虚拟世界的桥梁。这项技术旨在通过模拟真实人类的外貌和行为,在智能交互和内容创作等领域为用户提供了更加优质和便捷的服务体验。


根据技术实现的路径划分,当前较为成熟的数字人技术主要分为2D和3D两大类。这两种技术路线采用了截然不同的算法策略,并各自开拓了独特的应用领域。


随着人工智能在图像和视频生成领域的迅猛发展,数字人技术也迎来了前所未有的新机遇。


AI绘画技术,如Stable Diffusion算法,能够根据文本描述生成图像,为数字人的外观定制和视觉表现提供了更大的自由度以及更实惠的制作成本。


而AI视频生成技术则进一步拓展了数字人的动态表现力,使得数字人的动作、表情和口型能够更加自然逼真的同时也进一步与语音同步对齐,从而创造出更加逼真流畅的动态数字人视频内容。


接下来,我们将深入探讨AIGC(人工智能生成内容)数字人技术传统2D和3D数字人技术之间的显著差异与其独特的优势,同时介绍一下我们在这一前沿技术方向上取得的创新成果,包括我们在AIGC数字人形象生成与数字人驱动方面的最新进展和突破


3

相关工作


3.1

2D数字人技术路线

2D数字人技术主要通过提前录制人物形象与躯体动作视频,而后使用基于语音的人物嘴形编辑算法,实现数字人语音播报视频生成,是一种成本效益高、制作流程灵活的数字人内容生产方式。


这种方法特别适用于快速制作视频内容,如数字主播、教育视频、广告宣传片等。数字主播能够24小时不间断地提供信息播报、娱乐互动或直播带货服务,极大地扩展了内容生成和传播的边界。

图1. 2D数字人的一些应用场景


因其较低的制作成本、短平快的技术链路与在特定场景下的优秀效果,2D数字人近年来已经被广泛得应用在了数字主播、直播带货等领域,为内容制作者、直播带货商家带来了十足的便利。不过传统2D数字人技术也存在着显而易见的缺陷与瓶颈,主要在以下几点:




01

优质的2D数字人应用效果依旧依赖于高水准的素材录制,这一过程仍然涉及相当的时间和金钱投入。



02

目前,人工智能在生成高质量躯体和手势动作视频方面仍面临挑战,导致人物动作内容的制作在很大程度上依赖于实际的素材录制。刻板的预录制动作,严重影响了2D数字人在人机交互时的整体表现。



03

由于传统AI算法在泛化能力上的局限性,2D数字人在模拟人物动作和嘴型生成的准确性、自然性和灵活性等方面,与基于海量数据进行预训练的Diffusion模型相比,存在天然的劣势。


3.2

3D 数字人技术路线

3D数字人技术,作为人工智能与计算机图形学技术交汇的结晶,正逐渐成为“元宇宙”时代的核心构建要素。这一技术不仅承载着人们对未来数字世界的无限想象,也在不断推动着虚拟现实、游戏开发、影视制作、社交互动等多个领域的边界扩展。


AI技术在3D数字人领域的应用主要集中在数字人智能建模和数字人智能驱动两个关键方向。随着3DMM(三维人脸可形变模型)和可微分渲染技术的不断发展,现在可以以极低的成本实现3D数字人的建模和驱动。传统上依赖于高精度扫描和专业动作捕捉设备的工作,现在通过AI技术的应用,只需单张照片就能实现3D数字人面部的精确重建,且只需要一个普通单目摄像头就能完成用面部与躯体的动作捕捉与数字人的驱动。


图2. 3D数字人算法效果展示


3D数字人相比2D数字人有着更强的交互能力,同时3D美术建模可以带来的更完美的数字人外貌与人设,因此相关技术已经被广泛得应用于各类智能助理、智能客服、虚拟偶像等应用之中。然而3D数字人技术也存在着一定的短板,主要在以下几点:




01

3D数字人技术链过长,人物建模、动作驱动、渲染展示等每个环节都有着复杂的技术栈,导致技术应用成本相对较高。



02

智能化低成本的建模方式难以保障数字人建模质量,高质量的3D数字人建模依然依赖传统美工3D建模方式,而传统美工3D建模方式意味着极高的金钱和时间成本。



03

3D数字人建模与渲染要做到超高写实程度,意味着极其高昂的成本,因此3D数字人天然不适合需要超高写实人物形象的应用场景。


3.3

AIGC 数字人技术路线

图3. 2D AIGC数字人业界最新进展


近年来,人工智能生成内容(AIGC)技术取得了突破性进展,AI绘画领域的创新应用层出不穷,为人们带来了丰富的视觉体验。而步入2024年后,AIGC在视频生成方面也取得了显著成就,尤其是Sora和EMO等技术的出现,为视频创作领域带来了崭新的变化。AIGC技术的优势在于其能够在成本极低的情况下,有几率创造出高品质的图像与视频内容。这一优势能够有效解决传统2D和3D数字人技术在成本与效果方面所面临的核心挑战。


因此,在最近半年中,利用AIGC技术进行数字人内容的生成,已经成为学术界和产业界的热门趋势。图5展示了2D AIGC数字人业界最新进展, 以下概述了几项对这一进步有重大贡献的开创性方法。


EMO[8]作为Animate Anyone的后续作品,针对弱控制条件下生成富有表现力的肖像视频作出了贡献,解决了音频驱动动画不稳定性的问题。它采用了稳定的控制机制和独特的FrameEncoding模块,以保持视频中角色的一致性。


Follow-Your-Emoji[13]介绍了一个精细可控且富有表现力的框架,用于自由风格的肖像动画。它创新性地使用了表情感知的地标来指导动画过程,确保了动作精确对齐及夸张表情的表现。结合面部细节损失函数和逐步生成策略,它将应用范围扩展到了非传统肖像风格,包括卡通、雕塑和动物。


Hallo[14]提供了一种用于肖像图像动画的分层音频驱动视觉合成方法,解决了唇同步、表情和姿态对齐的复杂问题。通过集成基于扩散的生成模型、UNet去噪器及交叉注意力机制,它在表情多样性和姿态变化上实现了更强的控制,展现出在视频质量、唇同步精度和动作多样性上的改进。


4

EchoMimic自研算法效果展示


4.1

语音驱动数字人图像


4.2

关键点驱动数字人图像

滑动查看更多


4.3

语音+部分关键点驱动数字人图像


4.4

推理加速与实时交互

AIGC数字人技术愈发成熟的同时,其因基于Stable Diffusion而导致推理速度慢的缺点逐渐显现,阻碍了AIGC数字人这项技术的大规模应用;更为重要的,数字人的落地场景往往需要与真实人类进行交互,因此从推理加速到实时生成也是AIGC数字人的重要技术课题,也是一项重要的技术挑战。


通过将SpeedUpNet与视频联合训练,结合pipeline优化我们将视频生成耗时比从1:53(每生成1s需要花费53s, A100)降至1:1.2(加速44倍),实现了AIGC数字人的可实时交互能力。


5

EchoMimic技术架构



5.1

整体框架

整体框架参考了EMO[8]框架,去除了一些模块,也添加了一些新的设计。整个框架包括两个UNET网络,即reference unet和denoising unet。


其中图6上半部分的reference unet负责编码输入头像的表观信息,维持身份、背景的一致性。而下半部分的denoising unet则接收多模态输入(语音特征、landmark特征等),在隐空间进行多轮扩散后,经过解码器得到最终的驱动视频输出。


5.2

表观控制模块

表观控制模块(vae encoder+reference unet)的主要功能是编码用户输入的头像图片,从而将其身份特征和背景特征映射到特征空间。


具体来说,头像数据首先经过一个预训练的2d vae,映射到隐空间。然后,经过包含多个卷积+attn的reference unet,得到多层次的空间特征。


表观控制模块的多层次空间特征(多个中间层的输出)将作为语音驱动模块的输入。这个多层次的空间特征从多个尺度提取了头像图像的特征,因此可以很好地保证头像中包含的关键表观信息,例如人脸的身份,背景的物体等,被很好地保留并传输给语音驱动模块。从而使得驱动得到的视频,不至于出现身份不一致和背景变化大的问题。


图5. EchoMimic的表观控制子pipeline


5.3

语音驱动模块

语音驱动模块是整个框架的核心模块。其包含一个人脸关键点编码器(landmark encoder)、一个语音特征编码器(audio encoder)和一个扩散网络(denoising unet)。



人脸关键点编码器

其中,人脸关键点编码器(landmark encoder)接收一个landmark图作为输入,不同的landmark代表人脸的不同位置(例如眼睛、鼻子等),输出则是编码得到的landmark特征。


语音特征编码器

语音特征编码器(audio encoder)是一个预训练的语音特征提取模块,将一段语音信号转化为对应的语音特征,方便进行语音-图像的交叉注意力操作。


扩散网络

扩散网络(denoising unet)则是接收噪声、条件信号(语音特征)作为输入,输出对应的图像(需要解码后得到)。


图6. EchoMimic的语音驱动子pipeline


扩散网络(denoising unet)包含三种不同的注意力模块,即表观自注意力模块(self-attn)、语音注意力模块(cross-attn)以及时序注意力模块(temporal-attn)。



表观自注意力模块

其中表观自注意力模块(self-attn)是扩散网络(denoising unet)特征和reference unet特征concat之后进行自注意力,确保生成过程中和参考图像保持高度的一致性。


语音注意力模块

语音注意力模块(cross-attn)是扩散网络(denoising unet)特征和语音特征之间的交叉注意力,旨在驱动生成的图像随着语音进行运动(特别是嘴部区域的运动)。


时序注意力模块

时序注意力模块(temporal-attn)则是一个自注意力模块,确保生成的视频帧之间有良好的时序连续性。


6

未来展望

6.1

从“数字脸”到“数字人”

图7. 从脸部生成驱动到全身生成驱动


目前,我们自研的技术主要聚焦在“如何让脸部自然说话”。然而,对于一个完整的数字人,脸部只是关键部分之一。为了得到包含身体、躯干的完整数字人,势必要在现有的框架做不少改造。幸运的是,也有一些学界和业界可以参考的例子。


图8. 谷歌的VLOGGER技术架构

用于生成半身数字人


例如谷歌近期提出的VLOGGER,通过引入3D动作生成模块和超分模块,可以生成自然的半身数字人视频。其他科技公司例如微软等也提供类似的技术并提供了简单的技术报告。然而,这些具有巨大价值的商业技术都处于闭源状态,相比于人脸生成驱动,能够有的参考非常少。但是,我们会继续在这个方向技术探索、试错,相信不久的将来可以做到比肩SOTA的效果。


6.2

可控编辑

近年来,视频已成为传递信息越来越受欢迎和重要的一种媒介。随着对高质量视频内容需求的增长,对复杂视频编辑工具的需求也随之增加。近期在图像和视频扩散模型方面的进展显示了自动视频编辑的巨大潜力,有望显著减少该领域历来所需的手动劳动。


一个理想的视频编辑工具应当能够执行范围广泛的操作,包括全局编辑(如风格迁移)和局部编辑(如替换或修改特定对象而不影响其他内容),以满足媒体内容创作者多样化的需求。例如南洋理工最近提出的I2VEdit视频编辑框架可以根据编辑的程度自适应地保留源视频的视觉和运动完整性,有效地处理全局编辑、局部编辑及适度的形状变化,这是现有方法无法完全实现的。


该方法的核心包含两个主要过程:粗略运动提取,用于将基本的运动模式与原始视频对齐;以及外观细化,利用精细的注意力匹配进行精确调整。同时,该方法还融入了跳间隔策略,以减轻从多个视频片段的自回归生成中产生的质量衰退。后续该方法可以进一步用于数字人视频的局部编辑中,例如换配饰、换服饰、换场景等等,从而大幅度增强数字人生成的多样性。


图9. 南洋理工提出的I2VEdit视频编辑框架


6.3

时空VAE

相比于炙手可热的扩散模型,VAE的关注度相对较低。但是,VAE是扩散模型能够在低维隐空间进行高效训练的基础。


目前的视频生成技术,往往基于图像VAE(空间VAE或者2DVAE)进行扩散模型的训练。即在VAE进行编解码时,忽视了视频帧在时间维度的相关性,因此也容易出现例如内容不连续、视频闪烁等问题。


前一阵非常热门的SORA就提出了利用时空VAE(spatial-temporal VAE或者3DVAE)进行视频生成的技术。相比于2DVAE,视频的质量和连续性将会有很大的提升。我们也会考虑将3DVAE引入到现有的数字人生成框架中,进一步提升生成的数字人视频的质量。


图10. SORA提出的3DVAE架构的编码器部分


7

参考文献


1. Prajwal, K. R., Mukhopadhyay, R., Namboodiri, V. P., & Jawahar, C. V. (2020, October). A lip sync expert is all you need for speech to lip generation in the wild. In Proceedings of the 28th ACM international conference on multimedia (pp. 484-492).


2. Cheng, K., Cun, X., Zhang, Y., Xia, M., Yin, F., Zhu, M., ... & Wang, N. (2022, November). Videoretalking: Audio-based lip synchronization for talking head video editing in the wild. In SIGGRAPH Asia 2022 Conference Papers (pp. 1-9).


3. Zhang, W., Cun, X., Wang, X., Zhang, Y., Shen, X., Guo, Y., ... & Wang, F. (2023). Sadtalker: Learning realistic 3d motion coefficients for stylized audio-driven single image talking face animation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 8652-8661).


4. Kurz, A., Neff, T., Lv, Z., Zollhöfer, M., & Steinberger, M. (2022, October). Adanerf: Adaptive sampling for real-time rendering of neural radiance fields. In European Conference on Computer Vision (pp. 254-270). Cham: Springer Nature Switzerland.


5. Wang, X., Ruan, T., Xu, J., Guo, X., Li, J., Yan, F., ... & Wang, C. (2024). Expression-aware neural radiance fields for high-fidelity talking portrait synthesis. Image and Vision Computing, 105075.


6. Zheng, Z., Zhao, X., Zhang, H., Liu, B., & Liu, Y. (2023). Avatarrex: Real-time expressive full-body avatars. ACM Transactions on Graphics (TOG), 42(4), 1-19.


7. Hu, L. (2024). Animate anyone: Consistent and controllable image-to-video synthesis for character animation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 8153-8163).


8. Tian, L., Wang, Q., Zhang, B., & Bo, L. (2024). EMO: Emote Portrait Alive-Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions. arXiv preprint arXiv:2402.17485.


9. Wei, H., Yang, Z., & Wang, Z. (2024). Aniportrait: Audio-driven synthesis of photorealistic portrait animation. arXiv preprint arXiv:2403.17694.


10. Xu, S., Chen, G., Guo, Y. X., Yang, J., Li, C., Zang, Z., ... & Guo, B. (2024). Vasa-1: Lifelike audio-driven talking faces generated in real time. arXiv preprint arXiv:2404.10667.


11. Wang, C., Tian, K., Zhang, J., Guan, Y., Luo, F., Shen, F., ... & Yang, W. (2024). V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation. arXiv preprint arXiv:2406.02511.


12. Yang, S., Li, H., Wu, J., Jing, M., Li, L., Ji, R., ... & Fan, H. (2024). MegActor: Harness the Power of Raw Video for Vivid Portrait Animation. arXiv preprint arXiv:2405.20851.


13. Ma, Y., Liu, H., Wang, H., Pan, H., He, Y., Yuan, J., ... & Chen, Q. (2024). Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation. arXiv preprint arXiv:2406.01900.


14. Xu, M., Li, H., Su, Q., Shang, H., Zhang, L., Liu, C., ... & Zhu, S. (2024). Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation. arXiv preprint arXiv:2406.08801.

【声明】内容源于网络
0
0
蚂蚁技术AntTech
科技是蚂蚁创造未来的核心动力
内容 1081
粉丝 0
蚂蚁技术AntTech 科技是蚂蚁创造未来的核心动力
总阅读263
粉丝0
内容1.1k