大数跨境
0
0

现实版神笔马良!阿里发布Tora视频生成模型,简单几笔快速生成精确运动控制的视频。

现实版神笔马良!阿里发布Tora视频生成模型,简单几笔快速生成精确运动控制的视频。 AIGC Studio
2024-08-08
0
导读:神笔马良版Sora来了!阿里发布Tora视频生成模型,视频生成更符合物理规律。

阿里团队近日推出视频生成模型Tora,能够根据轨迹、图像、文本或其组合,简单几笔快速生成精确运动控制的视频,同时也支持首尾帧控制,让视频生成的可控性又上了一个阶梯。

Tora 能够生成由轨迹、图像、文本或它们的组合引导的视频。这是第一个面向轨迹的DiT框架,该框架同时集成了文本、视觉和轨迹条件以进行视频生成。利用 DiT 的可扩展性,生成的运动不仅精确遵循轨迹,而且可以有效模拟物理世界的动态。值得注意的是,在以 720p 分辨率生成视频时,Tora 最多可保持 204 帧的稳定运动控制。下面展示为Tora使用如下prompts生成视频的例子~

相关链接

论文链接:https://arxiv.org/pdf/2407.21705


项目链接:https://ali-videoai.github.io/tora_video/

论文阅读

摘要

扩散变换器 (DiT) 的最新进展已证明其在制作高质量视频内容方面具有非凡的能力。尽管如此,基于变换器的扩散模型在有效生成具有可控运动的视频方面的潜力仍然是一个有限的探索领域。

本文介绍了 Tora,这是第一个面向轨迹的 DiT 框架,它将文本、视觉和轨迹条件同时集成在一起以生成视频。具体来说,Tora 由轨迹提取器 (TE)、时空 DiT 和运动引导融合器 (MGF) 组成。TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动块。MGF 将运动块集成到 DiT 块中以生成遵循轨迹的一致视频。

我们的设计与 DiT 的可扩展性无缝契合,允许精确控制具有不同持续时间、宽高比和分辨率的视频内容的动态。大量实验证明,Tora 在实现高运动保真度方面非常出色,同时还能精细地模拟物理世界的运动。

方法

Tora 架构概述。为了实现轨迹控制的基于 DiT 的视频生成,我们引入了两个新模块:轨迹提取器和运动引导融合器。轨迹提取器采用 3D 运动 VAE 将轨迹向量嵌入到与视频块相同的潜在空间中,有效地保留连续帧之间的运动信息。随后,它使用堆叠的卷积层来提取分层运动特征。运动引导融合器利用自适应规范化层将这些多级运动条件无缝注入相应的 DiT 块,确保生成的视频始终遵循定义的轨迹。我们的方法与 DiT 的可扩展性相一致,能够创建高分辨率、运动可控且持续时间较长的视频。

效果

更多生成的样本。 Tora 可适应各种视觉条件,既包括单个起始帧,也包括初始帧和最终帧的组合(如第六行所示),并熟练地处理多个轨迹以精确操纵多个对象。它能够熟练地促进跨不同宽高比、分辨率和持续时间的视频生成,从而确保灵活且自适应的内容创建

轨迹控制的定性比较。 所有方法都能够生成遵循给定轨迹的物体。然而,Tora 不仅精确遵循指定的轨迹,而且还能产生更平滑的运动,符合物理世界。

结论

本文介绍了 Tora,这是第一个面向轨迹的 Diffusion Transformer 视频生成框架,它集成了文本、图像和轨迹条件。Tora 有效地将任意轨迹编码为时空运动块,与 DiT 的缩放属性一致,从而能够更真实地模拟物理世界的运动。

通过采用两阶段训练过程,Tora 实现了在各种持续时间、宽高比和分辨率范围内的运动可控视频生成。值得注意的是,它可以生成遵循指定轨迹的高质量视频,以 720p 分辨率生成最多 204 帧。此功能凸显了 Tora 在处理各种运动模式的同时保持高视觉保真度的多功能性和稳健性。我们希望我们的工作为未来运动引导的 Diffusion Transformer 方法的研究奠定坚实的基础。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

【声明】内容源于网络
0
0
AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
内容 876
粉丝 0
AIGC Studio 一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
总阅读44
粉丝0
内容876