

Stable Video Diffusion：开源AI视频生成大模型效果如何？

数翼

2024-03-04

导读：来看看文生图模型 Stable Diffusion 所属公司 stability.ai 在AI视频生成上发展的如何。并探讨下新模型 SVD 和传统 SD 生成视频的区别。

来看看文生图模型 Stable Diffusion 所属公司 stability.ai 在AI视频生成上发展的如何。并探讨下新模型 SVD 和传统 SD 生成视频的区别。

先放一个视频，文末还有更多示例。

说到文生图，大家可能想到最牛的是 Midjourney，说到开源的文生图，好像大家只能想到 Stable Diffusion，而网上各路大神训练的模型几乎都是基于 StableDiffusion。

Stable Diffusion 则是属于 Stability.AI 公司的，前段时间还发布了 SD3。作为文生图世界的王者不说，我们今天聊一聊它在文生视频上的进展。

Stable Video Diffusion

stability.ai 公司的文生视频产品叫做 Stable Video Diffusion（简称 SVD），可以参考他的官网的介绍^[1]。

Stable Video Diffusion 23 年 11 月份就已经发布了哦。

stable-video-diffusion-img2vid-xt

这是一个图片到视频的模型，已经开源，可以在 HuggingFace 上下载 stable-video-diffusion-img2vid-xt^[2]。

官方还吧模型和流行的AI视频工具 Runway Gen2 和 PikaLabs 做了对比。

在 25帧的视频上，视频质量是优于 Gen2 和 PikaLabs，在 15帧的视频上，和 Gen2 相当，优于 PikaLabs。

更详细的信息可以阅读 Stable Video Diffusion 论文^[3]。

SVD 的限制

• 只能生成 2-5 秒的视频
• 最多 30 帧
• 无法控制文字

和 SD 插件生成视频的区别

在 SVD 出现之前，我们其实已经看到过很多AI制作的视频，他们大多的制作方式都是生成一张张的图片，然后一帧帧的拼接起来。

下面看看，SVD 这个方案和传统的 SD + 插件方式生成视频的不同。

生成方式不同

Stable Video Diffusion 模型是直接生成视频，而Stable Diffusion模型是生成一张张图片，然后再将这些图片合成视频。

模型结构不同

Stable Video Diffusion模型是一个多阶段训练的模型，包括图像预训练、视频预训练和高质量视频微调。而Stable Diffusion模型是一个单阶段训练的模型。

生成效果不同

Stable Video Diffusion模型生成的视频通常具有更高的质量和流畅性，而Stable Diffusion模型生成的视频可能会出现卡顿、闪烁等问题。

SVD 效果

最后我们看一下 Stable Video Diffusion 的视频效果。

引用链接

[1] 官网的介绍: https://stability.ai/news/stable-video-diffusion-open-ai-video-model
[2] stable-video-diffusion-img2vid-xt: https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt
[3] Stable Video Diffusion 论文: https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf

--- END ---

【声明】内容源于网络

数翼

专注 AIGC 人工智能知识传播和实践

内容 228

粉丝 0

数翼专注 AIGC 人工智能知识传播和实践

总阅读124

粉丝0

内容228