大数跨境
0
0

Stable Video Diffusion:开源AI视频生成大模型效果如何?

Stable Video Diffusion:开源AI视频生成大模型效果如何? 数翼
2024-03-04
2
导读:来看看文生图模型 Stable Diffusion 所属公司 stability.ai 在AI视频生成上发展的如何。 并探讨下新模型 SVD 和 传统 SD 生成视频的区别。

来看看文生图模型 Stable Diffusion 所属公司 stability.ai 在AI视频生成上发展的如何。并探讨下新模型 SVD 和 传统 SD 生成视频的区别。

先放一个视频,文末还有更多示例。

说到文生图,大家可能想到最牛的是 Midjourney,说到开源的文生图,好像大家只能 想到 Stable Diffusion,而网上各路大神训练的模型几乎都是基于 StableDiffusion。

Stable Diffusion 各式各样的模型

Stable Diffusion 则是属于 Stability.AI 公司的, 前段时间还发布了 SD3。作为文生图世界的王者不说,我们今天聊一聊 它在文生视频上的进展。

Stable Video Diffusion

stability.ai 公司的文生视频产品叫做 Stable Video Diffusion(简称 SVD), 可以参考他的官网的介绍[1]

Stable Video Diffusion 23 年 11 月份就已经发布了哦。

stable-video-diffusion-img2vid-xt

这是一个图片到视频的模型,已经开源,可以在 HuggingFace 上下载 stable-video-diffusion-img2vid-xt[2]

官方还吧模型和流行的AI视频工具 Runway Gen2 和 PikaLabs 做了对比。

在 25帧的视频上,视频质量是优于 Gen2 和 PikaLabs,在 15帧的视频上,和 Gen2 相当, 优于 PikaLabs。

更详细的信息可以阅读 Stable Video Diffusion 论文[3]

SVD 的限制

  • • 只能生成 2-5 秒的视频

  • • 最多 30 帧

  • • 无法控制文字

和 SD 插件生成视频的区别

在 SVD 出现之前,我们其实已经看到过很多AI制作的视频,他们大多的制作方式都是 生成一张张的图片,然后一帧帧的拼接起来。

下面看看,SVD 这个方案和传统的 SD + 插件方式生成视频的不同。

生成方式不同

Stable Video Diffusion 模型是直接生成视频, 而Stable Diffusion模型是生成一张张图片,然后再将这些图片合成视频。

模型结构不同

Stable Video Diffusion模型是一个多阶段训练的模型, 包括图像预训练、视频预训练和高质量视频微调。而Stable Diffusion模型是一个单阶段训练的模型。

生成效果不同

Stable Video Diffusion模型生成的视频通常具有更高的质量和流畅性, 而Stable Diffusion模型生成的视频可能会出现卡顿、闪烁等问题。

SVD 效果

最后我们看一下 Stable Video Diffusion 的视频效果。

引用链接

[1] 官网的介绍: https://stability.ai/news/stable-video-diffusion-open-ai-video-model
[2] stable-video-diffusion-img2vid-xt: https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt
[3] Stable Video Diffusion 论文: https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf



--- END ---


【声明】内容源于网络
0
0
数翼
专注 AIGC 人工智能知识传播和实践
内容 228
粉丝 0
数翼 专注 AIGC 人工智能知识传播和实践
总阅读124
粉丝0
内容228