▷菜单栏点击「干货在这」◁免费领取海量AI绘画深度教程 公众号最近叕改版啦~将本号设为⭐星标才能接收到我们的文章 继9月份推出的音频生成大模型之后,当地时间11月22日,知名AI图像生成模型开发商Stability AI又发布了旗下首款视频生成大模型——Stable Video Diffusion。 这款模型能够通过图像生成视频,基于Stable Diffusion文本生图像模型的延伸。目前市面上的优秀“图生视频”模型还比较罕见,这条赛道上的玩家还不算太多,比较有名气就是Runway以及Pika AI。Stable Video Diffusion的入场将对现在赛道上的老玩家产生一些挑战。随Stable Video Diffusion一起还有一份研究白皮书。Stability AI将Stable Video Diffusion直接与目前业内的领跑者Runway以及Pika做了对比。
在于竞品的对比当中,官方表示,Stable Video Diffusion以同样的提示词生成视频的主观偏好性测评上,「战胜」了前边提及的两款业内更有名气的大模型。
Stable Video Diffusion目前处于所谓的“研究开发”阶段,Stable Video Diffusion对于内测体验用户设定了预期的应用场景。比如美学教育、视觉创意生成、平面设计和其他艺术创作过程等等,总之就是“用于正道”。其他非预期内的场景,比如对公众人物或公开事件的事实性杜撰编造,或者对人性负面的真实表达,都将违反大模型的生成规定。通过Stable Video Diffusion将👆🏻上面这张锦鲤图片转化为动态图像。Stable Video Diffusion实际上是由两个模型组成——SVD和SVD-XT。SVD可以将静态图片转化为14帧的576×1024分辨率视频;SVD-XT使用相同的架构,可以将帧数提高到24帧,两者都能以每秒3~30帧的速度生成4秒钟长度的短视频视频。SVD和SVD-XT都能生成质量较高的4秒钟视频,从精心挑选的样片来看,完全可以与Meta、谷歌等大厂开发的视频生成模型,以及Runway和Pika Labs的AI生成视频相媲美。官方还放出了一些生成的样片供以参考: 不过,Stable Video Diffusion也有其局限性。Stability AI官方坦诚表示:目前的模型暂时不能生成没有主体对象的图像实现摄像机平移走位的视频;也不能通过文本提示词对细节进行控制;也不能生成正常渲染的文字内容;无法生成正常的人脸面部等等。虽然还是早期阶段,但是Stability AI也指出,大模型具备较好的扩展性,可以针对指定的物体生成360°的环绕视角视频。经过实际测评,作为一款刚刚诞生的大模型,还有许多需要完善和成熟的地方。我们发现其中有几个当前比较突出的缺陷: 1️⃣与SDXL图像生成有类似的问题,生成的视频质感比较粗糙,“一眼AI”;2️⃣运行大模型需要的GPU条件较高,远高于Runway等竞品;3️⃣暂不支持提示词控制画面以及局部微调,竞品已经跑在前边。有国外开发者将Stable Video Diffusion的开源代码做成了在线体验页面。他尝试生成了一则超跑行驶的短视频,看起来还不错的样子。🆓以下是免费在线体验链接——复制粘贴到浏览器打开页面后,点击【代码执行程序】-【全部运行】,等代码加载成功后,即可在线体验生成短视频:https://colab.research.google.com/github/mkshing/notebooks/blob/main/stable_video_diffusion_img2vid.ipynb在线生成不需要本地高性能GPU参与渲染,感兴趣的家人们可以体验一下。