阿里深夜开源发布了视频生成模型万相2.1(Wan2.1), 在 VBench 排行榜上排名 #1,超越 SOTA 开源和商业模型。
看下这次发布的 万相2.1 的亮点:
-
• 👉超越了众多开源和商业闭源视频模型,最高支持 720P 高清视频。 -
• 👉普通消费级 GPU 运行,最低只需要8GB显存。 -
• 👉支持多种任务:文本生成视频、图片生成视频、视频转音频、视频编辑等。 -
•
-
• 👉可以在视频中生成中英文字幕,这是目前大部分 AI 视频生成工具无法做到的。 -
• 👉生成的视频带有自然的运动感,不像早期 AI 视频那样有大量失真和伪影。 -
• 👉完全开源,Wan2.1 兼顾了视频质量、计算成本和开源优势
功能对比
Wan2.1 兼顾了视频质量、计算成本和开源优势,适合个人开发者和 AI 研究人员使用。
强大的 AI 变分自编码器(VAE)
Wan2.1 采用了先进的 3D 时空变分自编码器(3D VAE),能做到:
模型下载使用
大家可以访问网站探索和下载模型:
-
• Github: https://github.com/Wan-Video/Wan2.1[1] -
• HuggingFace: https://huggingface.co/Wan-AI[2]
大家可以下载模型和代码,使用 Gradio Web 界面本地运行:
python i2v_14B_singleGPU.py --ckpt_dir_720p ./Wan2.1-I2V-14B-720P
输入提示词点击生成就可以了(速度和电脑配置有关哦)
模型种类
开源的模型有 1.3B 和 14B 两个参数可选,
四个模型可生成不同质量的视频:
1.3B 的模型可以说是一个轻量级怪物,能用于创建 480P 5s 视频的 8.19GB VRAM, 评测中超越其他 5B 参数模型,甚至更大的模型...
Apache 2.0
最后着重提一下,Wan 2.1 通过采用最宽松的 Apache 2.0 协议进行开源, 任何人都可以自由地使用、修改并分发这些模型,对推动 AI 视频领域技术的发展具有不可估量的价值, 而之前仅仅关注文本生成大模型(比如 DeepSeek)的公司和个人只要有想法,就有可能。 对于中小企业和个人开发者无需承担高昂的研发成本即可获得先进的AI能力。
让我们拭目以待,AI界的天变了又变。
引用链接
[1]: https://github.com/Wan-Video/Wan2.1[2]: https://huggingface.co/Wan-AI
--- END ---

