



阿里万相 2.1 开源
视频生成领域的新变革

Generate a video


在人工智能技术飞速发展的今天,2025 年 2 月 25 日无疑是一个值得铭记的日子。这一天,AI 领域热闹非凡,凌晨 Claude 发布了 Sonnet3.7 版本,白天 DeepSeek 开源了 DeepEP 代码库,而到了晚上,阿里的最新视频生成模型 Wan2.1(万相 2.1)惊艳亮相,引发全球 AI 圈的广泛关注。

相比于代码能力更强的语言模型,或是让开发者兴奋的底层代码库,万相 2.1 这样的视频生成模型显然更能抓住普通人的眼球。秉持着 “能开尽开” 的风格,阿里此次开源了 14B 和 1.3B 两个参数的全部推理代码和权重,同时支持文生视频和图生视频任务,全球开发者可在 Github、HuggingFace 和魔搭社区下载体验。并且,采用最宽松的 Apache2.0 协议,意味着生成的内容版权完全归开发者所有,可用于免费渠道,也能商用。

在权威评测集 VBench 中,万相 2.1 以总分 86.22% 的成绩大幅超越 Sora、Luma、Pika 等国内外开源模型,稳居榜首,展现出强大的实力。那么,它的实际效果究竟如何?

在模型实测环节,通义万相里的 2.1 极速版和专业版(均为 14B)各有特点。极速版生成速度约 4 分钟,专业版生成速度较慢,约 1 小时,但效果更稳定。在文生视频方面,专业版对文本理解更精确,画面清晰度更高,但两者生成的视频画面都存在明显变形,对物理世界细节理解有欠缺。例如输入 “参考盗梦空间拍摄方式,俯拍广角镜头,酒店走廊以每秒 15 度角持续旋转,两位西装特工在墙壁与天花板间翻滚格斗,领带受离心力影响呈 45 度飘起。顶灯碎片随重力方向错乱飞溅” 这样的提示词时,能明显看出视频的不足。而图生视频效果比较稳定,人物一致性较高,无明显变形,但对提示词理解不完整,缺少细节。

如输入 “油画风格,一位穿着朴素的少女拿出一杯珍珠奶茶,轻启朱唇缓缓品尝,动作优雅从容。画面背景是一片深邃的暗色调,仅有的光线聚焦在少女脸上,营造出神秘而宁静的氛围。近景,侧脸特写”,生成的珍珠奶茶里可能没有珍珠。

万相 2.1 虽存在一定不足,但在技术创新方面可圈可点。在算法设计上,基于主流 DiT 架构和线性噪声轨迹 Flow Matching,它提出了新颖的 3D 时空变分自动编码器(VAE)——Wan-VAE。通过组合多种策略改进时空压缩,减少内存使用,就像把一本《三国演义》压缩成大纲,降低内存占用的同时能记住更长内容。这一技术创新解决了传统视频生成模型计算量大、生成时间长、内存耗费高、长视频生产难等工程化难题,使得万相可以跑在消费级显卡上,且生成速度快,画质不缩水。

此外,万相在生成效果上也有优化。它允许用户通过文本、关键点或简单草图控制视频中物体的运动方式,将用户输入的运动轨迹转化为数学模型,结合物理引擎计算结果,提升运动真实性。

总的来说,万相 2.1 语义理解和物理表现有待提高,但整体审美在线。全面开源的策略打破了视频模型付费的商业模式,降低了视频创作门槛。随着后续的优化更新,相信万相 2.1 将在视频生成赛道上带来更多惊喜,推动整个行业的发展。2025 年,在万相 2.1 的带动下,视频生成领域必将好戏连台,让我们拭目以待。

END


