阿里万相 2.1 开源，视频生成领域的新变革- 大数跨境

首页

阿里万相 2.1 开源，视频生成领域的新变革

元龙数字智能科技

2025-02-27

阿里万相 2.1 开源

视频生成领域的新变革

Generate a video

在人工智能技术飞速发展的今天，2025 年 2 月 25 日无疑是一个值得铭记的日子。这一天，AI 领域热闹非凡，凌晨 Claude 发布了 Sonnet3.7 版本，白天 DeepSeek 开源了 DeepEP 代码库，而到了晚上，阿里的最新视频生成模型 Wan2.1（万相 2.1）惊艳亮相，引发全球 AI 圈的广泛关注。

相比于代码能力更强的语言模型，或是让开发者兴奋的底层代码库，万相 2.1 这样的视频生成模型显然更能抓住普通人的眼球。秉持着 “能开尽开” 的风格，阿里此次开源了 14B 和 1.3B 两个参数的全部推理代码和权重，同时支持文生视频和图生视频任务，全球开发者可在 Github、HuggingFace 和魔搭社区下载体验。并且，采用最宽松的 Apache2.0 协议，意味着生成的内容版权完全归开发者所有，可用于免费渠道，也能商用。

在权威评测集 VBench 中，万相 2.1 以总分 86.22% 的成绩大幅超越 Sora、Luma、Pika 等国内外开源模型，稳居榜首，展现出强大的实力。那么，它的实际效果究竟如何？

在模型实测环节，通义万相里的 2.1 极速版和专业版（均为 14B）各有特点。极速版生成速度约 4 分钟，专业版生成速度较慢，约 1 小时，但效果更稳定。在文生视频方面，专业版对文本理解更精确，画面清晰度更高，但两者生成的视频画面都存在明显变形，对物理世界细节理解有欠缺。例如输入 “参考盗梦空间拍摄方式，俯拍广角镜头，酒店走廊以每秒 15 度角持续旋转，两位西装特工在墙壁与天花板间翻滚格斗，领带受离心力影响呈 45 度飘起。顶灯碎片随重力方向错乱飞溅” 这样的提示词时，能明显看出视频的不足。而图生视频效果比较稳定，人物一致性较高，无明显变形，但对提示词理解不完整，缺少细节。

如输入 “油画风格，一位穿着朴素的少女拿出一杯珍珠奶茶，轻启朱唇缓缓品尝，动作优雅从容。画面背景是一片深邃的暗色调，仅有的光线聚焦在少女脸上，营造出神秘而宁静的氛围。近景，侧脸特写”，生成的珍珠奶茶里可能没有珍珠。

万相 2.1 虽存在一定不足，但在技术创新方面可圈可点。在算法设计上，基于主流 DiT 架构和线性噪声轨迹 Flow Matching，它提出了新颖的 3D 时空变分自动编码器（VAE）——Wan-VAE。通过组合多种策略改进时空压缩，减少内存使用，就像把一本《三国演义》压缩成大纲，降低内存占用的同时能记住更长内容。这一技术创新解决了传统视频生成模型计算量大、生成时间长、内存耗费高、长视频生产难等工程化难题，使得万相可以跑在消费级显卡上，且生成速度快，画质不缩水。

此外，万相在生成效果上也有优化。它允许用户通过文本、关键点或简单草图控制视频中物体的运动方式，将用户输入的运动轨迹转化为数学模型，结合物理引擎计算结果，提升运动真实性。

总的来说，万相 2.1 语义理解和物理表现有待提高，但整体审美在线。全面开源的策略打破了视频模型付费的商业模式，降低了视频创作门槛。随着后续的优化更新，相信万相 2.1 将在视频生成赛道上带来更多惊喜，推动整个行业的发展。2025 年，在万相 2.1 的带动下，视频生成领域必将好戏连台，让我们拭目以待。

END

【声明】内容源于网络

元龙数字智能科技

永做第一使命第一向善第一

内容 901

粉丝 0

元龙数字智能科技永做第一使命第一向善第一

总阅读730

粉丝0

内容901