Z Research｜视频生成大爆发：技术路线收敛，中国团队后发而先至，快手可灵和Minimax赶超Sora

Z Potentials

2024-10-18

270

导读：短视频之后，华人团队全球化的新战场？

AI视频生成技术演进与产业竞争格局

视频生成（Video Generation）指通过算法合成连续视觉内容，模拟人类视觉行为满足创意需求。2023年a16z指出该领域迎来爆发，文本生成视频产品从无到有涌现数十个，虽存在质量波动，但技术迭代速度惊人。2024年预测将突破控制性、时间一致性及视频时长瓶颈。

OpenAI 2024年发布的Sora模型采用DiT架构，在动态场景3D一致性和长时依赖处理上表现卓越，成为先进视频生成模型代表。Google Veo支持自然语言提示生成超一分钟1080P视频，具备航拍、延时摄影等电影级镜头能力。

中国企业在视频生成赛道后发先至：快手Kling AI集成于Kwaiying应用，可生成两分钟高质量视频；字节推出PixelDance和Seaweed模型，支持多摄像头控制及3D动画创作；Minimax海螺AI abab-video-1在人体动作流畅度和逼真度上超越Runway等国际竞品。

2023全年多家机构推进技术创新：

行业竞争呈现三大主力阵营特征：

创业公司在AI视频生成领域面临寻找产品市场契合度、提升视频一致性、降低算力成本、提高推理速度以及商业化等挑战。然而，它们的快速发展已证明了在这一领域的巨大影响力和市场潜力。

Bill Peebles：OpenAI研究科学家，专注于视频生成和世界模拟，在伯克利AI研究所完成博士学位，曾与谢赛宁合作开发DiT模型，被ICCV 2023录用为Oral论文。
Tim Brooks：同样担任Sora项目的领导者，此前专注于图像编辑领域的AI模型（如InstructPix2Pix），加入OpenAI后参与DALL-E 3及Sora工作。

系统负责人：Connor Holmes，负责Sora项目的基础设施开发。
核心贡献者：12人组成的核心团队中包含3位华人——Yufei Guo、Li Jing和Ricky Wang，其他成员包括Clarence Ng、David Schnurr、Eric Luhman、Joe Taylor、Natalie Summers、Rohan Sahai、Ryan O'Rourke、Troy Luhman、Will DePue。

尽管Sora在生成复杂对象方面有所突破，但仍存在物体持久存在性和更复杂互动方面的不足。

自2024年2月发布以来，Sora持续处于内测阶段。官网展示视频表明其在视频清晰度和细节保真度方面有显著提升。

快手推出的可灵版本经过升级，在画质(1080p)、画面动态性、与Prompt一致性等方面均有明显改善，尽管生成时间较长但结果令人满意。

MiniMax发布的abab-video-1模型嵌入于海螺 AI网页版中，通过测试发现其在完成度、清晰度及细节把控上表现出色。

结合海内外用户的体验反馈来看，目前国产两大模型——可灵与海螺，在AI视频生成领域堪称继Sora之后的新星，展现了中国制造的实力。

【声明】内容源于网络

Z Potentials

我们与Z Potentials同频共振

内容 1723

粉丝 0

Z Potentials 我们与Z Potentials同频共振

总阅读25.2k

粉丝0

内容1.7k