大数跨境
0
0

Z Research|视频生成大爆发:技术路线收敛,中国团队后发而先至,快手可灵和Minimax赶超Sora

Z Research|视频生成大爆发:技术路线收敛,中国团队后发而先至,快手可灵和Minimax赶超Sora Z Potentials
2024-10-18
270
导读:短视频之后,华人团队全球化的新战场?

AI视频生成技术演进与产业竞争格局

从技术爆发到生态成型,AI视频生成进入商业化临界点

  • 2023年成为AI视频生成突破年,OpenAI Sora、快手Kling AI、Minimax海螺等模型推动技术成熟,实现长视频生成、高清输出等关键突破。
  • Sora核心团队仅15人,依托DiT架构实现视觉扩展体系,Transformer可扩展性助力模型从海量数据中学习复杂视频关系。
  • 科技巨头、创业公司和开源项目共同驱动技术发展,形成底层研发到应用落地的完整生态布局。
  • 国内AI视频模型性能超越国际竞品,快手Kling AI生成两分钟视频,Minimax海螺支持原生1280×720高清输出。

视频生成(Video Generation)指通过算法合成连续视觉内容,模拟人类视觉行为满足创意需求。2023年a16z指出该领域迎来爆发,文本生成视频产品从无到有涌现数十个,虽存在质量波动,但技术迭代速度惊人。2024年预测将突破控制性、时间一致性及视频时长瓶颈。

OpenAI 2024年发布的Sora模型采用DiT架构,在动态场景3D一致性和长时依赖处理上表现卓越,成为先进视频生成模型代表。Google Veo支持自然语言提示生成超一分钟1080P视频,具备航拍、延时摄影等电影级镜头能力。

中国企业在视频生成赛道后发先至:快手Kling AI集成于Kwaiying应用,可生成两分钟高质量视频;字节推出PixelDance和Seaweed模型,支持多摄像头控制及3D动画创作;Minimax海螺AI abab-video-1在人体动作流畅度和逼真度上超越Runway等国际竞品。

2023全年多家机构推进技术创新:

  • Meta Make-A-Video加速训练流程,无需文本-视频配对数据
  • Runway Gen-1/Gen-2实现场景风格化和零参考生成
  • NVIDIA Video LDM解决高分辨率视频生成的计算内存瓶颈
  • Stability AI Stable Animation提供文本+图像/视频三重输入模式
  • 腾讯VideoCraft生成1024×576电影级T2V/I2V视频
  • 阿里提出“Animate Anything”保持角色时间一致性框架
  • 字节PixelDance利用WebVid-10M数据集训练出1.5B参数高性能模型
  • Google W.A.L.T和VideoPoet提升多模态视频生成能力
  • Meta Fairy跨帧注意力机制实现极速视频合成

行业竞争呈现三大主力阵营特征:

  • 科技大厂依托资金、算力、人才优势构建全栈技术体系,Meta、Google、腾讯等持续输出高质量研究成果,生态整合能力强但创新速度受限
  • 开源项目推动普惠化应用,提供灵活可定制的共享协作平台,《Align your Latents》《AnimateDiff》等论文促进技术普及
  • 创业公司以敏捷创新占据市场窗口,海外如Runway、Pika Labs凭借画质与创意领先,国内Minimax海螺AI在运动场景展现越级表现

AI视频生成领域创业公司与技术先锋深度解析

创业公司的挑战与机遇

创业公司在AI视频生成领域面临寻找产品市场契合度、提升视频一致性、降低算力成本、提高推理速度以及商业化等挑战。然而,它们的快速发展已证明了在这一领域的巨大影响力和市场潜力。

技术先驱:OpenAI-Sora

团队构成

  • 项目负责人:Bill Peebles和Tim Brooks
    • Bill Peebles:OpenAI研究科学家,专注于视频生成和世界模拟,在伯克利AI研究所完成博士学位,曾与谢赛宁合作开发DiT模型,被ICCV 2023录用为Oral论文。
    • Tim Brooks:同样担任Sora项目的领导者,此前专注于图像编辑领域的AI模型(如InstructPix2Pix),加入OpenAI后参与DALL-E 3及Sora工作。
  • 系统负责人:Connor Holmes,负责Sora项目的基础设施开发。
  • 核心贡献者:12人组成的核心团队中包含3位华人——Yufei Guo、Li Jing和Ricky Wang,其他成员包括Clarence Ng、David Schnurr、Eric Luhman、Joe Taylor、Natalie Summers、Rohan Sahai、Ryan O'Rourke、Troy Luhman、Will DePue。

技术创新点

  • DiT架构:融合扩散模型与Transformer优势,替代传统U-Net架构;扩散模型用于数据生成过程,而Transformer则提供良好的可扩展性。
  • 统一视觉表示:处理压缩视频中的时空块单元,确保生成视频质量稳定。
  • 新兴仿真能力:维持时间空间一致性的基础上,模拟逼真3D场景及物理现象。
  • 灵活输入方式:支持文本、图像或视频片段等多种形式的输入。

局限性

尽管Sora在生成复杂对象方面有所突破,但仍存在物体持久存在性和更复杂互动方面的不足。

产品展示

自2024年2月发布以来,Sora持续处于内测阶段。官网展示视频表明其在视频清晰度和细节保真度方面有显著提升。

后起之秀:快手、Minimax

快手-可灵

快手推出的可灵版本经过升级,在画质(1080p)、画面动态性、与Prompt一致性等方面均有明显改善,尽管生成时间较长但结果令人满意。

Minimax-海螺AI视频

MiniMax发布的abab-video-1模型嵌入于海螺 AI网页版中,通过测试发现其在完成度、清晰度及细节把控上表现出色。

总结

结合海内外用户的体验反馈来看,目前国产两大模型——可灵与海螺,在AI视频生成领域堪称继Sora之后的新星,展现了中国制造的实力。
【声明】内容源于网络
0
0
Z Potentials
我们与Z Potentials同频共振
内容 1723
粉丝 0
Z Potentials 我们与Z Potentials同频共振
总阅读25.2k
粉丝0
内容1.7k