

字节跳动视频生成大模型Boximator介绍

AI算法之道

2024-02-27

导读：OpenAI在宣布推出首款视频模型 Sora 之后，AI视频生成模型快速占据了科技新闻的头条，Sora 模型只需简单的文本提示就能生成逼真的AI视频。字节跳动公司发布了他们自己的视频生成模型Boxim

引言

OpenAI在宣布推出首款视频模型 Sora 之后，AI视频生成模型快速占据了科技新闻的头条，Sora 模型只需简单的文本提示就能生成逼真的AI视频。

最近，字节跳动公司发布了他们自己的视频生成模型Boximator，可以将静态图片转换成视频。

闲话少说，我们直接开始吧！

什么是Boximator？

Boximator 结合了 box 和 animator 两个词来描述其功能：使用用户自定义的方框对视频中的物体进行动画制作。该工具旨在让用户控制物体在视频中的移动方式，提供硬盒和软盒的混合运动控制。

该工具通过引入两种类型的约束框（硬框和软框）来实现对视频中对象位置、形状或运动路径的精细控制。

用户在视频的起始帧中使用硬框来选择和精确定位对象，这些硬框定义了对象的精确边界；对于宽松控制的场景，允许用户定义软框，这些软框定义了对象必须存在的大致区域，允许对象在该区域内自由移动。

工作原理

以下是Boximator生成视频的步骤：

对于数据集中的每个片段，都会提取第一帧，利用视觉语言模型生成图像描述。
然后，他们从这些描述中提取名词，比如 "年轻人 "或 "白衬衫"。
这些提示词被输入到预先训练好的grounding model和物体跟踪器中，以生成边界框并填充到视频的所有帧中。

该模型的网络结构如下所示：

在视频扩散模型的每个空间注意力块中，都有两个叠加的注意力层：a spatial self-attention Layer and a spatial cross-attention Layer。想要了解更多详细细节，可以阅读论文。

https://arxiv.org/pdf/2402.01566.pdf

效果展示

以下是本文公开DEMO网页上的效果展示：

https://boximator.github.io/

效果一：

“The kitten is hiding herself into the cup”

"小猫把自己藏进杯子里"
‍

效果二：

“A dog is chasing a red ball.”

"一只狗在追一个红球"

效果三：

“A young woman is turning her head, revealing her face in profile.”

"一位年轻女子转过头，露出脸部轮廓"

与其他产品对比

下面的例子是与两种最流行的AI视频生成模型 Pika 1.0 和 Runway Gen2 的比较。

注：Pika 和 Gen2 使用图像和文本条件；Boximator 使用从文本提示中提取的附加作为框约束。

效果一：

Prompt: “Adding wine to a glass.”

提示："向酒杯倒酒"

Boximator（左）、Pika 1.0（中）、Gen2（右）

效果二：

Prompt: “Two raccoons in blue shirts are playing a ball, the left one is jumping up.”

提示："两只穿蓝衬衫的浣熊在玩球左边那只跳起来了"

Boximator（左）、Pika 1.0（中）、Gen2（右）

从这些示例中可以明显看出，添加额外的控制可以增强视频效果。Boximator 生成的视频比 Pika 和 Gen2 生成的视频更具感染力。

‍

如何使用？

演示试用网站目前尚未对公众开放。据创建者称，该网站将在未来几个月内推出。

Our demo website is under development and will be available

in the next 2–3 months.

We will attach the demo link on this website once the demo is ready.

我们的演示网站正在开发中，将在未来 2-3 个月内推出。一旦演示完成，我们将在本网站上附上演示链接。

如果你真的想试试 Boximator，可以发送电子邮件至

wangjiawei.424@bytedance.com，

将输入的图片和文字提示发送给他们，然后他们会回复生成的视频。

点击上方小卡片关注我

新年寄语：

所求皆如愿，

所行皆坦途。

多喜乐，长安宁。

【声明】内容源于网络

AI算法之道

一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

内容 573

粉丝 0

AI算法之道一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

总阅读148

粉丝0

内容573