
01
引言
OpenAI在宣布推出首款视频模型 Sora 之后,AI视频生成模型快速占据了科技新闻的头条,Sora 模型只需简单的文本提示就能生成逼真的AI视频。
闲话少说,我们直接开始吧!
02
什么是Boximator?
Boximator 结合了 box 和 animator 两个词来描述其功能:使用用户自定义的方框对视频中的物体进行动画制作。该工具旨在让用户控制物体在视频中的移动方式,提供硬盒和软盒的混合运动控制。
该工具通过引入两种类型的约束框(硬框和软框)来实现对视频中对象位置、形状或运动路径的精细控制。
用户在视频的起始帧中使用硬框来选择和精确定位对象,这些硬框定义了对象的精确边界;对于宽松控制的场景,允许用户定义软框,这些软框定义了对象必须存在的大致区域,允许对象在该区域内自由移动。
03
工作原理
以下是Boximator生成视频的步骤:
-
对于数据集中的每个片段,都会提取第一帧,利用视觉语言模型生成图像描述。 -
然后,他们从这些描述中提取名词,比如 "年轻人 "或 "白衬衫"。 -
这些提示词被输入到预先训练好的grounding model和物体跟踪器中,以生成边界框并填充到视频的所有帧中。 
https://arxiv.org/pdf/2402.01566.pdf
04
效果展示
以下是本文公开DEMO网页上的效果展示:
https://boximator.github.io/
效果一:
“The kitten is hiding herself into the cup”
"小猫把自己藏进杯子里"

效果二:
“A dog is chasing a red ball.”
"一只狗在追一个红球"
效果三:
“A young woman is turning her head, revealing her face in profile.”
"一位年轻女子转过头,露出脸部轮廓"

05
与其他产品对比
下面的例子是与两种最流行的AI视频生成模型 Pika 1.0 和 Runway Gen2 的比较。
注:Pika 和 Gen2 使用图像和文本条件;Boximator 使用从文本提示中提取的附加作为框约束。
效果一:
Prompt: “Adding wine to a glass.”
提示:"向酒杯倒酒"

效果二:
Prompt: “Two raccoons in blue shirts are playing a ball, the left one is jumping up.”
提示:"两只穿蓝衬衫的浣熊在玩球 左边那只跳起来了"

从这些示例中可以明显看出,添加额外的控制可以增强视频效果。Boximator 生成的视频比 Pika 和 Gen2 生成的视频更具感染力。
06
如何使用?
演示试用网站目前尚未对公众开放。据创建者称,该网站将在未来几个月内推出。
Our demo website is under development and will be available
in the next 2–3 months.
We will attach the demo link on this website once the demo is ready.
我们的演示网站正在开发中,将在未来 2-3 个月内推出。一旦演示完成,我们将在本网站上附上演示链接。
如果你真的想试试 Boximator,可以发送电子邮件至
wangjiawei.424@bytedance.com,
将输入的图片和文字提示发送给他们,然后他们会回复生成的视频。
点击上方小卡片关注我
新年寄语:
所求皆如愿,
所行皆坦途。
多喜乐,长安宁。

