2024 年 9 月,字节跳动发布了豆包视频生成大模型,包含两款型号:PixelDance 和 Seaweed。它们可以遵从复杂的用户提示词,精确理解语义关系,还能像电影画面一样按指令要求生成涉及多个角色交互的连贯动作。通过模型,用户仅需要输入一句简单的介绍或再加上一张图片,即可生成一个具备起承转合叙事能力的短片。
今天故事的主人翁,就是其中一款模型豆包视频生成——PixelDance 的发起者。加入字节跳动后,她不仅以第一作者的身份,让 5 篇论文登上了顶会,而且仅用了 4 个月,就从 0 训练出了视频生成模型,达到了当时已知的最佳效果。随后,她又让 AI 生成的视频首次具备完整的讲故事的能力。
加入字节跳动以来,她都经历了什么?又为何能够成长地如此迅速?跟字节君一起看看她的故事吧~

让研究成果登上顶会的校招生
2021 年年初,字节跳动人工智能相关部门负责人收到了一封来自加拿大的推荐信,来信者是计算机领域的一位优秀的科学家,信上言辞恳切,力荐自己的一位学生。他面试了这位学生,“反应很快,人很聪明,编程能力很强”。这是这位 Leader 对于小橙最初的印象。
2021 年 7 月,小橙研究生毕业,成为了字节跳动的一位校招生。入职后,她接手的第一个项目就颇有难度——解决多模态预训练的问题。这是在 2017 年之后,伴随 Transformer(基于注意力机制建立的模型)的诞生,计算机领域诞生的新议题。
在计算机语言里,“模态”是指表达或感知事物的方式,语音、语言、图像等都属于天然的、初始的模态,而情绪则属于抽象的模态;如果只谈单一的介质,就是“单一模态”,而小橙要做的“多模态”,则是希望让机器像人类一样“五感全开”,能够融合不同模态获取的信息进行综合判断。这样以来,所产生的产品就可以理解和处理更为复杂的内容。在这套技术之下,视觉语言的训练又是其基础。
这是初出校园的小橙从未接触过的领域,“当时真的是没自信”,小橙说。尽管如此,她还是迅速地学习这个领域的知识,并在团队内外寻找更有经验的前辈请教,但得到的答复往往是,“这个方向不好做”,“目前已有的效果已经很好了,很难再有新的创新”。
团队同学说的“效果好”,是指在现有的视觉语言理解模型里,机器已经可以相对精准的识别一张图片里的核心信息。“比如,当画面核心出现一个人,现有模型能非常容易地辨别图片中有人的出现。”
但她的 Leader 却觉得还有许多问题等待解答——机器虽然可以精准识别图片中的核心信息,但对其它信息的识别却做的不够好,比如当人物的背后出现了一辆红色的小汽车,或者其它更多背景要素,原有模型的分辨并不精准。“他一直鼓励我,不要畏难,要敢于啃硬骨头”,就这样,小橙开启了进入职场之后的第一项任务。

在原有的视觉语言理解模型里,当画面出现了一辆小汽车,并不能很好的识别
令所有人意外的是,仅用了一个多月,小橙就取得了突破。突破的核心在于,她原创了一种叫做“X-VLM”的新方法,可以将视觉语言进行更细粒度的预训练。在原有的模型里,所有的内容都是图片和文字进行的粗粒度对齐,小橙认为,引入细粒度的对齐会大大提升模型对于多模态内容的理解能力。因此,她重新设计了一种多粒度预训练的方法,引入了 Object Detection(目标检测)和 Visual Grounding(视觉定位)标注数据,从而大幅提升了预训练模型的多模态理解能力,在下游多个任务上取得了业界最高得分。
这样,这套语言模型就不止学习了粗粒度的图文对齐,还能顺便学习到更细粒度物体级别的对齐和区域级别的对齐。也就是说,这套模型不仅可以描述局部目标,还能对画面整体的把控都做到最佳。
使用了 X^2-VLM 方法后,这套视觉语言模型对画面中的要素理解能力大大增加
值得一提的是,由于这套新的方法设计巧妙,模型的规模也比较小,并没有增加太多的算力负担,从而可以运用在字节的多个产品线上,成为许多技术实现的底层。比如抖音电商、电商客服等等。
还有一项更具温度的应用也通过这套模型得以实现——因为可以精准识别图片内容,它帮助视障人士做到无障碍地读图。
这套新的解决方案把多模态视觉语言模型又带上了一个新的高度。取得研究成果后,小橙将全部代码开源,并将模型开放。此时,距离小橙加入字节,还不足半年。
后来,这套研究方法也被写成论文,被国际顶级会议 ICML 接收,第二版的 X^2-VLM 的论文也发表在了国际顶级期刊 TPALM 之上。

探索“视频生成”
在视觉语言理解取得了突破性进展之后,团队铆定了下一个目标:视频生成。
当时,业界对于视频生成的探索还非常早期。最早提出这个设想时,小橙的 Leader 觉得,虽然从未有人从 0 到 1 做成功过,“但我不觉得是不可实现的目标。”
为了达成目标,路径的设定是关键。是将视频理解和生成做到一个模型架构里,还是分成两个单独的模块来做,学界至今仍无定论。起初团队设想,目标要定的高一些,将视频的理解和生成用 Transformer(基于注意力机制建立的模型)做到一起,持续了一阵子,一直没能有太好的突破。一天,小橙突然找到 Leader,毛遂自荐,“我想清楚了,视频的理解和生成现阶段需要分开来做,要不然让我先试试?”
这位 Leader 同意了小橙的决策,过去一年多的共事让他相信小橙的判断力,而多模态的快速突破也让小橙获得了更多的自信。于是,小橙和另一位同学一起开始了视频生成的专项研究。
这又是一个从 0 起步的项目,视频的构成是一秒 24 帧,这 24 帧画面就相当于 24 张图,每张图之间需要有细密的关联度,从而让画面动起来,这意味着给到模型的文本描述的量级极大,标注成本极高。
在经过多次实验后,小橙觉得,现阶段从文字直接到视频还比较困难,这个问题必须进一步拆分。比如,给这个算法的指令如果同时包含文字和图片,是不是约束效果会更好?于是,她试着给这套算法一个指令,继而给它一张希望动起来的图,然后再给一张代表终止画面的图,“把画面的首尾都约束上,它就可以发挥两张图片之间的合理联想,让画面动起来。”
在各种训练数据都不够完备情况下,小橙开始了一步步触探。“观众在看到这个影片时想看什么?每个镜头该是怎样的?要怎么运镜?结束的时候希望是怎样的定格?我觉得自己做这个项目就好像一个导演。”
2023 年 10 月,小橙做的第一版视频生成模型诞生了。这是基于 Diffusion(扩散模型)实现的效果,如下图所示,红色框里是初始图片,绿色框里是希望达到的定格图片——如果用户希望一个水晶球变成一团带龙的火焰,给到它你希望达成的描述,整个画面就可以动起来了。
在这个模型里,给定文本的生成结果,第一帧指令用红色框突出显示,最后一帧指令用绿色框突出显示,画面中间的几帧就将合理的动起来。
当时,市面上所有的视频生成模型还局限于合成简单的场景,在视觉细节和运动动态上仍存在显著不足。小橙提出的结合图像输入的方法则显著提高了文本到视频的质量,这几乎是当时已知的文生视频能够做到的最好效果。小橙和几位参与训练的同事迅速把这一进展写成了论文并于 2023 年 11 月公布。随后,这篇论文入选了顶级会议 CVPR 2024。
“效果超出预期”,Leader 说,“我相信小橙能做的不错,但没想到能做的这么快”。在计算机科学里,找到关键路径往往是解决问题的第一步,这非常考验她的洞察力和逻辑,而她“非常享受找寻新的解决方案的过程”。

6 个月训练出新的大模型
在能让 AI 生成的视频“动起来”之后,怎样能让视频动地更好,并且能够尽可能的减少指令的复杂度,提升机器的语义理解程度,并让视频的镜头更丰富,成了小橙下个阶段要解决的主要问题。
2024 年 2 月 16 日,Open AI 在其官网发布其文生视频模型 Sora,震惊业界。当时还是春节假期,小橙的产品伙伴徐轶很快就收到了她的消息,“Sora 竟然能做到这种程度,我们也要加加速了。” 于是团队快速开始拆解和调整目标,“当时觉得我们策马狂奔用 6~9 个月也只能做到 Sora 的 80%,现在看来,当时想得保守了。”徐轶说。
为了达到 Sora 的技术高度,小橙和她的同伴们进行了多轮分析,认为现有的模型仍然具备一定的局限性。于是,又用了 6 个月时间,训练出了全新的视频生成大模型。相比原有的模型,这套全新的模型生成的场景更加细致,并具备学习复杂动态的能力,为创作者提供了更为高效广阔的创作工具。
迭代之路还在继续。很快,小橙就不满足于原有的“图片+文本”的指令方式,这对于没有图片编辑基础的用户来说,门槛还是高。原有的生成视频里,不管是对于指令的语义理解,还是生成时长,都还有优化空间。她进入了一种更为投入的研发状态。
有时,leader 一大早就会收到小橙发来的新思路,“她晚上做梦都在想,视频生成糊了怎么办,还有哪些地方还能再校准,说明她几乎是在全情的投入的。” 徐轶也时常会在周末突然收到她发来的链接,“在浏览社交网站的时候看到哪个画面,立刻发给我,说,你说这种效果咱们能不能实现?”
2024 年 10 月,小橙和团队进一步提升了模型效果,模型对语义的理解更加精准,实现支持文生视频和图生视频两种模式,同时模型生成的美感也达到业界较高水平。
小橙研发的模型生成的视频效果
Prompt:特写一个女人的面部。她有些生气地戴上了一副墨镜,一个男人从画面右侧走进来抱住了她
此时,小橙加入字节跳动也只有 3 年的时间。她的 Leader 看来,她已经呈现出了业界最优秀科学家的特质,“她可以敏锐地抓住机会,并最大程度地发挥自己的聪明才智。”她的产品伙伴徐轶也认为,“不管在创业公司还是大公司,这样的成长速度都是极快的”。
在小橙看来,其实是字节跳动给了她足够广阔的土壤去创新、去实现。“每当有新的技术方向,公司和 Leader 们都鼓励我们以最快的速度追赶上去,并给到最大的支持,如果是我自己在那个角色上,未必能做到这样果断。”
而像小橙这样的同学,在字节跳动不止一位,他们遍布在各个业务里,攻坚不同的项目,一次又一次突破自己。我们也期待更多优秀的同学加入我们,一起和优秀的人,做有挑战的事。







