亮点直击
Tora2,首个支持多实体定制化的视频扩散Transformer框架。如图1所示,Tora2 支持外观和运动轨迹的双重控制。引入了一种解耦的个性化提取器(Decoupled Personalization Extractor),用于学习开放集实体的细粒度个性化嵌入,从而提升多实体生成中的主体和面部相似度。 设计了一种新颖的绑定策略和对比学习方法,以确保实体、运动模式和文本描述的一致性与对齐表示。 实验评估表明,Tora2 在定制化任务上达到与最先进方法(SOTA)相竞争的性能,同时引入了先进的运动轨迹控制能力。
总结速览
解决的问题
-
多实体定制难题:现有方法主要针对单实体(如单个人或物体)进行外观或运动定制,难以同时控制多个实体的个性化外观和运动轨迹。 -
细节保真度不足:传统方法依赖低频全局特征(如DINOv2),导致高频细节(如人脸、物体纹理)丢失,影响生成内容的视觉一致性。 -
多模态条件对齐困难:在训练过程中,文本描述、运动轨迹和视觉信息之间的对齐存在偏差,导致生成视频的语义与运动不匹配。 -
架构局限性:现有工作多基于U-Net架构,难以适配新兴的Diffusion Transformer(DiT)模型,限制了生成能力和扩展性。
提出的方案
-
解耦个性化特征提取器(DPE): -
结合低频(全局特征)和高频细节(如人脸ReID网络、物体特征),生成更全面的个性化嵌入,提升多实体的外观保真度。 -
门控自注意力机制: -
动态融合轨迹、文本描述和视觉信息,确保多模态条件在训练中的对齐,减少语义-运动偏差。 -
对比学习框架: -
通过显式映射运动嵌入与个性化嵌入,联合优化轨迹动力学和实体一致性。 -
分层嵌入注入策略: -
运动嵌入通过自适应层归一化(AdaLN)注入扩散Transformer的早期阶段,而个性化嵌入通过独立的交叉注意力模块在后期引入,实现外观与运动的解耦控制。
应用的技术
-
扩散Transformer(DiT)架构:替代传统U-Net,支持多条件视频生成。 -
高频特征提取工具:人脸分析网络(如ArcFace)、ReID网络,增强细节保留能力。 -
Q-Former网络:将多模态特征转换为统一的个性化嵌入。 -
自适应层归一化(AdaLN):动态调制视频隐变量,适配运动控制。 -
对比学习损失:强化运动与实体外观的跨模态对齐。
达到的效果
-
多实体同步定制:首次实现同时对多个实体的外观和运动轨迹进行个性化控制。 -
细节保真度提升:高频特征的引入显著改善了人脸和物体纹理的生成质量(实验验证)。 -
运动-语义对齐优化:门控自注意力机制减少了多模态条件的训练偏差,生成视频更符合文本和轨迹输入。 -
性能竞争力:在MSRVTT-Personalization基准测试中超越现有方法(如Video Alchemist、Tora),同时支持更复杂的运动控制。 -
数据扩展性:整合110万视频片段的数据集,涵盖多样实体和运动模式,支撑模型训练。
方法论
本文的目标是实现多实体可控的视频生成,支持外观和轨迹条件控制。首先介绍Tora2,解释如何获取开放集实体的个性化嵌入、如何将其与实体词汇和轨迹关联,并作为条件注入。再描述训练数据集的构建过程。
Tora2
如下图2所示,Tora2是一个隐空间扩散Transformer,集成了实体和轨迹输入的提取与注入过程。在保留Tora轨迹条件架构的基础上,本文重点介绍其新颖的个性化表示提取方法和绑定策略,该策略将实体与相应的文本和轨迹条件关联起来。
开放集个性化嵌入提取。为确保模型能够高保真地处理多个实体,从概念图像 中提取准确的视觉表示至关重要。先前的研究通常使用CLIP或DINOv2图像编码器最后一层的输出作为个性化嵌入 。尽管这些特征包含鲁棒的语义信息,但缺乏足够的本质身份表示,这通常导致多实体生成的保真度不理想。此外,这些特征通常与扩散模型的表示空间对齐不足。
为解决这些限制,本文提出了一种解耦的个性化提取器。首先利用人脸识别和ReID主干网络分别提取针对人类和通用物体的强身份特征。解耦的合理性在于人眼对面部细节的敏感性,实验证明该方法在本文的场景中提高了面部相似性。随后,使用两个额外的外观适配器将这些高频特征投影到统一的特征空间。这些以身份为中心的特征随后与DINOv2图像编码器捕获的语义鲁棒特征拼接,从而形成全面的视觉表示。
其中 表示对应的预训练类别特定识别编码器, 表示外观适配器。为了更好与扩散Transformer对齐,本文整合了一个可学习的Q-Former架构,该架构由堆叠的交叉注意力层和前馈网络组成。综合视觉表示被用作键值库,Q-Former被用来为每个概念生成个性化嵌入。
该方法显著增强了模型在同时处理多个概念时保持高保真度的能力。
实体与词汇及轨迹的绑定。实证研究[5]表明,将视觉概念与其对应的文本描述解绑会导致多实体个性化中的错位问题。因此,使用线性投影将个性化嵌入与文本信息进行扩展。本文的框架将这一要求扩展到轨迹条件生成,需要实现实体、文本和运动轨迹之间的精确三模态对齐。通过门控自注意力机制来解决这一问题,确保定制实体沿指定轨迹的空间一致分配。
对于给定的个性化嵌入 ,它与由运动嵌入 和词汇标记 表征的轨迹相关联。其中 、 、 和 分别表示每张参考图像的标记数、轨迹标记数、文本标记数和标记维度。首先将这三个模态的标记进行拼接,随后采用集成两个门控机制的自注意力机制来促进跨模态交互:
其中 和 分别表示运动嵌入和个性化嵌入的门控机制。通过门控跨模态交互,它动态调节融合强度,为每个实体在外观保持、文本描述和运动对齐之间实现最佳平衡。
个性化和运动注入。如前面图2所示,运动条件通过运动引导融合器引入,该融合器采用自适应层归一化来调制视觉标记。经过运动归一化的视觉标记与文本标记拼接后,通过3D全注意力机制捕获文本描述与视觉元素之间的细粒度关系。为保留原始基础模型知识,我们应用额外的交叉注意力来促进个性化嵌入与视觉标记之间的交互。通过这种方式,在DiT块的不同位置注入三种模态条件,实现多实体的联合可控视频生成。
对比损失。本文还引入了双分支对比学习框架来加强实体与运动模式之间的跨模态对齐。对比目标强制实现三个特性:(1)通过正样本实体-运动配对实现语义-运动对应,(2)通过负样本实体-实体对实现概念间可区分性,(3)通过负样本运动-运动对实现运动轨迹区分。形式上,该损失可表示为
其中 表示温度超参数。该对称公式同时确保了实体特定的运动绑定,同时在联合隐空间中扩大不同个性化嵌入之间的分离度。最终,具体的扩散过程可表述为
其中 表示对比损失的权重。
数据收集
基于Video Alchemist和Tora,本文开发了一个两阶段的数据管理框架用于多实体运动学习。第一阶段严格筛选可能对物体运动训练产生负面影响或导致个性化模糊的原始视频,第二阶段构建精确的实体-文本-轨迹三元组,通过系统化标注生成110万条高保真训练样本。
视频过滤。本文的视频过滤流程包含多个细致步骤以确保适合个性化应用的高质量内容。首先剔除存在编码错误、分辨率低于720p或包含过多文字的短视频。随后基于美学评分 和光流评分进行质量评估,仅保留美学评分超过5分且光流评分超过2分的视频。为进一步优化选择,使用相机运动检测器 排除存在显著相机运动的视频,保持缩放检测阈值在0.4至0.6之间,可接受的相机运动角度范围为 、 、 。最后移除缺乏主语实体词或主语实体词为复数形式的视频以避免个性化歧义。这套综合过滤协议确保剩余视频具有高质量和内容清晰度,为后续分析流程奠定坚实基础。
视频标注。本文使用Qwen2.5-Max从字幕中提取名词。随后从视频首、中、尾各选取三帧,利用LISA提取实体掩码。LISA即使面对相似视觉外观和文本语义也能提供高精度分割结果。剔除过大、过小或高度破碎的掩码。以三帧掩码中心点为基础,通过两次CoTracker 获取更精确的运动轨迹。
实验
实验设置
实现细节。本文选择基于CogVideoX-5B的开源Tora-T2V版本初始化Tora2。训练阶段按照分类器无关引导,视频描述、参考条件和轨迹条件(包含配对图像、文本描述和轨迹点)的丢弃概率分别为50%、33%和33%。CogVideoX-5B模型的原始参数保持固定,其余参数进行微调以实现有效的运动和外观控制。轨迹提取器、运动引导融合器、Q-Former、外观适配器和门控自注意力层均参与联合优化。批次大小设为32,学习率设为 并使用AdamW优化器,总训练步数为15k步。对比损失权重设为0.2。推理阶段采用DPM采样器,采样步数50,文本引导系数6.0。
基准与指标
本文使用MSRVTT-Personalization基准评估当前方法,该基准包含2,130个手工标注的视频片段,涵盖单主体和多主体场景。此外,为消融研究,我们手动收集并标注200个包含多概念的在线视频。评估指标包括:
-
文本相似度(Text-S) :CLIP文本嵌入与生成帧特征的余弦相似度 -
视频相似度(Vid-S) :真实视频与生成视频的CLIP特征平均相似度 -
主体相似度(Subj-S) :基于Grounding-DINO的参考图像与生成主体区域的DINO特征对齐度 -
人脸相似度(Face-S) :参考人脸裁剪与YOLOv9-C检测区域的ArcFace-R100特征一致性 -
轨迹误差(TrajError) :CoTracker3预测轨迹与真实轨迹的平均L1距离
定性与定量分析
下表1展示定量评估结果。为消除基础模型差异带来的不公平比较,构建了基于Flux.1+Tora-I2V流程的基线方法。
在个性化条件方面,Tora2的主体相似度均值比Video Alchemist低1.1%,但人脸属性保留提升0.8%。尽管共享基础视频DiT架构,Tora2的运动条件训练范式相比Video Alchemist的个性化特征学习方法增加了复杂度。可比的个性化性能表明,DPE在运动条件联合优化下仍能有效捕获判别性身份特征。
在运动驱动生成场景中,Video Alchemist未提供轨迹精度评估实现,因其方法设计不涵盖该能力。Tora+Flux.1流程因分离控制的架构限制,在主体和身份保真度(尤其是面部区域)出现显著退化。虽然微调后的Flux.1模型能较好对齐首帧参考,但后续帧因缺乏持续个性化条件而劣化。值得注意的是,Tora2通过运动动态与概念表征的联合学习策略,在身份和运动条件任务中均取得更优生成质量指标。
下图3展示生成视频的对比分析。由于闭源限制,未包含Video Alchemist结果。Tora+Flux.1采用简单的外观-运动控制拼接策略,导致模态融合不佳,表现为长时序中实体一致性下降和轨迹区域过度偏移。Tora2则通过外观-运动条件的隐空间对齐,生成具有更优照片真实感、时序平滑性和身份保持的视频。
消融研究
本文使用200个标注视频进行消融实验。文本相似度、视频相似度和轨迹误差指标在物体和人体实体上取平均以提供统一评估。
个性化嵌入提取的不同设计
为评估解耦个性化编码器的有效性,本文对比了四种嵌入提取方法:(a) 使用DINOv2图像编码器的低频全局特征(如Video Alchemist);(b) 通过线性投影合并全局特征与ReID模型的高频特征;(c) 通过线性投影合并全局特征与ReID/人脸识别模型的解耦高频特征;(d) 采用本文DPE,通过Q-Former架构查询拼接嵌入。下图4和表2展示了定性与定量结果。
实验表明:DINOv2提取的语义特征能生成符合文本描述的实体,但难以传递面部表情等高阶细节。仅注入ReID模型的高频判别特征会导致训练不稳定,显著降低视觉保真度和文本指令遵循能力。解耦策略虽提升主体保真度,但MLP投影的token级交互不足导致文本指令执行偏差(如图4(c)中实体未按指令对视)。本文方法在所有指标上取得最优结果,证实了开放集个性化需要组合多类特征,且显式查询-关注机制显著优于简单特征拼接。
多模态特征绑定的效果
本文通过三种架构变体验证实体绑定机制:(a) 直接向DiT块注入个性化嵌入;(b) 沿通道维度拼接个性化嵌入、运动嵌入和文本特征后线性投影;(c) 本文门控自注意力机制动态调节三模态特征交互。
下表3显示,缺乏显式实体绑定的基线架构轨迹对齐偏移增加12.6像素,主体相似度下降1.5%。如下图5所示,无绑定策略时鸟的轨迹错误转为相机右移。线性投影变体虽能关联轨迹-实体-文本,但视频相似度下降1.0%(视频后半段猫和鸟出现形变)。本文门控注意力架构在保持保真度的同时实现了最优的实体-轨迹绑定。
对比损失的效果
下表4定量验证了我们的对比学习策略。通过优化隐空间中个性化嵌入与运动模式的相对距离,该方法在保证多实体属性解耦的同时,促进其在给定运动条件下的和谐融合,使轨迹跟踪精度提升约3.2像素偏移量,同时提高约1.0%的身份保持保真度。
运动与个性化嵌入注入顺序的消融
通过自适应层归一化和交叉注意力注入运动与个性化嵌入被证明是最有效的方式。我们在保持这些先进设计的同时探索特征注入顺序。下表5显示:过早注入个性化嵌入会轻微降低运动跟踪保真度,因为交叉注意力机制对风格化身份特征的过度激活会抑制运动轨迹语义在扩散过程中的传播。因此我们最终选择运动-文本-个性化的注入顺序,该安排确保:运动嵌入先建立时序动态,文本条件维持语义完整性,最后个性化嵌入在不牺牲轨迹精度的情况下增强外观特征。
结论
Tora2——一个支持多实体运动轨迹控制的统一视频生成框架。Tora2通过解耦个性化提取器,在Q-Former框架下融合语义特征与高频本质特征,实现开放集个性化嵌入提取;采用新颖的绑定策略关联视觉实体、运动轨迹与文本词汇,确保多实体间的协调控制。大量实验表明,Tora2在保持与最先进定制方法相当性能的同时,提供了更先进的运动轨迹控制能力,显著提升了可控视频生成的现有技术水平。
参考文献
[1] Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

