大数跨境
0
0

Adobe联合剑桥大学提出 SpaceTimePilot:让视频模型第一次真正拥有时空解耦控制

Adobe联合剑桥大学提出 SpaceTimePilot:让视频模型第一次真正拥有时空解耦控制 AIGC 深一度
2026-01-05
7
导读:Adobe联合剑桥大学提出 SpaceTimePilot:让视频模型第一次真正拥有时空解耦控制

1. 论文基本信息

论文英文标题: SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time
作者: Zhening Huang, Hyeonho Jeong, Xuelin Chen, Yulia Gryaditskaya, Tuanfeng Y. Wang, Joan Lasenby, Chun-Hao Huang
机构: 剑桥大学(University of Cambridge)和 Adobe Research

2. 论文总结和创新点

SpaceTimePilot 是首个能够解耦空间和时间控制的视频扩散模型,从单目视频输入中生成具有连续性和一致性的新视频,支持任意相机轨迹和时序控制(如慢动作、反向播放、子弹时间等)。传统方法通常依赖4D重建或仅支持单一控制维度,而SpaceTimePilot通过引入“动画时间”表示和新型训练策略,实现了空间(相机视角)和时间(场景动态)的完全解耦。
核心创新点:
时空解耦控制: 提出动画时间嵌入机制(animation time embedding),将相机控制和时间控制作为独立信号注入扩散模型。
时间扭曲训练方案: 通过重用时有多视角数据集,应用时间扭曲(如反转、加速、冻结等)来模拟时序变化,无需额外数据收集。
CamxTime数据集: 构建了首个合成时空全覆盖数据集,提供密集的相机-时间网格采样,支持精细的时空控制学习。
改进的相机条件机制: 引入源视频和目标视频的相机姿态联合条件,提升相机轨迹控制的精度。
支持长视频生成: 通过自回归推理方案,实现任意长度的时空探索。

3. 模型架构和技术细节

SpaceTimePilot 基于潜在视频扩散模型(如Wan-2.1 T2V-1.3B),使用3D VAE进行潜在压缩和Transformer去噪模型(DiT)。关键改进包括:

  • 时间表示: 引入动画时间参数   控制时序进展,通过正弦位置编码和1D卷积层压缩到潜在帧空间,避免与相机信号纠缠。时间嵌入公式为: 其中   使用正弦编码和卷积投影。
  • 相机条件机制: 同时注入源视频和目标视频的相机姿态,提升空间一致性:
  • 训练数据:结合时间扭曲增强(应用于多视角数据集如ReCamMaster和SynCamMaster)和CamxTime数据集,提供多样时空监督。
长视频支持: 通过自回归生成,每个新片段条件于前一片段和源视频,实现连续探索。
CamxTime数据集细节:
包含180k视频,从500个动画 across 100个场景渲染,每个场景有3条相机路径,覆盖120帧的完整时空网格。
支持任意相机-时间组合采样,如图4所示(文档中为文本描述,无图片标签,故未嵌入)。

4. 实验结果

实验在合成数据集(CamxTime)和真实数据(OpenVideoHD)上进行,评估时空控制精度和视觉质量。

定量结果总结

时序控制评估(Table 2): 在方向(如反向)、速度(如慢动作)和子弹时间任务中,SpaceTimePilot 在PSNR、SSIM和LPIPS指标上均优于基线(如ReCamMaster+时间重排或联合数据训练)。例如,平均PSNR达21.16,而基线仅为15.52-17.86。
视觉质量评估(Table 3): 使用VBench评估,SpaceTimePilot 在图像质量、背景一致性、运动平滑度等维度与基线相当或略优。
相机控制评估(Table 4): 在相机轨迹精度上,SpaceTimePilot 的相对旋转误差(RelRot)为2.71°,显著低于基线(3.66-5.94°),且首帧对齐准确率(RTA30)达54.44%,证明改进相机条件机制的有效性。
时间嵌入消融(Table 5): 1D卷积压缩器结合CamxTime数据集训练,PSNR提升至21.16,优于均匀采样或MLP压缩器。

定性结果

SpaceTimePilot 能够生成连贯的视频,支持复杂相机运动(如平移、旋转)和时序效果(如子弹时间、反向播放)。下图展示代表性结果:

消融研究

时间扭曲有效性(Figure 14): 时间扭曲训练比联合静态数据集训练提供更丰富的时序信号,改善解耦。
数据集重要性(Figure 15): 加入CamxTime数据集后,生成视频的伪影减少,验证其必要性。
时间嵌入对比(Figure 15底部): 1D卷积嵌入能同时冻结场景动态和保持相机运动,优于RoPE或MLP。

长视频生成示例

通过自回归推理,SpaceTimePilot 支持多轮生成,实现大视角变化(如从老虎正面旋转到背面),保持时空一致性。
以上结果表明,SpaceTimePilot 在时空解耦控制方面显著领先于现有方法,为4D生成式渲染提供了新范式。
MoE 凭什么成 LLM 未来?混合专家模型颠覆大模型规则
训练 LLM 的 3 大强化学习技术:PPO、DPO、GRPO 核心解析,一文理清区别与实战价值
给AI模型做饭的「自动炒菜机」来了!北大团队开源DataFlow,数据清洗效率提升10倍
人大高瓴孙浩团队,Nature子刊+1

【声明】内容源于网络
0
0
AIGC 深一度
专注AIGC领域,关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC,欢迎关注 个人网站 https://www.chenbaiqi.com
内容 484
粉丝 0
AIGC 深一度 专注AIGC领域,关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC,欢迎关注 个人网站 https://www.chenbaiqi.com
总阅读243
粉丝0
内容484