论文英文标题: SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time作者: Zhening Huang, Hyeonho Jeong, Xuelin Chen, Yulia Gryaditskaya, Tuanfeng Y. Wang, Joan Lasenby, Chun-Hao Huang机构: 剑桥大学(University of Cambridge)和 Adobe Research
2. 论文总结和创新点
SpaceTimePilot 是首个能够解耦空间和时间控制的视频扩散模型,从单目视频输入中生成具有连续性和一致性的新视频,支持任意相机轨迹和时序控制(如慢动作、反向播放、子弹时间等)。传统方法通常依赖4D重建或仅支持单一控制维度,而SpaceTimePilot通过引入“动画时间”表示和新型训练策略,实现了空间(相机视角)和时间(场景动态)的完全解耦。核心创新点:时空解耦控制: 提出动画时间嵌入机制(animation time embedding),将相机控制和时间控制作为独立信号注入扩散模型。时间扭曲训练方案: 通过重用时有多视角数据集,应用时间扭曲(如反转、加速、冻结等)来模拟时序变化,无需额外数据收集。CamxTime数据集: 构建了首个合成时空全覆盖数据集,提供密集的相机-时间网格采样,支持精细的时空控制学习。改进的相机条件机制: 引入源视频和目标视频的相机姿态联合条件,提升相机轨迹控制的精度。支持长视频生成: 通过自回归推理方案,实现任意长度的时空探索。
长视频支持: 通过自回归生成,每个新片段条件于前一片段和源视频,实现连续探索。CamxTime数据集细节:包含180k视频,从500个动画 across 100个场景渲染,每个场景有3条相机路径,覆盖120帧的完整时空网格。支持任意相机-时间组合采样,如图4所示(文档中为文本描述,无图片标签,故未嵌入)。