

利用物理引导的视频扩散学习生成物体的交互

大语言模型和具身智体及自动驾驶

2025-11-26

导读：25年10月来自阿联酋 MBZUAI 和 Pinscreen公司的论文“Learning To Generate Object Interactions With Physics-Guided Vid

25年10月来自阿联酋 MBZUAI 和 Pinscreen公司的论文“Learning To Generate Object Interactions With Physics-Guided Video Diffusion”。

近年来，视频生成模型取得了显著进展，并已应用于电影、社交媒体制作和广告等领域。除了其创作潜力之外，这些模型还有望成为机器人和具身决策领域的世界模拟器。然而，尽管取得了长足进步，现有方法在生成符合物理规律的物体交互方面仍然面临挑战，并且缺乏基于物理的控制机制。为了克服这一局限，KineMask，是一种基于物理引导的视频生成方法，能够实现逼真的刚体控制、交互和特效。给定一张图像和一个指定的物体速度，该方法可以生成包含推断运动和未来物体交互的视频。其提出一种两阶段训练策略，通过物体掩码逐步移除对未来运动的监督。利用该策略，在简单交互的合成场景上训练视频扩散模型（VDM），并展示了在真实场景中物体交互效果的显著提升。此外，KineMask通过预测场景描述将底层运动控制与高层文本条件相结合，从而有效地支持复杂动态现象的合成。

物理-觉察视频生成。物理理解与视频生成之间的交互是一个新兴的研究领域。一项初步研究将物理模拟与基于学习的技术相结合。例如，PhysDreamer（Zhang et al., 2024a）生成三维高斯振荡运动，而DreamPhysics则利用视频扩散先验学习动态三维高斯的物理特性（Huang et al., 2025）。在视频生成方面，WonderPlay（Li et al., 2025c）将物理求解器和生成式视频模型相结合，以合成涵盖各种物理现象的动态三维场景。PhysGen（Liu et al., 2024b）采用类似的方法，仅使用二维信息来模拟刚体相互作用。然而，使用模拟器需要大量的工程工作，并且限制了模型的灵活性。与此不同的是，C-Drag（Li，2025b）使用LLM来推断输出视频中的因果运动，同样需要基于跟踪的控制。InterDyn（Akkerman，2025）则完全使用扩散模型，探索视频模型渲染逼真物体动态的能力。然而，它利用逐帧的控制元素掩码，而这些掩码通常在测试时不可用。Li（ICML，2025a）也探索后训练的物理特性，但侧重于重力效应。同期进行的Force Prompting（Gillman，2025）探索类似的想法，但没有考虑物体交互，并且采用更简单的运动控制。

KineMask 旨在根据初始场景图像和由目标掩码编码的初始目标速度，合成目标之间真实的交互，如图所示。

VDM（视频扩散模型）通过逆向噪声处理过程生成数据。在训练阶段，通过在随机采样的时间步 t 添加高斯噪声，将干净视频 x_0 扰动为带噪声的版本 x_t，并优化模型以近似相应的逆向转换。在推理阶段，该过程反向进行：从纯高斯噪声 x_T 开始，模型通过中间状态 {x_t} 进行去噪，直到经过 T 步后恢复干净的输出视频 x_0。为了更好地应用于真实场景，用图像-到-视频 (I2V) 模型，其中视频合成以参考图像 y 为条件。训练损失函数最小化真实逆向条件分布 p 与模型分布之间的 KL 散度。在实践中，该目标通过噪声预测任务来实现，其中网络学习估计添加到 x_0 中的高斯噪声。

为了提供额外的指导，一个 ControlNet（Zhang et al., 2023）的分支ψ_φ（由φ参数化）可以编码任意稠密控制信号u，从而驱动输出生成。在训练 ControlNet 时，主干模型 θ 的参数保持不变，而只优化控制分支 φ。

开启运动控制

第一阶段训练。希望为 KineMask 启用基于物体的运动控制。具体来说，目标是控制输入场景 y 中物体的运动方向和速度，从而研究扩散模型生成的视频中物体交互的影响。为此，假设可以访问一个数据集 D，其中包含描绘运动物体的带字幕视频。令 f ∈ {1,...,F} 表示帧索引。对于场景中的每一帧 f 和每个物体，都有一个与图像分辨率对齐的掩码 m_f。三个通道编码瞬时速度矢量，其中红色、绿色和蓝色通道分别对应于物体分割掩码定义的像素中沿 x 轴、y 轴和 z 轴的运动。这样，D 不仅提供了关于物体位置的空间信息，还提供三维空间中明确的动态信息。然后，速度掩码被聚合为一个张量 m，并用于对分支 ψ_φ 进行条件化。与 Akkerman (2025) 的方法类似，仅标注渲染视频第一帧中运动物体的速度，而将可能因交互而移动的物体掩码留空。如上图（顶部）中所示，该策略可视化。这使得模型能够在不显式依赖像素控制信息的情况下合成交互。然后，可以训练第一阶段的 KineMask ControlNet φ′。

φ′ 网络学习将密集的像素级监督信息映射到生成视频中物体运动的结构化指导。在上图（顶部）中，展示了训练掩码。

第二阶段训练。KineMask φ′ 能够根据为视频所有帧提供的运动掩码 m 进行运动控制。虽然这种设置简化了训练，但它并不符合期望的视频生成场景，即仅根据第一帧视频中物体的运动生成视频。为了实现这一目标，提出一种掩码丢弃策略，在训练时擦除速度掩码 m 的最后一部分，如上图（底部）所示。

形式上，定义一个截断掩码张量：m_⊙ = {m_⊙,f = m_f, if f ≤ f^∗^, 0 otherwise}，其中 f^∗^ 表示对应于 dropout 比例的截断帧索引。因此，只有前几帧包含速度信息，其余帧的速度信息被设置为零。然后，通过使用此策略微调 φ′ 来训练第二阶段的 KineMask φ′′。

由于训练过程中使用丢弃，配备 φ′′ 的 VDM 能够仅以初始速度作为输入来移动物体，其中 m_⊙ = {m_0, 0, ..., 0}。最终，为了渲染逼真的视频，VDM 必须仅从初始条件开始合成运动动力学。

数据

训练。如上图（左）展示训练流程。对于 φ′′ 的训练，假设数据集 D = {(x_0, y, m, c)} 可用。除了目标视频 x_0 和参考条件图像 y 之外，还需要物理动力学的低级和高级条件。在低级条件中，需要定义的聚合速度掩码 m。在高级条件中，将每个视频与一个文本描述 c 关联起来，该描述总结物理交互的效果。由于收集带有此类标注的真实世界视频不切实际，用 Blender 生成合成数据。重要的是，正如在实验中验证的那样，这种模拟数据仍然能够推广到真实场景。渲染的场景中包含放置在纹理表面上的盒子和圆柱体，并为每个受控目标分配一个具有随机方向和大小的初始速度。此过程生成 x_0 作为渲染后的视频，y 作为序列的第一帧（用于图像-到-视频的转换），m 作为逐帧速度掩码堆栈，用于提供运动监督。为了获得高级描述 c，用视觉-语言模型 (VLM) 处理每个渲染后的视频，并提示其提供详细的视频字幕，尤其关注物体间的交互。

推理。在推理阶段，假设输入为一张未见过的图像 y。目标物体的掩码可以很容易地获得，例如使用 SAM2 (Ravi，2025)，而第一帧的期望物体速度则假设由用户提供。用此信息构建 m_⊙。还提示 GPT-5 (OpenAI，2025) 描述如果物体开始沿用户指示的方向移动，场景会产生哪些影响。将这些与随机噪声 x_T ∼ N(0,1) 相结合，构建与配备 φ′′ VDM 兼容的输入元组{x_T, y_input, m_⊙, c_infer}。推理流程如上图（右）所示。

设置

数据集。生成两个数据集用于训练和评估。用 AmbientCG（AmbientCG，2018-2025）提供的纹理背景，渲染随机颜色的立方体和圆柱体。第一个数据集是交互数据集，其中包含沿随机方向运动且相互交互的物体。还构建了一个简单运动数据集，其中孤立的物体沿随机方向运动，且不发生碰撞。对于这两个数据集，分别生成 10,000 个训练样本和 100 个测试样本。测试视频使用与训练集不同的颜色和纹理，以确保多样性。此外，还包含一个有 50 张图像的真实世界数据集，这些图像收集自网络或使用 ChatGPT 的图像生成器（Hurst，2024）生成，用于评估模型对包含复杂物体的真实场景的泛化能力。请注意，与简单运动和交互数据集不同，真实世界数据集不包含真实运动轨迹。用 Tarsier（Wang，2025a）提取预测性字幕。

实现。采用 CogVideoX-I2V-5B（CogVideoX）作为 KineMask 的主干网络。在模型的前 8 层使用 ControlNet，训练期间权重设置为 0.5。对于 φ′′，还对索引f^∗^ 应用非均匀采样策略，其中帧选择偏向于较早的帧，因为刚体交互最常发生在模拟序列的开头。在推理阶段生成 49 帧。

基线。考虑两个使用预训练图像-到-视频模型的基线：CogVideoX（Yang，2025）和 Wan2.2-I2V-5B（Wan，2025）（Wan）。用与 KineMask 相同的 c_infer 来提示这两个基线。由于使用 CogVideoX 作为 KineMask 的骨干网络，这两种方法的区别仅在于训练流程。此外，通过将输入速度映射到输入力提示 (Gillman，2025) 来评估力提示 (FP) 方法。力提示方法也基于 CogVideoX 构建。

指标。对于视觉质量，报告合成测试集中生成视频与真实视频之间的 Fréchet 视频距离 (FVD) (Unterthiner，2019) 和均方误差 (MSE)。对于运动质量，计算 Fréchet 视频运动距离 (FVMD) (Liu，2024a)，该指标将运动质量与外观分离。最后，用 SAM2（Ravi，2025）提取生成视频和真实视频中对象的语义掩码，并计算它们之间的交并比（IoU）来评估几何一致性。

【声明】内容源于网络

大语言模型和具身智体及自动驾驶

讨论大模型（包括语言大模型、视觉-语言大模型和多模态大语言模型）、具身智能、AI智体、自动驾驶和计算机视觉的技术发展和挑战

内容 1850

粉丝 0

大语言模型和具身智体及自动驾驶讨论大模型（包括语言大模型、视觉-语言大模型和多模态大语言模型）、具身智能、AI智体、自动驾驶和计算机视觉的技术发展和挑战

总阅读1.1k

粉丝0

内容1.9k