电商广告新利器！字节提出 DreamActor-H1，让产品与模特“一键生成”高保真交互视频。

AIGC Studio

2025-06-22

导读：DreamActor-H1 是一个基于扩散变换器 (DiT) 的创新框架，能够根据配对的人与产品图像生成高质量

DreamActor-H1 是一个基于扩散变换器 (DiT) 的创新框架，能够根据配对的人与产品图像生成高质量的人与产品演示视频。DreamActor-H1 基于大规模混合数据集进行训练，并结合多类别增强技术，在保持人与产品身份完整性和生成物理上可信的演示动作方面超越了最先进的方法，使其适用于个性化电商广告和交互式媒体。

论文介绍

在电子商务和数字营销领域，生成高保真人机交互演示视频对于有效的产品展示至关重要。然而，大多数现有框架要么无法同时保留人和产品的身份，要么缺乏对人机交互空间关系的理解，导致呈现效果不真实，交互效果不自然。为了应对这些挑战，论文提出了一个基于扩散变换器 (DiT) 的框架。该方法通过注入成对的人机交互参考信息并利用额外的遮罩交叉注意力机制，同时保留了人机交互和产品特定细节，例如徽标和纹理。

论文采用 3D 身体网格模板和产品边界框来提供精确的运动引导，从而实现手势与产品位置的直观对齐。此外，结构化文本编码用于整合类别级语义，增强了跨帧小角度旋转变化时的 3D 一致性。我们的方法基于混合数据集进行训练，并采用了广泛的数据增强策略，在维护人类和产品的身份完整性以及生成逼真的演示动作方面，优于最先进的技术。

方法概述

DreamActor-H1 的流程采用 DiT 架构，首先进行数据集准备，其中 VLM 描述产品和人体图像，然后对训练视频进行姿态估计和边界框检测。在训练过程中，人体姿态和产品边界框与视频噪声相结合，用于运动引导；而 VAE 对输入图像进行编码，用于外观引导；人体-产品描述通过文本编码器输入模型。该模型融合了完全注意力机制、参考注意力机制和对象注意力机制（以产品潜在变量作为输入），其中参考注意力机制和对象注意力机制详见上图。

在推理过程中，该框架从预定义的池中检索最佳运动模板，并通过参考人体/产品图像的联合分析来调整对象框缩放，从而实现姿势一致的动画。

实验结果

与 AnchorCrafter、Phantom、VACE 和 UniAnimate-DiT 进行比较。注意论文只为 AnchorCrafter 生成了 3 个视频，而 UniAnimate-DiT 使用前几帧和姿势序列作为输入。与 AnchorCrafter、Phantom、VACE、UniAnimate-DiT以及我们的消融研究（“我们的基线”和“我们的无文本研究”）进行定量比较。注意，我们使用我们的初始帧和姿势序列作为 UniAnimate-DiT 的输入。

使用我们的基线（没有对象注意和文本输入）和我们的没有文本的消融研究。

结论

论文提出的 DreamActor-H1 是一个基于 Diffusion Transformer 的框架，它通过整合遮罩交叉注意力机制、3D 运动引导和语义感知文本编码，解决了生成高保真人机交互演示视频的难题。该方法能够有效地保留精细的人物和产品身份，同时确保人物手势和产品位置之间的自然空间对齐。大量实验表明，DreamActor-H1 在维护身份完整性和生成物理上可信的交互方面优于最先进的方法，使其成为电子商务和数字营销场景的解决方案。