火山引擎发布Seedance 1.5 Pro:音画高精同步的AI视频生成模型
近日,火山引擎在FORCE原动力大会上正式推出豆包视频生成模型Seedance 1.5 Pro。该模型主打“音画高精同步、一镜入戏”,可在单次Prompt驱动下,同步生成人物对白、背景音乐、音效及高质量视频画面,10秒片段即达影视级表现。
Prompt:女子泣不成声,说台词:“江辰……你一定要活着回来,好吗?……答应我”。女子边说话边将右手抬起抚摸男子的脸。背景音乐伤感。影视级。
从实测效果看,其口型、眼神、情绪表达与配音高度一致,真假难辨。
核心能力亮点
- 音画高精度同步:背景音乐、音效、人物对话均按剧情节奏实时协同生成,彻底告别“声画两张皮”。
- 支持多人多方言:原生兼容四川话、粤语、上海话、台湾腔等方言,精准还原韵律与情感张力。
- 影视级效果:镜头语言、叙事张力、微表情控制已达专业短片水准。
- 语义理解增强:对运镜逻辑、角色互动与情绪递进的理解更准确,抽卡率显著降低。
实测验证:不止于真,更在于好用
音画同步:无穿帮、强一致性
以即梦AI平台为例,采用首尾帧+文本Prompt方式生成。输入人物静态图并设定运镜与台词(如“凭你也敢挑衅我的权威!”),模型可精准输出包含微表情、口型、语气与镜头震颤的完整片段,音画严丝合缝。
专业运镜:复刻百万级电影级调度
针对周润发MAMA颁奖礼经典运镜,Seedance 1.5 Pro通过首尾帧控制+自然语言描述(“西装男子从舞台深处往前走,镜头环绕切至背面,再远推”),成功复现复杂空间调度与节奏变化。
多角色多语种:一 Prompt 多角色协同表达
实测三人三语场景:熊猫用四川话说“我来自中国四川”,小男孩用西班牙语回应,小女孩用英语点题“Because the AI world is full of magic!”——全程配以环绕运镜与奇幻配乐,方言口型、语调、停顿全部精准匹配。
技术底牌:四重创新实现音画同构
Seedance 1.5 Pro突破传统“先视频后配音”模式,实现视觉与听觉在底层潜在空间的联合建模。
- 原生音视频联合生成架构:基于MMDiT双分支DiT框架,视觉流与听觉流在Latent Space实时交互,口型生成与音频波形同步推演。
- 高质量音视频数据框架:构建亿级一致性音视频数据集,支持细粒度标注(如“四川话+憨厚音色+环境回声”),夯实多模态理解基础。
- 精细化后训练优化:引入多维度RLHF奖励机制,重点强化微表情、运动连贯性、音频保真度及音画对齐度。
- 高效推理加速技术:通过多阶段蒸馏与定制化推理框架,推理速度提升超10倍,实现“所见即所得”创作体验。
在Aesthetics(审美)、Motion(运动质量)、Alignment(音画对齐)等核心指标上,Seedance 1.5 Pro全面领先主流开源与闭源模型,尤其在多语言对白与方言口型匹配任务中优势显著。
AI视频生成:进入实战上岗新阶段
Seedance 1.5 Pro标志着AI视频已从“能生成”迈向“可交付”——它不再仅追求像素清晰,而是真正解决演技、情绪、方言、运镜等实用瓶颈,具备低成本制作短剧、广告片及辅助影视前期开发的能力。
当前模型已上线即梦AI、豆包APP及火山方舟体验中心;企业用户自2025年12月23日起可通过火山引擎API接入。

