大数跨境
0
0

数字人进化了!快手可灵 AI 从“对口型” 变 “戏精”,技术细节全公开

数字人进化了!快手可灵 AI 从“对口型” 变 “戏精”,技术细节全公开 DartbrainAI Academy
2025-09-17
98

“嘴动≠会演”:快手可灵让数字人真正学会“表演”

“嘴动≠会演”——这句话直击数字人技术的长期痛点。过去,虚拟人即便口型精准,也常显得机械呆板,如同没有灵魂的“发声机器”。如今,快手可灵团队通过其最新技术Kling-Avatar,让数字人实现了从“念稿”到“实力派”的跨越:能随旋律微笑、伴说唱摆动肢体,甚至在分钟级长视频中保持情绪连贯、动作自然。

更值得关注的是,该技术不仅已上线可灵平台公测,其核心方案Kling-Avatar也已公开,标志着国内数字人技术迈向新阶段。

先看效果:AI还是“虚拟演员”?

可灵数字人的能力早已超越基础的“对口型”,实现多维度突破:

  • 高质量视频生成,具备精准唇音频对齐能力;
  • 支持多模态指令控制,融合音频、图像与文本输入;
  • 可生成分钟级长视频,表现稳定不崩坏;
  • 具备开放场景泛化能力,适应多样化应用需求。

核心技术解析:给AI装上“导演大脑”

可灵数字人实现“表演级”表现的核心,在于引入“多模态导演模块”(MLLM Director),使系统不再局限于口型匹配,而是先理解需求、再生成内容,相当于为AI配备了一位“虚拟导演”。

第一步:将“杂乱指令”转化为“清晰剧本”

传统数字人仅依赖音频驱动,而可灵AI具备“看、听、读”三位一体的理解能力:

  • 听音频:提取台词内容及情绪变化(如激昂或低沉);
  • 看图片:识别参考图中的人物特征与场景风格(如演讲或舞台);
  • 读文字:解析用户具体指令,如“镜头缓慢上移”“保持兴奋表情”等细节要求。

综合三类信息后,AI生成一段“蓝图视频”,提前规划整段表演的节奏、动作节点与镜头逻辑,避免生成过程中的混乱。

第二步:分段“精拍”,保障长视频质量

为解决长视频生成易出现的脸部变形、动作脱节等问题,可灵采用“两阶段级联生成”策略:

  • 从“蓝图视频”中提取关键帧(如“微笑站立”“抬手演讲”“点头致意”);
  • 以相邻关键帧为起止点,并行生成各小段视频;
  • 通过“音频对齐插帧”技术无缝拼接,自动校正口型与动作偏差,确保整体流畅。

例如生成1分钟唱歌视频时,AI先设定“摆臂→晃肩→比耶”等关键动作节点,分段生成每10秒内容后再拼接。该方式既提升效率(耗时接近生成10秒视频),又避免“越演越僵”的问题。

硬刚行业标杆:五大维度全面领先

在与OmniHuman-1、HeyGen等行业主流方案的对比测试中,Kling-Avatar在“总体效果、口型同步、画面质量、指令响应、身份一致性”五大维度均表现优异,尤其在两个细节上实现突破:

  • 口型“零失误”:即使是“truth”这类需双唇前突、口型收紧的发音,或高频语音中的短暂静音,AI也能精准还原;
  • 指令“听话准”:输入“镜头缓慢上移”,不会突兀切换特写;要求“兴奋表情”,眼神与嘴角同步到位。

此外,在远景场景(人脸占比小)下,AI可通过“手动扩展视频帧”强化嘴部识别,确保口型对齐——这一能力填补了多数同类技术的空白。

不止“会演”:快手可灵的数字人布局

此次Kling-Avatar的发布并非孤立动作。此前,快手可灵已推出实时交互数字人框架MIDAS,解决响应延迟问题;如今Kling-Avatar则攻克表达浅层化的难题,形成“速度+深度”双轮驱动的技术路径。

目前,用户只需在可灵平台上传一张参考图、一段音频,并输入如“镜头从下往上推,保持开心表情”等指令,即可生成影视级数字人视频。未来,团队还将聚焦高分辨率输出与精细动作控制,致力于实现“每一次表达都有灵魂”的终极目标。

【声明】内容源于网络
0
0
DartbrainAI Academy
1234
内容 263
粉丝 0
DartbrainAI Academy 1234
总阅读3.4k
粉丝0
内容263