“嘴动≠会演”:快手可灵让数字人真正学会“表演”
“嘴动≠会演”——这句话直击数字人技术的长期痛点。过去,虚拟人即便口型精准,也常显得机械呆板,如同没有灵魂的“发声机器”。如今,快手可灵团队通过其最新技术Kling-Avatar,让数字人实现了从“念稿”到“实力派”的跨越:能随旋律微笑、伴说唱摆动肢体,甚至在分钟级长视频中保持情绪连贯、动作自然。

更值得关注的是,该技术不仅已上线可灵平台公测,其核心方案Kling-Avatar也已公开,标志着国内数字人技术迈向新阶段。
先看效果:AI还是“虚拟演员”?
可灵数字人的能力早已超越基础的“对口型”,实现多维度突破:
- 高质量视频生成,具备精准唇音频对齐能力;
- 支持多模态指令控制,融合音频、图像与文本输入;
- 可生成分钟级长视频,表现稳定不崩坏;
- 具备开放场景泛化能力,适应多样化应用需求。
核心技术解析:给AI装上“导演大脑”
可灵数字人实现“表演级”表现的核心,在于引入“多模态导演模块”(MLLM Director),使系统不再局限于口型匹配,而是先理解需求、再生成内容,相当于为AI配备了一位“虚拟导演”。
第一步:将“杂乱指令”转化为“清晰剧本”
传统数字人仅依赖音频驱动,而可灵AI具备“看、听、读”三位一体的理解能力:
- 听音频:提取台词内容及情绪变化(如激昂或低沉);
- 看图片:识别参考图中的人物特征与场景风格(如演讲或舞台);
- 读文字:解析用户具体指令,如“镜头缓慢上移”“保持兴奋表情”等细节要求。
综合三类信息后,AI生成一段“蓝图视频”,提前规划整段表演的节奏、动作节点与镜头逻辑,避免生成过程中的混乱。
第二步:分段“精拍”,保障长视频质量
为解决长视频生成易出现的脸部变形、动作脱节等问题,可灵采用“两阶段级联生成”策略:
- 从“蓝图视频”中提取关键帧(如“微笑站立”“抬手演讲”“点头致意”);
- 以相邻关键帧为起止点,并行生成各小段视频;
- 通过“音频对齐插帧”技术无缝拼接,自动校正口型与动作偏差,确保整体流畅。
例如生成1分钟唱歌视频时,AI先设定“摆臂→晃肩→比耶”等关键动作节点,分段生成每10秒内容后再拼接。该方式既提升效率(耗时接近生成10秒视频),又避免“越演越僵”的问题。

硬刚行业标杆:五大维度全面领先
在与OmniHuman-1、HeyGen等行业主流方案的对比测试中,Kling-Avatar在“总体效果、口型同步、画面质量、指令响应、身份一致性”五大维度均表现优异,尤其在两个细节上实现突破:
- 口型“零失误”:即使是“truth”这类需双唇前突、口型收紧的发音,或高频语音中的短暂静音,AI也能精准还原;
- 指令“听话准”:输入“镜头缓慢上移”,不会突兀切换特写;要求“兴奋表情”,眼神与嘴角同步到位。
此外,在远景场景(人脸占比小)下,AI可通过“手动扩展视频帧”强化嘴部识别,确保口型对齐——这一能力填补了多数同类技术的空白。
不止“会演”:快手可灵的数字人布局
此次Kling-Avatar的发布并非孤立动作。此前,快手可灵已推出实时交互数字人框架MIDAS,解决响应延迟问题;如今Kling-Avatar则攻克表达浅层化的难题,形成“速度+深度”双轮驱动的技术路径。
目前,用户只需在可灵平台上传一张参考图、一段音频,并输入如“镜头从下往上推,保持开心表情”等指令,即可生成影视级数字人视频。未来,团队还将聚焦高分辨率输出与精细动作控制,致力于实现“每一次表达都有灵魂”的终极目标。


