

数字人进化了！快手可灵 AI 从“对口型” 变 “戏精”，技术细节全公开

DartbrainAI Academy

2025-09-17

“嘴动≠会演”：快手可灵让数字人真正学会“表演”

“嘴动≠会演”——这句话直击数字人技术的长期痛点。过去，虚拟人即便口型精准，也常显得机械呆板，如同没有灵魂的“发声机器”。如今，快手可灵团队通过其最新技术Kling-Avatar，让数字人实现了从“念稿”到“实力派”的跨越：能随旋律微笑、伴说唱摆动肢体，甚至在分钟级长视频中保持情绪连贯、动作自然。

更值得关注的是，该技术不仅已上线可灵平台公测，其核心方案Kling-Avatar也已公开，标志着国内数字人技术迈向新阶段。

可灵数字人的能力早已超越基础的“对口型”，实现多维度突破：

可灵数字人实现“表演级”表现的核心，在于引入“多模态导演模块”（MLLM Director），使系统不再局限于口型匹配，而是先理解需求、再生成内容，相当于为AI配备了一位“虚拟导演”。

传统数字人仅依赖音频驱动，而可灵AI具备“看、听、读”三位一体的理解能力：

综合三类信息后，AI生成一段“蓝图视频”，提前规划整段表演的节奏、动作节点与镜头逻辑，避免生成过程中的混乱。

为解决长视频生成易出现的脸部变形、动作脱节等问题，可灵采用“两阶段级联生成”策略：

例如生成1分钟唱歌视频时，AI先设定“摆臂→晃肩→比耶”等关键动作节点，分段生成每10秒内容后再拼接。该方式既提升效率（耗时接近生成10秒视频），又避免“越演越僵”的问题。

在与OmniHuman-1、HeyGen等行业主流方案的对比测试中，Kling-Avatar在“总体效果、口型同步、画面质量、指令响应、身份一致性”五大维度均表现优异，尤其在两个细节上实现突破：

此外，在远景场景（人脸占比小）下，AI可通过“手动扩展视频帧”强化嘴部识别，确保口型对齐——这一能力填补了多数同类技术的空白。

此次Kling-Avatar的发布并非孤立动作。此前，快手可灵已推出实时交互数字人框架MIDAS，解决响应延迟问题；如今Kling-Avatar则攻克表达浅层化的难题，形成“速度+深度”双轮驱动的技术路径。

目前，用户只需在可灵平台上传一张参考图、一段音频，并输入如“镜头从下往上推，保持开心表情”等指令，即可生成影视级数字人视频。未来，团队还将聚焦高分辨率输出与精细动作控制，致力于实现“每一次表达都有灵魂”的终极目标。

【声明】内容源于网络

DartbrainAI Academy

1234

内容 263

粉丝 0

DartbrainAI Academy 1234

总阅读3.4k

粉丝0

内容263