数字人这个赛道的竞争愈发激烈了,大模型能够撰写剧本,语音模型也能够匹配出各种各样的语气。当人们不再仅仅满足于数字人只是对口型时,那些只能坐着、不会走路、表情也是预设好的数字人,究竟会朝着怎样的方向进化呢?
最近赛博猫恰好上线了即梦数字人,在即梦AI的数字人窗口。
下面就一起来看看使用即梦4.0图像模型搭配OmniHuman 1.5数字人模型制作的MV效果到底怎么样吧!
数字人终于告别了只能原地“罚坐”“罚站”的局限!
整体而言,OmniHuman 1.5 具备理解音频里情绪与语义的能力,能让角色依据文本所传达的情绪自如地进行表演,而且还能实现多人之间的互动,并且配合镜头的移动做出相应表现。与此同时,它能够支持各种风格的角色做出大幅度动作,还能精准实现口型同步。
这意味着,我们对它的操作不再仅仅局限于给个声音让其单纯配个口型。
而是能够指挥它走位、像演员一样表演、调整镜头,进而完成一整段完整的表演。
鉴于此,我打算以影视导演主理人的身份,从语义理解、动作调度、情绪演绎、群体协同以及多风格表演这五个维度,对其展开全方位测评,那么,开始吧!
首先,我们来瞧瞧语义理解方面。我设定了这样一个场景:一位女性正在衣柜前挑选衣服。
紧接着,我上传了一段音频,其内容为:“我的红色外套呢?我今天要穿呢,诶,找到了,在这里,太好啦!”。并且,在动作提示语这块,我并未给出确切指令,仅仅含糊地表示她拿到了自己心仪的衣服。我如此操作,就是想考验考验OmniHuman 1.5,看看它能否准确识别并拿出音频里所提及的“红色外套”。毕竟,这很能体现该数字人模型对语义的理解与实际场景还原能力,要是它能顺利完成,那可就充分展示了其在语义理解方面的出色表现,反之则可能暴露出一些问题,接下来就看它的“表现”啦。
OmniHuman 1.5 生成的人物做出了东翻西找的动作,而且真的成功从衣柜里拿出了暗红色的衣服,还露出了开心的表情。
然后我又试了个更狠的,我直接只丢了一段音频上去,连动作提示都没给,
直接让OmniHuman 1.5给我生成看看效果。
结果就是,首先即梦识别出了图中的动态,生成了两个人一边走一边聊天的场景,还能判断出音频内容是对另一个人说的,所以就有了男人转头对女人说话的动作,简直太惊艳了!
倘若连基本动作都无需提示语就能自动完成,不禁让人好奇,要是加上提示语,是不是就能够实现更为复杂的动作编排呢?甚至,能不能配合镜头的动态变化,打造出更加流畅且富有表现力的画面?
于是,这一次,我在要求它完成说话对口型任务的同时,精心设置了一整套按时间顺序推进的动作,并且特意加入了镜头的移动变化。我满心期待着,想看看在这种情况下,它究竟能呈现出怎样精彩的表现,又是否真的能如我们所期望的那样,达成复杂动作调度与镜头运动的完美配合。毕竟,这对于检验其功能的全面性与强大程度,可是相当关键的一步。
男人一直向前走,然后停下抬头仰望天空,然后抬起右手摘下眼镜,然后叹了口气
令人惊喜的是,五个动作依次顺利完成,镜头最后稳稳地聚焦在人物脸部。人物的表情也能精准贴合音频所传达的情绪,整个表现的完成度极高,充分展现了OmniHuman 1.5的出色性能。
不过,为了进一步考验即梦的数字人模型,我决定再设置一道难题。这次要求主角在完成复杂连续动作的过程中,还要与周围环境产生自然互动:想象一下,一个男人神色慌张,脚步匆匆地走进办公室,紧接着迅速坐下,迫不及待地打开桌上的笔记本电脑,一边手指在键盘上飞速打字,一边口中念念有词地讲话。这不仅需要数字人准确无误地完成一系列动作,还得让其与周围环境紧密关联,呈现出真实且生动的场景,看看OmniHuman 1.5究竟能否应对如此高难度的挑战。
在生成过程中,我们仅能提供首帧画面。这就意味着,OmniHuman 1.5 在完成既定动作的同时,还得自行生成画面中原本不存在的元素,像凳子、电脑之类的,全都是模型自主创造出来的。更厉害的是,人物与这些新生成的物品之间,居然还能够实现流畅互动,这着实让人惊叹不已。
那么接下来,咱们把目光转向情绪表演方面。要检验数字人情绪表现是否灵敏,有个很直接的办法,就是让它哭,瞧瞧它哭得是否自然,能不能真切地传递出悲伤的那种氛围,这可是对其情绪演绎能力的一大考验,看看OmniHuman 1.5能否顺利通过。
OmniHuman 1.5能够依据音频的情绪波动来精准调整角色的表演。就好比在这段音频里,人物的悲伤情绪处于克制状态,痛苦是缓缓流露出来的,更多展现出的是迷茫与无奈。所以当角色最后缓缓坐在地上,眼神呆滞地望着地面时,其情绪表达与音频十分契合,仿佛角色真正沉浸在了那种复杂的情绪之中。
与之相反,当我使用同一张图片,却换上情绪起伏剧烈的音频时,角色便会展现出更为浓烈的悲伤。不仅表情变得更加悲痛,连动作幅度都明显增大,将悲伤情绪渲染得淋漓尽致。
哪怕是换成愤怒情绪,仅仅给出“暴跳如雷”这四个字作为动作指示,即梦依然能够呈现出相当不错的效果。值得一提的是,在使用即梦内置的配音时,通过多用叹号来强化愤怒情绪的表达,实际测试下来效果还挺不错,这也算是一个意外发现的实用小技巧。这种能够灵活根据不同情绪音频做出恰当表演调整的能力,充分彰显了OmniHuman 1.5在情绪演绎方面的强大与细腻。
PS:要是即梦的音频可以咬字不那么清晰就更像真人做的了。
实际上,此前我们就已有所发现,倘若画面中涉及多人,那么除了正在发声的主角之外,其余角色都会针对主角的行为与表现,给出相应的反应。这一现象充分表明,即梦的OmniHuman 1.5 确实拥有处理群戏的能力!
在多人场景的创作过程中,即梦能够自动识别场景里的人物角色。如此一来,我们就可以依据自身需求,自主挑选想要说话的角色,进而完成内容生成。这种自主性和智能识别能力,极大地拓展了数字人在多人场景中的应用可能性,无论是构建复杂的剧情场景,还是展现多样化的人物互动,都变得更加轻松便捷,为创作者提供了更为广阔的创作空间。
可以看到,首先会判断正在说话的女人对话的对象应该是她身边这个醒着的男人,而这个男人在听到女人的讲到“小声点”之后竟然还做出了用手比嘘的动作,这个真的有点牛了。
而当我换成有更多人物的场景,需要多个人物进行反应时,梦也能合理地安排画面中所有人的动作和表情。比如,三个人在听完女人讲笑话后全都拍桌大笑。
同时我还测试了一些风格化的画面,生成效果都有适配对应风格的动态,人物的动作效果也都蛮自然的。
以往几代数字人模型,给人的感觉就像是布景演员,只需摆好位置,架好相机,便按部就班地行事。然而如今的OmniHuman 1.5,不仅能在即梦web端体验,明天还会更新至App端。它所生成的人物,宛如一个个可被“执导”的数字演员,已然具备了更为丰富且灵动的表现能力。
这一版本的数字人,能够精准捕捉声音背后的情绪起伏,带着鲜明的语气与生动的演技投入表演;可以自如地走进设定场景,与其他角色进行互动交错,还能巧妙配合镜头变化;令人惊叹的是,在多人场景中,它甚至能自觉地为自己合理添加戏份,展现出极强的“自主意识”。
如此强大的功能,让我已经迫不及待琢磨起更多新奇玩法。比如说,尝试一个人拍摄多角色的剧集,或者精心打造整段数字MV,又或是制作一部别出心裁的第一人称视角剧。OmniHuman 1.5此次更新,仿佛是一把万能钥匙,一次性开启了无数可能性的大门,选择多得简直让人目不暇接,实在是令人兴奋不已,充满了创作的冲动与期待!

