Prompt11:奥黛丽赫本在罗马的特雷维喷泉旁许愿。
Sora2:
可灵2.5Turbo:
音频效果:可灵2.5Turbo<Sora2。Sora2针对prompt要求的场景自发进行配音,包含符合场景的BGM和人物台词,台词对于“许愿”这个关键词来说十分贴切,且声线自然,与真人几乎无差异。
可灵2.5Turbo则仅有少量音效,但无法确定 具体是什么发出的,与人物动作节奏或者场景也不贴合,可以说是“视音无关”。
人像生成:可灵2.5Turbo<Sora2。prompt明确指定要求生成奥黛丽赫本,Sora2展示的人物形象十分经典,符合大众认知,而可灵2.5Turbo难以辨别出视频中的人物究竟是谁。
Prompt12:保护动物的公益广告,丛林里,一位年轻的女性动物保护员蹲下身喂养身边的一只瘦弱的小鹿,小鹿伸出细嫩的舌头舔食。保护员微笑着轻抚小鹿柔软的毛发,阳光洒在草地上,投下斑驳光影,画面充满关爱和温暖。
Sora2:
可灵2.5Turbo:
音频效果:可灵2.5Turbo<Sora2。Sora2对该prompt自发配音为长台词:“每一次脆弱的心跳,都蕴藏着一个值得拯救的世界;每一次温柔的触碰,都包含着守护的承诺;当我们关爱野生动物,就是在关爱我们自己”。文本合情合理,真正理解了这个prompt想要传达的想法,人物声线温柔,节奏自然,同时也有符合自然景观的BGM,非常贴合公益广告的需求。
可灵2.5Turbo自发搭配的音效为鸟鸣,虽然也符合视频中的环境,但对于“公益广告”这个主题,表现仍要逊色几分。
Prompt13:翻译软件广告,一个商务风打扮的男士对着手机讲话,同时一个实时的音频频谱图出现在手机上空,随后这个频谱图变成中文文字“很高兴与你合作”。Sora2:
可灵2.5Turbo:
音频效果:可灵2.5Turbo<Sora2。除了英文台词外,Sora2在中文台词上的表现也令人惊喜。该视频中Sora2自发配音为人物与智能手机的对话,上下文句意连贯,“很高兴与你合作”中文发音标准。同时我们也可以看到,人物在说出“prefect,message send”时,口型是符合台词节奏的,在人像生成上能够与音频协调,Sora2在这方面的确独占鳌头。
人像生成:可灵2.5Turbo<Sora2。可灵2.5Turbo虽然也尝试对人物进行配音,但听起来似乎是粤语与英语的结合,并无实际意义。同时,人物说话的口型与声音节奏契合度仍有欠缺。
△文生视频案例展示完毕,感谢观看。

