阿里巴巴研究团队近日发布了一款名为“EMO(Emote Portrait Alive)”的 AI 框架,该框架号称可以用于“对口型”,只需要输入人物照片及音频,模型就能够让照片中的人物开口说出相关音频,支持中英韩等语言。据悉,EMO 基于英伟达的 Audio2Video 扩散模型 打造,号称使用了超过 250 小时的专业视频进行训练,从而得到了相关 AI 框架。(来源:IT之家)