Meta 周四展示了其两款最新的人工智能工具 Emu Video 和 Emu Edit,首次真实展示了 9 月份在 Meta Connect 上宣布的技术。Emu Video 是一款允许用户根据纯文本提示创建视频的工具,而 Emu Edit 则引入了一种不同的图像编辑方法,称为修复。Emu Video 和 Emu Edit 的推出是 Meta 的一项战略举措,Metaverse 表示这仍然符合其更广泛的 Metaverse 愿景。该公司表示,这些工具提供了新的创意功能,旨在吸引广泛的用户,从专业内容创作者到那些只是寻找新颖方式来表达想法的用户。
Emu Video 尤其体现了该公司致力于推进人工智能驱动的内容生成的承诺,并可能成为 Runway 和 Pika Labs 等知名品牌的主要竞争对手,后者迄今为止在该领域占据主导地位。
Emu Video:文本转视频创建
Emu Video 采用两步流程根据文本提示创建视频。它首先根据输入的文本生成图像,然后根据文本和生成的图像生成视频。这种方法简化了视频生成过程,避免了为 Meta 之前的Make-A-Video工具提供支持的更复杂的多模型方法。Emu Video 创建的视频分辨率仅限于 512x512 像素,但与提供的文本提示显示出显着的一致性。将文本准确地转换为视觉叙事使 Emu Video 与大多数现有模型和商业解决方案区分开来。尽管模型本身不公开,但用户可以尝试一组预先确定的提示,结果非常平滑,帧之间的差异最小。
Emu Edit:带有修复功能的图像编辑
除了 Emu Video 之外,Meta 还展示了 Emu Edit 的功能,这是一款人工智能驱动的工具,旨在根据人工智能对自然语言指令的解释来执行各种图像编辑任务。Emu Edit 允许用户以高精度和灵活性编辑图像。Meta针对该工具的研究论文称,“Emu Edit 是一种多任务图像编辑模型,它在基于指令的图像编辑中取得了最先进的结果”,并强调了其准确执行复杂编辑指令的能力。
Emu Edit 的精度通过使用扩散器来提高,扩散器是一种由稳定扩散 (Stable Diffusion)推广的先进人工智能技术。这种方法可确保编辑保持原始图像的视觉完整性。
Meta 专注于开发 Emu Video 和 Emu Edit 等人工智能工具,体现了其创建对创建 Metaverse 至关重要的技术的战略。这包括开发由 LLaMA-2 大语言模型支持的个人助理 Meta AI,以及在 AR 设备中引入多模态。
原文链接:https://decrypt.co/206440/emu-video-edit-meta-ai-video-generation-image-editing