想要生成引人注目的视频吗?您不需要雇用数十个人来运行摄像机,或站在他们面前。您不需要去“现场”——只需在模型中输入一些文本,您就会获得令人惊叹的视频,否则您将花费数万美元来制作。
很难理解 Sora 要做的所有事情,但当 OpenAI 最终发布这个扩散模型时,应该很快就能看到效果。
当 OpenAI 的说明页面上写着“Sora 能够一次生成整个视频,或者扩展生成的视频以使其更长”时,您就知道这个模型有多强大了!
那么它是怎样工作的?
OpenAI 揭示了扩散模型从看起来像噪声的东西开始,然后开始逐步消除该噪声。作者还指出,该模型与以前的模型类似,因为它使用小数据单元来构建结果。
您可以在页面上找到此说明:
“与 GPT 模型类似,Sora 使用变压器架构,释放出卓越的扩展性能。我们将视频和图像表示为称为补丁的较小数据单元的集合,每个补丁类似于 GPT 中的令牌。通过统一我们表示数据的方式,我们可以在比以前更广泛的视觉数据上训练扩散变换器,涵盖不同的持续时间、分辨率和纵横比。”
与该公告链接的技术资源中有更多关于这些补丁的信息:
“我们从大型语言模型中汲取灵感,这些模型通过互联网规模的数据训练来获得通才能力……LLM范式的成功在一定程度上是通过使用令牌来实现的,这些令牌优雅地统一了文本、代码、数学和数据的不同模式。各种自然语言。... LLM 有文本标记,而 Sora 有视觉补丁。此前,补丁已被证明是视觉数据模型的有效表示。我们发现补丁是一种高度可扩展且有效的表示形式,可用于在不同类型的视频和图像上训练生成模型。
还有一点,进一步澄清:
“在较高的层面上,我们首先将视频压缩到低维潜在空间,然后将表示分解为时空补丁,从而将视频转换为补丁。”
该公司还坦言该技术的一些局限性。例如,当您了解咬饼干业务时,您可以看到某些“线索”仍然会告诉我们人工智能创建了特定视频。如需了解更多信息,请参阅我们自己的《麻省理工学院技术评论》,其中包括 William Douglas Heaven 上周发表的一篇文章。
Heaven 回顾了 Sora 的一些最令人印象深刻的功能,包括处理他所谓的“遮挡”——换句话说,该程序可以跟踪物体从视野中消失或出现的情况。与此同时,他表示该技术“并不完美”,并提出了 OpenAI 正在挑选其视频结果以使模型看起来比实际更强大的可能性 - 因为 Sora 尚未发布,我们可以不确定。
他们正在致力于安全,并试图限制可能产生有害深度伪造品的输入——但如果你一直在关注人工智能革命,你就会知道这说起来容易做起来难。不管怎样,我想把这件事公之于众,让人们知道发生了什么。正如 OpenAI 所写:
“Sora 是能够理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现 AGI 的重要里程碑。”
原文链接;https://www.forbes.com/sites/johnwerner/2024/02/21/take-a-look-at-sora/?sh=3e66669b284a

