Sora for dummies：OpenAI 的新文本到视频 AI 模型的 101



Sora for dummies：OpenAI 的新文本到视频 AI 模型的 101

跨语桥梁

2024-02-19

3931

导读：人工智能 (AI) 正在以惊人的速度发展，本周末，OpenAI 对该系统进行了一段时间以来最大的更新之一。 Sora 是 OpenAI 最新的人工智能模型，只需通过文本指令即可创建逼真且富有想象力的场景。

借助 Sora，行业专业人士现在无需离开座位即可创建逼真且复杂的视频。

人工智能 Munch 的一份报告显示，这一点比以往任何时候都更加重要，特别是因为如今的消费者观看更多视频，并且对短格式内容的需求迅速增加，66% 的人认为内容类型最具吸引力。 - 社交媒体自动化平台。

不要错过：为什么 OpenAI 的通讯策略在山姆·奥尔特曼 (Sam Altman) 罢免传奇中惨遭失败

报告称，视频内容不再是一种选择，而是企业和品牌走向成功的必需品，42%的企业更喜欢Instagram，26%的企业更喜欢Facebook发布此类视频。 TikTok 并未跻身营销人员的三大平台选择之列。

鉴于短视频内容在营销工作中的重要性，以下详细介绍了您需要了解的有关 Sora 的信息以及它如何帮助该领域的行业专业人士。

索拉是什么？

OpenAI 在一份声明中表示，Sora 是 OpenAI 的解决方案，旨在让人工智能理解和模拟运动中的物理世界，其目标是训练模型，帮助人们解决需要现实世界交互的问题。

因此，Sora 是一种文本到视频的模型，可以生成长达一分钟的视频，同时保持视觉质量并遵守用户的提示。

Sora 能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅了解用户在提示中提出的要求，还了解这些东西在物理世界中的存在方式。

该模型对语言有深入的理解，从而能够准确地解释提示并生成引人注目的字符来表达充满活力的情感。 Sora 还可以在单个生成的视频中创建多个镜头，准确地描绘角色和视觉风格。

OpenAI 表示：“具体来说，我们在不同时长、分辨率和长宽比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的变压器架构。”

它到底是如何运作的？

这部分有点技术性，但根据 OpenAI 的说法，它从大型语言模型中获得灵感，这些模型通过互联网规模数据的训练来获得通才能力。

“LLM范式的成功部分是通过使用令牌来实现的，这些令牌优雅地统一了文本代码、数学和各种自然语言的不同模式。在这项工作中，我们考虑视觉数据的生成模型如何继承这些好处，”它说。

OpenAI 在其技术报告中解释说，LLM 有文本标记，而 Sora 有视觉补丁。此前，补丁已被证明是视觉数据模型的有效表示。

“我们发现补丁是一种高度可扩展且有效的表示形式，可用于训练不同类型的视频和图像的生成模型，”它说。

Sora 本质上是一种扩散模型，它从看起来像静态噪声的视频开始生成视频，然后通过多个步骤消除噪声来逐渐对其进行转换。

因此，它能够一次生成整个视频或扩展生成的视频以使其更长。

该模型还建立在 DALL·E 和 GPT 模型过去的研究基础上。它使用 DALL·E 3 的重述技术，该技术涉及为视觉训练数据生成高度描述性的标题。因此，该模型能够更忠实地遵循生成视频中用户的文本指令。

除了能够仅根据文本指令生成视频之外，该模型还能够获取现有的静态图像并从中生成视频，准确地动画图像的内容并关注小细节。

它有哪些弱点？

与所有人工智能模型一样，有时会出现弱点、偏见和错误信息。 OpenAI 承认，Sora 也不例外。

目前，Sora 可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系的具体实例。 OpenAI 表示，例如，一个人可能咬了一口饼干，但之后饼干可能没有咬痕。

该模型还可能混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

在公开发布之前，OpenAI 表示将与错误信息、仇恨内容和偏见等领域的领域专家合作，他们将对模型进行对抗性测试。

“我们还在构建工具来帮助检测误导性内容，例如检测分类器，可以判断 Sora 何时生成视频。如果我们在 OpenAI 产品中部署该模型，我们计划将来包括 C2PA 元数据。” 。它还补充说，它还将利用已经为使用 DALL-E 3 的产品构建的现有安全方法。

例如，一旦进入 OpenAI 产品，其文本分类器将检查并拒绝违反其使用策略的文本输入提示。其中包括那些要求极端暴力、性内容、仇恨图像、名人肖像或他人知识产权的内容。

“我们还开发了强大的图像分类器，用于检查生成的每个视频的帧，以帮助确保它在向用户展示之前遵守我们的使用政策，”它说。

OpenAI 还将让世界各地的政策制定者、教育工作者和艺术家参与进来，了解他们的担忧并确定这项新技术的积极用例。

在营销中采用技术

尽管如此，主要问题仍然在于营销人员和行业专业人士如何在日常工作中采用该技术，根据 MARKETING-INTERACTIVE 采访的行业专业人士的说法，它有潜力“令人惊叹”。

Cyber Sierra 联合创始人 Pramodh Rai 表示，Sora 的能力和较低的进入门槛意味着消费者“非常有可能”在包括营销人员和广告商在内的创意团队中引发实验。

“内容创作现在以非常令人兴奋的方式发生了革命性的变化。我们能够快速制作原型并制作高质量视频以及动态视觉效果，从而显着缩短了上市时间并减少了传统广告活动所需的资源，”Rai 说道。他补充说，针对不同平台和受众量身定制的日常编辑任务和内容可以实现自动化，从而使创意团队能够专注于其活动的战略和创新方面。

“由于 Sora 等人工智能的进步，现实与人工智能之间的界限变得模糊，通过自定义内容进行的个性化广告必将飙升。现有的工作流程可以简化，以实现团队成员之间的更多协作以及更紧密的反馈循环。看来我们也能以低廉的成本做到这一点，因此这将引发整个社会新层面的实验，”他说。

来自梅赛德斯的人工智能科学家米林德（Milind）表达了独立观点，他同意他的观点，他指出，从迄今为止所分享的内容来看，该模型的能力似乎“相当惊人”。

“视频在较长时间内的一致性和质量是一个相当大的突破。可以肯定地说，对于超个性化视频内容创建等用例来说，它非常有用。我也确信它会继续下去以改善未来提供的声音生成和细粒度控制，”他说。

对技术持谨慎态度

话虽如此，人们不应该太快地对这项技术感到太兴奋。战略公共关系集团总经理 Edwin Yeo 表示，营销人员需要对迅速采用 Sora 保持“警惕”，否则就会面临“很大程度的风险”。他说：

如果说我们从技术进步中学到了一件事，那就是技术往往超越法规和安全问题。

他补充说，对于 Sora 和生成式人工智能来说，使用和版权问题仍然是营销人员和内容制作人面临的一大挑战。

Yeo 补充道，除了版权和安全问题之外，还存在质量问题。 “就像人工智能艺术一样，用手来完成并不好，而且输出 4K 或 8K 格式视频所需的计算能力仍然存在问题。”

他补充说，就个人而言，他一直在使用 Midjourney 之类的工具进行概念演示。一旦获得批准，他仍然会回归摄影和DI。 “我认为在不久的将来，Sora 也会同样有用。这已经对营销工作流程产生了很大的影响，但我们离 Sora 能够取代视频制作还很远，”Yeo 说。

拉伊补充道，营销人员还需要警惕许多潜在的品牌安全问题。

拉伊表示：“首先，深度造假和错误信息构成了前所未有的新风险水平，可能会影响品牌安全。”此外，品牌可能会面临内容生成不当的问题，这些内容与品牌价值不符，或者可能具有攻击性或麻木不仁。赖说：

如果世界开始依赖人工智能生成的内容而不是人类的监督，品牌的真实性可能会受到打击。

除了这些问题之外，营销人员还应该警惕缺乏人工输入，因为 Sora 等人工智能模型可能会误解创意简报，还会带来数据隐私和安全挑战，从而可能导致版权侵权案件。

Rai 表示：“营销人员需要使用 Sora 来生成与个人偏好和行为产生共鸣的内容，同时将人类置于创造力、策略、分析和独特个人风格相结合的循环中。”
原文链接：https://www.marketing-interactive.com/101-sora-openai-video-text

【声明】内容源于网络

OpenAI

跨语桥梁

大家好

内容 4508

粉丝 8

跨语桥梁大家好

总阅读31666.8k

粉丝8

内容4.5k