加(微信:New-leaders)进领导者读者群
为避免错过好文,请朋友们将本公众号加“星标★”吧。第一步:点击上方蓝字”,第二步:点击右上角“……”,第三步:设为星标★。

AI圈炸了!OpenAI刚刚发布了一个新模型Sora,宣布视频生成领域的GPT-4 时刻到来!
这是OpenAI首款文本到视频的模型,但出道即王炸,Sora能够根据用户的一句话生成长达一分钟的视频,且视频流畅度和稳定性皆在水准之上。
Sora 的问世将视频制作的艺术推向了新的巅峰,其AI制作的视频展现出了复杂的摄影艺术、多元角色设定、逼真的情绪捕捉以及对物理规律的精确模拟。
据悉,这是在 OpenAI 之前的成就——图像创作神器 DALL-E 以及文本生成巨擘 GPT-3 和 GPT-4的基础上,进一步的创新与突破。
Sora 不仅能够在视频主体暂时离开镜头时保持故事线的流畅,还能确保视频内容的真实性和逻辑性,不让任何细节显得突兀或不自然。得益于其采用的Transformer架构,Sora 在处理视频生成的可扩展性上也远超以往任何模型。
以下是两个示例:
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually. the street is damp and reflective, creating a mirror effect of the colorful lights. many pedestrians walk about.”
提示:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。

Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. the use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.”
提示:“动画场景特写一只矮小的毛茸茸怪物跪在一支融化的红色蜡烛旁。艺术风格是 3D 和逼真的,重点在于光线和纹理。画面的情绪充满了惊奇和好奇,怪物睁大眼睛,张开嘴巴凝视着火焰。它的姿态和表情传达了一种天真和顽皮感,仿佛是它第一次探索周围的世界。温暖的色彩和戏剧性的光线进一步增强了图像的舒适氛围。”
我们来看下部分文生视频的效果。
提示:几只巨大的毛茸茸的猛犸象踩着白雪皑皑的草地走近,它们长长的毛茸茸的毛毛在风中轻轻吹拂,远处白雪皑皑的树木和壮观的白雪皑皑的山脉,午后的光线与薄薄的云层和远处高高的太阳营造出温暖的光芒,低相机视角令人惊叹,用美丽的摄影捕捉了大型毛茸茸的哺乳动物,景深。
不过,OpenAI表示,目前该模型有弱点。它可能难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系的具体实例。例如,一个人可能会咬一口饼干,但之后,饼干可能没有咬痕。
该模型还可能混淆提示的空间细节,例如,左右混淆,并且可能难以精确描述随时间推移发生的事件,例如遵循特定的相机轨迹。
弱点:Sora有时会产生身体上难以置信的动作。

Sora的设计原理

Sora 的工作原理可简单概括如下:
扩散模型:Sora 的起点是一个类似于静态噪声的视频画面,它逐步移除噪声,生成清晰的视频。想象一下,就像是从一张模糊的照片开始,逐渐使其变得锐利和清晰。
视频生成:Sora 能够一次性创造完整的视频或者延长现有视频的长度。它能够跟踪视频中跨越多帧的事件,即使某物短暂地消失在视野之外,Sora 依旧能够“记住”它的存在。
换句话说,Sora 的基础是扩散模型,从“随机噪声”开始,通过上百个细致的处理阶段,逐步演化成为一个连贯且生动的视频场景。这不仅使得 Sora 生成的内容在视觉上更加逼真,动态表现也更为流畅,相较于早期的生成式 AI 模型,有了显著的进步。
Sora 建立在 OpenAI 的图像创造工具 DALL-E 的基础之上,借鉴了 DALL-E 的文本解读技巧,使其能够将文字提示精确转换为视频画面。Sora 还能够为现有图片赋予动态效果或延伸视频内容的长度。
该模型通过将视频拆解为众多小块,这些数据单元与自然语言模型中的词汇相似,采用这种统一的数据表现形式,使得 Sora 能在多样化的视频数据上进行训练,涵盖不同的时长、分辨率和宽高比。Sora 采用Transformer架构,针对长序列视频的处理有非常好的扩展能力,得益于Transformer并行处理数据的特性,因此长视频内容具有良好的一致性。
如何使用?

在将 Sora 集成到OpenAI 的产品系列之前,目前已向一批研究者和专业人士开放了 Sora API 的访问权限。艺术家、电影制片人和设计师等创意人也可申请此权限,从而为OpenAI 提供反馈。
虽然 Sora 的公开发布时间尚未确定,但 OpenAI 已经明确表示,Sora 预示着 AI 技术迈向下一个发展阶段的步伐比众多人预期的要快。2024 年有可能成为 AI 从引人注目的演示转变为革命性产品的关键年份。
Sora可能带来的影响
如果Sora能够真正意义上实现文生视频,可能会带来哪些影响呢?
1、没有演员的影视作品出现,对演员来说是个小挑战,将出现真正的“虚拟偶像”,此前的二次元人物并没有真正达到“偶像”的级别。

2、利好编剧行业,剧本、文本创作力成为核心竞争力。
3、Sora可能才是真正的文生视频,此前的文生视频大多只有2秒,仅仅是对象的小幅度移动。
4、OpenAI继续拉大领先程度,对众多还在进行大模型测试打分pk的厂商,构成压力。
6、摄影师行业也会受到影响,用文本来生成一些视频,可以省去很多拍摄工作。
7、短视频流行开以后,视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用AI来代替,可能会有很多视频剪辑师失业。
8、对于很多短视频创作者来说,用AI来替代繁琐的剪辑工作,可以大幅提高工作效率。
9、很多歌手拍摄MV都是大成本制作,如果可以用AI来生成所需要的MV画面,也可以省去很大一部分制作成本。
10、另外,如果真正意义上的文生视频得以实现,可能会有不法份子利用这项技术实施新手段的违法犯罪。
不过,从Sora官网目前展示的视频画面效果来看,效果还没那么逼近真实,短期内不会产生让行业失业,但会有辅助作用,做个动画片应该问题不大。
在Sora官网,OpenAI表示,Sora是能够理解和模拟现实世界的模型的基础,OpenAI相信这一能力将是实现AGI的重要里程碑。
如何应对风险?
Sora 开辟了一条创新之路,展现了一种破天荒的 AI 技术,这技术有潜力极大地扩展人类在视觉故事讲述方面的创造力。无论是独立电影制作人还是动画师,都可以通过 Sora 低成本地创作复杂的场景和人物,为他们的作品提供一个跳板。
广告制作人同样能利用这一技术快速原型化动态视频概念,更有效地向客户展示他们的创意。
然而,和所有生成式 AI 技术一样,如果没有严格的监管,Sora 的使用可能会走向歧途。它可能被用于制作带有误导性的视频内容,比如用于宣传或诈骗,这是不能忽视的风险。但 OpenAI 明确表示,他们正在对 Sora 实施细致周到的安全措施。
为了确保 Sora 的正当使用,OpenAI 正与虚假信息、仇恨言论和媒体领域的专家紧密合作,共同开发监管策略。这其中包括创建 AI 分类器,专门识别 Sora 生成的视频,并确保遵循 OpenAI 的内容政策。此外,还会邀请外部研究者在 Sora 正式发布前对其安全措施进行逆向测试。
面对如何负责任地推出这样一款强大的视频生成工具的挑战,研究团队充满信心。他们相信,通过与所有相关方的共同合作和开放透明的沟通,可以使像 Sora 这样的 AI 技术不仅推动人类创造力的发展,同时也能有效地控制相关风险。


@THE END



欢迎加入领导者社群
文章来源 :领导者养成笔记「ID:GoToLead 」,转载请公众号回复“转载”
版权说明 :我们尊重原创者版权,除我们确实无法确认作者外,我们都会注明作者和来源。在此向原创者表示感谢。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权立即删除内容;本文内容为原作者观点,并不代表本公众号赞同其观点和对其真实性负责。

