大数跨境
0
0

OpenAI Sora到底有多强! 看完就明白了,颠覆视频生成领域,附上体验入口

OpenAI Sora到底有多强! 看完就明白了,颠覆视频生成领域,附上体验入口 马哥随笔
2024-02-18
0
导读:OpenAI Sora到底有多强! 看完就明白了,颠覆视频生成领域,附上体验入口

马哥随笔 丨 作者 /  马哥   

跟着有结果的人学习 提升认知 少走弯路


2024年2月16日凌晨(美国时间2月15日),OpenAI发布了名为Sora的“文生视频”(text-to-video)工具,这消息简直让全世界都震惊了!人们在各种社交平台上用各种语言纷纷惊呼:现实,瞬间颠覆了!

这是一段咒语(Prompt):
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
翻译成中文就是:一位时尚的女士,在充满温暖发光的霓虹灯和动画城市标志的东京街上行走,她穿着黑色的皮夹克,一条长虹裙和黑色的靴子,背着黑色的手提包。他戴着太阳镜,涂着红色的口红,走路自信而随意,街道潮湿而且具有反射性,营造出五光10色灯光的镜面效果,旁边有行人在四处走动。

意味着通用人工智能,也就是AGI,可能会从10年缩短至1年

因为它可以轻松创建包含多个角色,特定动作主题和背景细节的复杂场景。

你需要获得什么视频,你只要输入一句话就可以,AI就可以帮我们轻松一键生成。而且,生成视频的时长已经提升到1分钟,你说以后谁还会苦哈哈的拍视频,不仅要花那么多钱买设备,还要学习各种拍摄技术。

费那么多时间干嘛!

现在AI文生视频就可以分分钟搞定了,如果说ChatGPT(还不会访问GPT的记得联系马哥获取教程)的诞生,它已经对程序员、艺术家、以及普通重复性的工作造成巨大影响!

那么Sora的文生视频技术出现势必会对视频创作领域,带来降维式的打击。

因为OpenAI Sora文生视频大模型,它已经能够理解物体在物理世界中的存在,它能够准确解释道具并生成表情丰富的角色,不仅如此,还能基于静态图像生成视频,填充或者扩展稀有视频的帧。

大家可以看一下,这只站在窗台上的小狗,它也是由OpenAI Sora生成的,小狗的表情动作,跃跃欲试的那种感觉,AI把握的非常到位啊!它已经很难让你察觉这是由AI生成的,因为它的场景运镜,几乎已经做到了以假乱真的地步。

我们再来看一下这只跃跃欲试的小猫,你能发现这是假视频吗,我还真以为是哪个视频博主拍摄的啊,但他确实有Sora AI生成的视频。

还有这个从上向下俯拍的场景,我敢肯定啊,对于99%以上的人来说,都会误以为自己有无人机拍摄的视频。因为我们可以看到他下面的人啊,实在是太逼真了,这哪像是AI生成的呀,但是不可否认的是,它确实是OpenAI Sora的产物。

对于一个视频博主来说,以后要创建这种无人机拍摄场景,你几乎都不需要去购买设备,只要你给的提示值足够详细,你想要某种无人机拍摄的素材,都可以通过AI来搞定。

那么现在为什么它如此强悍呢?

因为Sora它是一个基于大规模训练的文本控制视频生成扩展模型,不仅能够生成长达一分钟的高清视频,涵盖广泛的视觉数据类型和分辨率,而且又在视频和图像的压缩前在空间中训练过,它能够将其分解为时空位置补定。

实现了可扩展的视频生成,Sora还展现出一些模拟物理世界和数字世界的能力,比如还有三维一致性的和交互,它揭示了继续扩大视频生成模型的规模,从而来发展高能力模拟器的前景,不仅可以生成变化分辨率,它可以生成不同长度和纵横比的视频。

如果,你想第一时间体验这个视频生成技术,那么你需要进入到OpenAI Sora的体验入口,链接会放在文章下方或者你可以通过私信的方式获取。

目前他只对测试人员开放,但是不得不说啊,当一个质量更好时长更长,应用场景更广泛的视频模型,摆在我们面前,那么像之前这种Runway,一次性只能生成4-18秒的视频生成工具。

它曾经创造的天花板已经被打破了,因为OpenAI Sora的能力是革命性的,不仅生成视频长度更长,最关键的是,它镜头的前后连贯性和一致性啊,是空前绝后的,生成的视频不仅高清,而且画面超逼真不仅可以生成人物画面,也能够轻松生成动物和自然风光。

比如像这个视频,几只巨大的毛茸茸的猛犸象,踏着白雪皑皑的草地向我们走进,这种低相机的视角,可以令人惊叹地捕捉到大型毛茸茸的哺乳动物,景深把握的十分到位。

当然用3D和动漫风格生成虚拟场景对solo来说也不在话下比如像这个动画场景的特写,这是一个毛茸茸的小怪物,跪在即将融化的红蜡烛旁边,活灵活现的。

其实Sora这次能够突破视频长度和高度逼真的瓶颈,其实也在摸着DELL-E这款大模型的石头过河,在这之前,为了在保证生成画质的前提下,视频时长能够突破10秒,对于大多数视频模型而言都是难以企及的高度,因为这涉及到循环网络、生成对抗网络、Diffusion等主流视频建模范式的束缚,通常只能学习某一类视频或者数据较短的视频。

这意味着此前主流范式下的视频生成模型,对训练数据有较高的要求,之前都需要训练数据处理为具有标准大小或者是裁剪固定尺寸的视频,造成这种局面是有原因的。

因为根据OpenAI技术报告显示,为了构建Sora他们创新地采用了文生图模型DALL-E 3的相关技术,将Diffusion模型和Transform神经网络相结合,从而可以将随机像素大致转化为图像并且支持处理长数据序列。

这意味着,说到可以像处理文字和图像数据一样,对视觉数据进行方块式的理解和分析,不用装寻标准化的预线处理,并且随着计算量的规模式的提升,视频生成质量得到显著提升。

比如像这个,早期基于基础计算量生成的样本,效果简直可以用支离破碎来形容啊,

然后这只基于4倍计算量生成样本,效果比刚才就好一点点了。

然后这只基于10倍计算量生成样本效果,效果就非常惊人了,这跟我正常拍摄视频已经相差无几的。

所以说Sora基于原始数据而非标准化处理数据训练,不仅可以让它初步拥有理解真实或虚拟世界的能力,还能够灵活生成不同各种分辨率和尺寸各异的视频。  

目前他可以生成视频尺寸范围是,宽屏是1920×1080p,然后竖屏是1080×1920p,这两种分辨率,可以适应目前主流的不同场景和设备的使用需求。

我们再来看下这个视频啊!

对于AI视频来说,它对关于你的构思已经远超我们普通人的能力了,真真假假虚虚实实已经难以分辨,当然目前它还是有瑕疵的并非百分百完美,比如像这个视频片段看见总感觉哪里不对劲。

你们可以看出来吗?

这个凳子是怎么跑出来的,确实有点诡异啊,原来他还是会凭空漂浮的,这就不符合逻辑了。

当然OpenAI官方,也放出了一些Sora的一些翻车视频,它展示了Sora在理解复杂场景的物理原理,因果关系,空间细节时间推移上的弱点。

比如像这个视频,它搞反了人在跑步机上跑步的方向了,这明显是不合理的。

还有这些小狗视频,也出现了视觉上的幻觉,空间细节没有处理到位。

很像这个生日Party视频,这位老太太的表情和动作,也出现了明显的诡异行为啊,所以它还是有瑕疵的。

但大体情况还是让人满意的,比如这个AI生成的人脸眼镜、人的眼球。

视频对于AI来说是很难把握的,但是Sora这次生成效果还是非常不错的,而这位老爷子看起就像某个电影里的场景,人物景深背景虚化做的非常到位。

以后拍摄电影,相近复杂的或者危险动作都可以通过AI来完成啊,因为它的生成逼真程度已经让你叹为观止,别人舞狮子的画面,不知道人还以为是路边随手拍摄的。

但它确实是AI生成的,太多的画面、太多场景,不得不让你惊叹啊,不知道以后对于视频创作者来说这到底是好事还是坏事!

大家可以猜一下。

这场技术性的革命。

到底最后会革了谁的命。

点击前往:OpenAI Sora体验入口

需求人群:

  • 生成扩散模型视频内容

  • 提供视觉模能力的应用开发

  • 创建和编辑视频内容的工具


使用场景示例:

  • 在视频生成应用中使用Sora生成符合文本提示的内容

  • 结合Sora在游戏或模拟器中生成高保真纹理和环境

  • 通过Sora实现图像和视频的无缝编辑和过渡



产品特色:

  • 基于文本提示生成高质量视频

  • 生成变化分辨率、长度和纵横比的视频

  • 基于图像和视频继续生成

  • 模拟物理和数字世界的某些行为

  最后  

市面上最强AI,ChatGPT目前上市已有1年多,但苦于国内限制很多想使用的人却不会操作!所谓有需求就有市场,给大家放一波福利

推荐一个《一小时入账好几万!利润大到吓人的ChatGPT代注册小生意,10分钟教会你,风口项目人人可做》只收39.9的小项目(合伙人免费领取)

领取福利小项目想了解合伙人的,可点击《2024,普通人还有机会吗?努力做了也许会成功,但不做永远没有机会!》或扫描下方二维码加马哥微信了解。


↑扫码加我,了解项目

OpenAI Sora的AI将根据文字描述生成逼真的视频,无需人工拍摄和制作。

你能想象以后使用这项技术,拍摄视频将会变得更加简单,但同时也可能挑战传统视频创作的方式。

你认为这种技术对于视频创作者来说是机遇还是挑战?

一个人可以走得很快,但一群志同道合的人可以走得更远!!

---

【推荐阅读】



 不止于技术提升,更始于终身成长

  2024让我们一起向上生长

长按二维码加我一起搞钱


▲ 长按关注马哥,与我们一起创造财富


项目合作 技术咨询 | 案例撰写 | 转载开白

请在公众号后台回复  合作 

【声明】内容源于网络
0
0
马哥随笔
互联网创业8年,带出过1000多名学生,这里不讲大道理,只有真知识,实用不实用,用了就知道!
内容 39
粉丝 0
马哥随笔 互联网创业8年,带出过1000多名学生,这里不讲大道理,只有真知识,实用不实用,用了就知道!
总阅读0
粉丝0
内容39