大数跨境
0
0

尹·智专栏 | SORA明确了通用人工智能之路?

尹·智专栏 | SORA明确了通用人工智能之路? 中智国培
2024-03-11
1

2024年2月15日正式对外发布


大年初七,一觉醒来,我的视频号一个劲给我推一个全世界都在热议的视频生成新模型,OpenAISORA,业内朋友也在转发我,这两天我看了一些资料,有几点值得聊一下:
第一是SORA只发布了技术报告,也没有透露太多的训练细节,之中也没有提及新的模型架构,还是扩散模型 + Transformer架构,所以这还只能算一个工程优化级别的提升(但确实很惊艳),并不是架构级的颠覆。从报告的发布内容看,SORA借助了ChatGPT中的Token的思路(把不同文字符号统一用有意义的数组来代表),提出了图像和视频中的”Patch”,通过一个个Patch补丁组合起来统一代表图像不同时间空间的视觉信息(也就是视频),而把这些“组成部分”的时间和位置信息用大语言模型的Token来代表。这应该就是Vison Transformer的思路,用“预测图像的下一个视觉Patch”,来训练AI模型对视觉信息(以及背后的逻辑)的理解。这个对另一个AI大神杨立昆来说,可能有点不好接受,他一直对生成式AI在视觉信息处理上很不感冒,甚至到了他认为通用人工智能就不会是生成式AI的思路,从SORA放出来的视频看,至少生成式AI展示出了很强的进化为通用人工智能的潜力。
把视觉数据转化为补丁

第二,这还是大算力大数据的胜利,前面说了SORA没有引入新算法,只是在原有算法上引入新数据和新应用方式,而且他们自己也承认,用了大规模的训练,模型产生了能力“涌现”,一如当时的ChatGPT,所以生成式AI的潜力,看来还没有见底。

第三,如技术报告的标题,“作为世界模拟器的视频生成模型”,是一个非常好的思路,以前的视频生成模型只能生成几秒,或者生成的事物环境前后不一致(图片因为是静态的,没前后,没这问题),因为都没有对所处环境和所处理的事物的世界(大局)观,只能是在局部做生成。SORA的效果,类似三维游戏中服务器对游戏空间和之中事物的全局理解,就算游戏角色出了画面,游戏服务器也知道这个角色的位置等信息,也可以随观看视角输出不同形态,一如SORA的一些生成视频的示例。
最后也需要聊一下不足和挑战,第一是这个模型昨天刚刚开放有限的公测,昨天我看到了一些创作者使用Sora生成的视频,质量都还不错,但还需要时间检验这些是不是“Cherry Picking”的;想那阵Pika被吹上天的时候,我申请了公测账号自己试了一下,大失所望;第二,模型训练花了多少代价,生成视频需要多少算力,OAI没有说,但大概率是世界唯几的,靠天量GPU堆出来的。如果推理成本过高,一分钟视频还要后期修个50秒,这就还没法商用;第三,虽然角色、三维空间的镜头连贯性表明了SORA已经具备了对所处空间和事物信息的全局理解,有些视频也展示了事物之间的互动效果(比如人吃汉堡,汉堡少了一块),但需要注意世界模拟器不代表世界模型。OAI自己也承认,有些生成对物理规律的理解不到位,比如杯子掉地上不碎,把左右搞混了,等等,这说明模型可能还只是在“模仿”和“组合”已有视频的元素,而不是真正理解物理世界。
然而,SORA很可能将一条通用人工智能道路照得更加明确了。虽然我们现在还无法预料,在持续增加算力和提升数据质量数量后,生成式AI的能力是否能持续进化,是否能就此达到和超过人类,但从SORA看,这是一个有希望的方向。静待SORA大规模公测。


大数据&AI专家

尹   智

• 上海人工智能技术协会首席顾问 

• 中智国培人工智能方向首席讲师

• 上海市人工智能技术协会青少年AI教育首席专家

• 上海市元宇宙产业发展专家咨询委员会专家

• 上海市电竞协会首席AI专家

• 临港产业大学客座教授

• 上海人工智能研究院专家讲师

• 原商汤科技城市元宇宙首席架构师

• 原商汤科技智能产业研究院首席架构师

• Oracle Master企业架构师

• 原惠普企业服务新形态IT首席架构师

【声明】内容源于网络
0
0
中智国培
中智国培科技发展(北京)有限公司是数字智能科技型培训公司,前身为中智培训中心,基于25年来为大型企业人才培养经验,中智国培锚定数字经济推动企业高质量发展,聚焦企业数字化转型所需的复合型人才与数智化组织发展需要。
内容 1085
粉丝 0
中智国培 中智国培科技发展(北京)有限公司是数字智能科技型培训公司,前身为中智培训中心,基于25年来为大型企业人才培养经验,中智国培锚定数字经济推动企业高质量发展,聚焦企业数字化转型所需的复合型人才与数智化组织发展需要。
总阅读0
粉丝0
内容1.1k