

尹·智专栏 | SORA明确了通用人工智能之路？

中智国培

2024-03-11

2024年2月15日正式对外发布

大年初七，一觉醒来，我的视频号一个劲给我推一个全世界都在热议的视频生成新模型，OpenAI的SORA，业内朋友也在转发我，这两天我看了一些资料，有几点值得聊一下：

第一是SORA只发布了技术报告，也没有透露太多的训练细节，之中也没有提及新的模型架构，还是扩散模型 + Transformer架构，所以这还只能算一个工程优化级别的提升（但确实很惊艳），并不是架构级的颠覆。从报告的发布内容看，SORA借助了ChatGPT中的Token的思路（把不同文字符号统一用有意义的数组来代表），提出了图像和视频中的”Patch”，通过一个个Patch补丁组合起来统一代表图像不同时间空间的视觉信息(也就是视频)，而把这些“组成部分”的时间和位置信息用大语言模型的Token来代表。这应该就是Vison Transformer的思路，用“预测图像的下一个视觉Patch”，来训练AI模型对视觉信息（以及背后的逻辑）的理解。这个对另一个AI大神杨立昆来说，可能有点不好接受，他一直对生成式AI在视觉信息处理上很不感冒，甚至到了他认为通用人工智能就不会是生成式AI的思路，从SORA放出来的视频看，至少生成式AI展示出了很强的进化为通用人工智能的潜力。

把视觉数据转化为补丁

第二，这还是大算力大数据的胜利，前面说了SORA没有引入新算法，只是在原有算法上引入新数据和新应用方式，而且他们自己也承认，用了大规模的训练，模型产生了能力“涌现”，一如当时的ChatGPT，所以生成式AI的潜力，看来还没有见底。

第三，如技术报告的标题，“作为世界模拟器的视频生成模型”，是一个非常好的思路，以前的视频生成模型只能生成几秒，或者生成的事物环境前后不一致（图片因为是静态的，没前后，没这问题），因为都没有对所处环境和所处理的事物的世界（大局）观，只能是在局部做生成。SORA的效果，类似三维游戏中服务器对游戏空间和之中事物的全局理解，就算游戏角色出了画面，游戏服务器也知道这个角色的位置等信息，也可以随观看视角输出不同形态，一如SORA的一些生成视频的示例。

最后也需要聊一下不足和挑战，第一是这个模型昨天刚刚开放有限的公测，昨天我看到了一些创作者使用Sora生成的视频，质量都还不错，但还需要时间检验这些是不是“Cherry Picking”的；想那阵Pika被吹上天的时候，我申请了公测账号自己试了一下，大失所望；第二，模型训练花了多少代价，生成视频需要多少算力，OAI没有说，但大概率是世界唯几的，靠天量GPU堆出来的。如果推理成本过高，一分钟视频还要后期修个50秒，这就还没法商用；第三，虽然角色、三维空间的镜头连贯性表明了SORA已经具备了对所处空间和事物信息的全局理解，有些视频也展示了事物之间的互动效果（比如人吃汉堡，汉堡少了一块），但需要注意世界模拟器不代表世界模型。OAI自己也承认，有些生成对物理规律的理解不到位，比如杯子掉地上不碎，把左右搞混了，等等，这说明模型可能还只是在“模仿”和“组合”已有视频的元素，而不是真正理解物理世界。