Sora的发布是一件大事,大到开始出现人传人的“出来见上帝”现象,而到底为何大却无人关心。观察各种讨论后还是觉得有些重要的东西没有说透,把很多信息和思考串起来总结成了四条“启发”,提前剧透,以下这里没有见上帝部分。
1. 视觉数据能训练出更强的泛化能力?
从Sora可以确定的信息来看,它的成功靠的是在所有人认为已经证明不可能的情况下,用数据精确处理后的大规模预训练硬生生带来了涌现——熟悉么,对,就是ChatGPT的又一次重演。
而这也是OpenAI的Scaling law的又一次成功。而过去很长一段时间很多人开始质疑scaling law。比如在过去几个月跟业界一线从业者交流中,大家几乎默认GPT4就是一个MOE(专家模型,由一群不同模型组成的大模型),而这被解读为单一模型能力撞墙,暗含着OpenAI坚持的scaling law的破产。但现在看,可能并非如此。在Sora的技术报告里有一句很有意思的话:Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.
“最大模型”。这句话有些故意含糊,是OpenAI最大的模型?比GPT5还大?还是这个系列最大的模型?最大的大又指的是什么大?
总之,大力出奇迹仍在继续。
OpenAI 的Scaling law原本是它的研究中得出的一个学术结论,它来自Ilya 和Karpathy等OpenAI的顶尖科学家们,但它正在快速变成一种路线,充满Altman意志的路线,变成这家公司的核心战略。Altman和科学家们的关系也呈现一种智术师与统治者的关系,思想体系诞生于前者,但最终为被后者按照个人意志改造。
不知所踪的Ilya和刚刚离职的Karpathy,作为OpenAI曾经最有代表的科学家都强调过scale的重要,但前者很快开始警惕无限扩张过程里的失控危险,于是开始超级对齐项目,而这个项目在OpenAI拿不到足够算力资源也被认为是宫斗爆发的导火索之一。Karpathy 则是从科研角度想弄清楚scale和算法的关系,提出“Algorithmic progress was necessity, now bonus”。而这句话带来的一统天下的前景,显然在“野心家”眼里会超过一切。
所以,今天如果把Scaling law视作这家公司的唯一路线,Altman最近的很多动作也就更好理解:
在竞争上,7万亿的传言,就是比别人更早scale到一个临界点,并且让其他人没卡可以用来scale,让自己的规模冲到极致从而让别人无路可走。在研究上,不再给学术界的研究足够的credit,也不认为有必要给。前者聚拢来的资源远超提出一些研究方法的学界,于是任何人的研究,都能变成他的成果——学术界造出来的,OpenAI全吞掉。
今天可以看到,每次OpenAI的新东西出来,都会有人出来“维权”原创,从Q*到今天sora背后的patch,推特上一名支持开源的学者说到:今天已经没有任何一条学术规范没有被OpenAI无视过。
而且这些都是Altman的“哲学”之一。几天前我刷到奥特曼的一条推特:
you have a right to your actions,
but never to your actions' fruits.
当时还在想这是什么意思,紧接着Sora来了,Karpathy走了。我们也明白了。
Ilya和Karpathy两个在坚持闭源的决心上远没有Altman坚定,对开源一直比较暧昧的人,最终成了这一切的注脚。
这一切是不是也让你感到很熟悉?Scaling law正在被Altman演化成OpenAI版的moving fast and break everything 。也许这也是今天逼出了一个最强扎克伯格的原因。这也再次说明Altman和扎克伯格可能才是同一类人。
3. 这只是我们和AGI的第一次亲密接触,一切仍在中间态。
这几天人们拿各种文生视频产品和Sora对比,发现它全面碾压,而非各有所长。这其实反而更说明它是视觉模型本身的ChatGPT时刻,第一次证明这条路线可行,并让人们看到未来雏形。
不过,Sora在生成视频的意义之外,还在于语言模型突破后又迎来视频和物理世界虚拟生成的突破,所以更大的意义是向着AGI前进的一个里程碑。
GPT4出现后,微软当初那篇全面评测的论文,取名通用人工智能的火花,它的团队原本起的标题叫做:与通用人工智能的第一次接触。而从迈向更通用的智能的意义来看,Sora更适合这个标题。
它预示着新拼图会继续不断出现,也意味着一切都还没到“彻底变天”,反而今天的一切都只是中间态。
Sora对Dalle3的冲击已经很容易想到,而被Sora强行抢了头条的Gemini不仅明确用了MOE,而且第一次达到100万上下文长度——这已经不是对语言模型的突破,当你可以有100万上下文,你可以放进更多模态的数据,所以这样看它是和Sora有直接竞争关系的,为什么要选在Gemini 1.5后几小时急着用一个“PPT”发布Sora,可能也更好理解了,OpenAI比谁都明白,有了上下文长度就有了一切,不管你叫什么模态的模型。
这一切都指向今天还被认为是最强大的GPT——它也只是个中间态。一切都还有机会。
4. 不必妄自菲薄
2 月 18 日 19:30我们邀请社群里的两位嘉宾:
灵动 AI 创始人雷海波和 InstantID 团队成员 王浩帆。
聊一聊 OpenAI 的现象级模型 Sora,
欢迎大家扫码观看。

