什么是更有价值的开源?
在王坚看来,在模型训练依然成本高昂的当下,开源代码不是关键,更重要的是开源模型训练的资源(数据和计算资源)。
“开源”这个词其实大家有不同的理解,我们今天正在经历一个从代码的开放、开源,到资源的开放、开源的革命性变化。其实最近一年发生了很多事情,如果站在人工智能的角度,2025年注定是非常不平凡的一年。
2025年1月13日,美国公布了对人工智能的出口管制。
这个管制令有一个非常有意思的事情,也可以讲是一个漏洞。
它只是明确地提出了对“闭源”权重的出口管制,
而专门强调了“开源”的权重不在管制之列。
当时,世界上最好的基础模型都是在美国头部的那几家公司。
可是就在1月31日,随着千问Qwen的开源,DeepSeek的开源,在1月30日Sam Altman说过一句让所有人都很震撼的话:
在开源这个时刻,OpenAI站在了历史的错误一边。
我想这句话背后的含义我就不多说了,他不是一个策略性的错误,这是一个历史的选择。
可能很少人知道,其实是在1998年,“开源”(Open Source)这个词,指的就是Open Source Code,开放源代码。在当时,“资源”的概念还是没有那么深入人心,因为数据量不足够大,模型不足够复杂,算力也没有想象那么大。
AlexNet(Geoffrey Hinton发表的图像识别技术)发表的时候只用了2块普通打游戏的GPU卡,远不是今天想象的规模。
但这一切在2017年发生了很大的变化。
那时候,几位作者提出了“Transformer”,提出了“Tokenization”,就是今天讲的Token。
当规模到这个程度的时候,资源就变成了非常重要的事情。
大家试想一下,到今天模型权重的开放本质上是数据资源和计算资源的开放,有了模型开放以后,你再也不需要自己花掉那么多计算资源重新做有人替你做掉的事情。
我想说,开放并不意味着大规模计算不重要了,而是作为个体不需要再重新发挥这么多资源,因为有人帮你付掉了这笔钱。
倒过来讲,要做一个更好的模型,可能需要有其他人以更多的资源投入来完成这件事情。到了今天这个时候,只是开放源代码,其实不解决过去在软件时代解决的问题,而开放资源(特别是数据和计算资源),是让我们推动行业往前走的不能缺失的环节。
这就是今天人工智能时代说“开源”非常重要的特点,我更愿意把开源叫“Open Resource”。
大家知道Open Source和Open Resource翻译成中文,都可以有同样的表述,叫“开源”。
空间因“您”而变!
联系『变芯®空间』
合作沟通:请加 zr18620222480
合伙人招募:1638079312(微Q同号)
供应链接:请发至1638079312@qq.com

