可以想象它在人工智能界引发的震撼 —— 尤其是在 AI 领域的研究人员、创业者、资金、算力和资源最扎堆的硅谷。不少硅谷 AI 领域的重要人士都不吝惜对 DeepSeek 的称赞,比如 OpenAI 联合创始人 Andrej Kaparthy 和 Scale.ai 的创始人 Alexandr Wang。尽管 OpenAI CEO Sam Altman 发了一条疑似影射 DeepSeek 抄袭借鉴其它先进成果的推文(很快就被人回怼“是指把Google 发明的 Transformer 架构拿过来用么?),但 DeepSeek 收获的赞誉确实是广泛而真诚的,尤其是在开源社区,开发者用脚投票。
很有意思,美国科技界对中国比较友善的人士——其中包括马斯克——经常总结中国在一些领域的成功经验是聪明、勤奋和有方法,这当然没什么问题。但它解释不了,至少在 AI 领域解释不了的一个问题是:中国的其它大模型公司和 AI 人才同样聪明、勤奋和擅长方法创新,他们的很多技术方法创新也卓有成就(DeepSeek 的分布式推理,我第一次注意到类似的创新是月之暗面的 Mooncake),但为什么没有引发如此轰动的世界级效应?当然今后他们可能也会,但至少,为什么这次是DeepSeek?
将 DeepSeek 比喻成 “AI 界的拼多多” 是偏颇的,认为 DeepSeek 的秘方就是多快好省也是不全面的。中国的大多数 AI 公司都缺卡,也都因为缺卡而拼命搞架构创新,这点没什么不同。要知道,DeepSeek 在硅谷受到关注和追逐不是这两周刚发生的事。早在2024年5月 DeepSeek - V2发布的时候,它就以多头潜在注意力机制(MLA)架构的创新,在硅谷引发了一场小范围的轰动。V2 的论文就引发了 AI 研究界的广泛分享和讨论。当时,一个非常有意思的现象是:X 和 Reddit 上 AI 从业者在讨论 DeepSeek - V2,同时,DeepSeek 在国内舆论场被描摹成了“大模型价格战的发起者”,有点平行时空的感觉。
它营造了一种氛围:这些最聪明的年轻人进入到了一家外表看起来是公司的机构,然后在这里继续延续他们的学术生涯,可以调动比在纯粹的学术机构(比如高校实验室)多得多的计算资源和研究数据。科技公司的研究机构是科学家的“国中之国”,取代高等院校成为学术成果主要贡献者的趋势益发明显。它越不受到公司商业目标的干扰,产生颠覆性学术成果的机会越大。Google 的研究人员提出生成式人工智能的基础—— Transformer 架构是在 Google 的 AI 商业化目标尚不清晰的 2017年,这两年反而鲜有成果。OpenAI 的 GPT-3 和 GPT-3.5 两个关键时刻的诞生都是在聚光灯之外,而当它越来越像一家公司的时候,一切都乱了。
这也是 DeepSeek 区别于大多数中国的 AI 创业公司,反而更像是一家研究机构的地方。这轮 AI 创业的创始人基本都是科学家和研究人员,但他们拿了 VC 和 PE 一轮又一轮的钱,就不能随心所欲地搞研究和发 paper,而必须聚焦产品化和商业化(这很可能不是他们最擅长的事)。科技巨头养得起研究机构和科学家,但一旦要求研究成果迅速应用于产品和商业,团队也会变得更复杂,而不再有纯研究人员的简单和清澈。美国的一些科技巨头有不受商业目标干扰的研究机构,但时间过久,又难免沾染了学术界论资排辈的门阀气息。都是由最聪明的年轻人组成的商业公司的研究机构,只在关键的几个时间点出现过——几年前的 OpenAI 和 DeepMind,以及现在的DeepSeek。
开源社区迄今仍是 AI 学术研究、分享和讨论最热烈、充分、自由和无国界的地方,也是 AI 领域最不“内卷”的地方。DeepSeek 从第一天就开源,应该是深思熟虑的。开源就要真开源,开得彻底,从模型权重、到数据集,再到预训练方法,悉数公开,而高质量的论文也是开源的一部分。年轻聪明的研究人员在开源社区的亮相、分享和活跃具有高能见度。看见他们的人,并不乏一些全球 AI 领域最重要的推动者。
聪明的年轻 AI 研究人员 + 研究机构的氛围(配上大厂的package)+ 开源社区的分享和交流,提高了 DeepSeek 在全球 AI 领域影响力和声望。对一家以产生 AI 研究成果而非发布商业化产品为主要目标的机构而言,Hugging Face 和 Reddit 就是最好的发布会会场,数据集和代码库就是最好的 demo,论文就是最好的新闻稿。DeepSeek 基本就是这么做的,而且做得很讲究。所以即便 DeepSeek 的研究人员和 CEO 鲜少接受媒体采访,也几乎从不在论坛和活动上分享技术经验和洞察,但你不能说它没做营销。反之,以证明中国 AI 原创研究可以引领全球趋势、招聘最聪明的研究人员的目的来说,DeepSeek 的“营销”是极其精准和有效的。
这里值得提一句,过去的一年中国的开源大模型主要玩家确实在全球 AI 研究和产品方面赢得了不少尊敬。一个越来越普遍的看法是:比起美国和欧洲的一些开源模型,中国的开源大模型在开源程度上更为彻底,更容易被研究人员和开发者直接拿过来上手研究或优化自己的模型。DeepSeek 就是一个典型代表,除了 DeepSeek,阿里巴巴的通义(Qwen)也被 AI 研究领域普遍认为开源态度较为真诚,面壁智能的小模型 Mini-CPM-Llama3-V 2.5 因为被斯坦福本科生团队直接套壳也意外走红了一把。
所以很有意思:国际 AI 界特别是硅谷认为中国大模型的代表玩家是 DeepSeek 和阿里巴巴,而我们自己觉得是豆包、可灵和所谓的 AI 六小龙。客观地说,就国际 AI 界特别是硅谷能公正、积极地看待中国 AI 创新能力和对全球社区的贡献方面,DeepSeek 和阿里巴巴们做得更多。开源在任何时候都是一件正确的事。