今天是除夕,中国人都在放假,远在大洋彼岸的美国纳斯达克却爆了个大雷。英伟达(NVDA)暴跌了16.86%,拖累纳斯达克下跌3.07%。原因是中国杭州的一家人工智能公司深度求索推出了DeepSeek R1,性能对标OpenAI o1,训练成本只有557.6万美元,降到了o1的1/10,暴击所有算力厂商,首当其冲的就是NVidia,当然还有各类上下游相关公司。
网上关于DeepSeek的分析讨论已经汗牛充栋,背景信息也非常充足。我想从技术、商业和投资三个角度来分析这件事,供大家参考。
从DeepSeek发布的论文来看,R1在多个基准测试上接近或超过了OpenAI o1,在训练的后阶段大规模使用了强化学习技术,仅使用非常少的数据标注,就实现了较好的结果。
论文链接:
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
我个人也简单测试了一下,结果和OpenAI o1确实接近,尤其是在选择了“深度思考”和“联网搜索”功能后,在某些方面甚至超过了OpenAI o1,且速度飞快,令人惊叹。
真正让人感到震惊的是训练成本的下降,在论文里提到两点原因。第一是单纯的强化学习。由于不需要监督式学习以及依赖极少的数据标注,可以自我进化,避免了监督式学习中的微调工作,从而降低了成本。第二是R1使用了一种“冷启动”的策略,用小型、高质量的监督数据集启动训练,提高了训练效率。
论文提到通过R1蒸馏出其他6个小模型,降低了计算成本并保持推理能力,能对标OpenAI-o1 mini。这让许多小模型可以运行在算力不充分的设备上,大大降低其训练和运行成本。
至于R1是不是通过其他模型蒸馏出来的,论文里并没有提及。有些自媒体说R1是从OpenAI蒸馏出来的“学生模型”其实并没有什么依据。当然也有人怀疑上一个版本DeepSeek V3是套壳。因为曾经有一个Bug,V3认为自己就是ChatGPT:DeepSeek V3“报错家门”:我是ChatGPT。这或许是因为训练数据污染,目前也早已修复,在此就不做评论了。
DeepSeek在技术上至少已经跻身大模型行业的全球第一梯队,但未来是不是能突破还未可知。在对论文大致阅读后,我认为R1降低成本的关键似乎是那个用来冷启动的“小型、高质量的监督数据集”。今天我们可以通过OpenAI或其他模型的数据来生成一个数据集来加速训练,但是只能达到目前水平。未来如果想要突破,如何生成更优的数据集,则需要更进一步研究。
鉴于DeepSeek已经将R1的训练数据和模型开源,相信要不要了多久,业界的大模型水平就都是这种又便宜效果又好的R1了,这无疑将会在商业上对OpenAI、Cloude、Meta和Google等公司会造成巨大冲击。
DeepSeek R1 API 服务定价为每百万输入tokens1元(缓存命中)/4元(缓存未命中),每百万输出tokens16元。这个价格基本上暴击了所有玩家,R1输出API的价格只有o1的3.6%,对比国内的其他厂商价格也只是零头,不知道去年带头打价格战的阿里通义千问接下去要怎么玩。
这个大模型的“拼多多”会破坏目前绝大多数厂商的商业模式。在To C领域,收年费的厂商就很难受了,比如每月收$20枚美元的OpenAI。难怪DeepSeek的应用在Apple Store里直接冲上了第一。在To B领域,由于海外政策的限制,美国及相关国家的公司不会立即采购DeepSeek的产品。而国内市场则会天翻地覆,大量企业可能已经在研究怎么把过去对接在微软Azure OpenAI、智谱或豆包上的API切到DeepSeek上了。毕竟成本摆在那里,转换成本也不高,地主家的余粮也不多了。
DeepSeek目前还没有推出多模态的版本,也就是无法生成图像和视频,这是目前传统的大模型厂商能够喘息的地方,不过也不剩几天。就在我写这篇文章的同时,DeepSeek开源了Janus Pro AI模型(https://github.com/deepseek-ai/Janus),除了包含文生图能力以外,还有图像识别、地标识别、文字识别等多种能力。据说对齐MidJouney和DALL·E等一众产品,效果相当炸裂。最重要的当然还是成本低廉,整个训练过程是在32个8块Nvidia A100(40GB)节点上训练14天完成的。
对算力股的冲击主要是由于DeepSeek训练成本的巨大下降,华尔街认为会对英伟达这样的公司业绩造成冲击。确实,如果现在的AI能力已经能够满足大部分企业需求的话,企业不需要囤那么多算力。
换一个角度来思考,如果用不多的算力就能实现o1的效果,那么进一步把算力堆上去会不会推动人工智能的进一步突破呢?毕竟目前AI的能力还远远没有到够用的那一天。
在计算机领域,算法和算力永远是一对欢喜冤家。算法越精巧越好,需要的算力就越少。历史上CPU一直是越来越快,直到达到摩尔定律的瓶颈。今天我们还没达到Scaling Law的瓶颈,GPU的发展还有很长的路要走,算力永远是持续的需求。
我认为这是巨大的机会。DeepSeek开源了更好的训练算法,必然推动人工智能的进一步发展,用更少的算力实现更强的功能。这对英伟达不是利空,恰恰是利好。如果出现一个厂商能革命性地推出性能远超NVidia显卡的设备,那才是英伟达的梦魇。英伟达的敌人肯定不会是一个在算力之上的应用,只能是英伟达的替代品或更高阶的产品。DeepSeek怎么看都是OpenAI或是智谱的梦魇。哪有司机开车开得好,汽车厂商没需求的道理。
此外,DeepSeek R1目前在结果上也只是接近或打平了世界最领先的大语言模型,未来是不是能够超越还未可知。虽然幻方的创始人梁文锋在收到总理接见的时候说要逐步领先,但创新这个事情没法预测。未来要突破还需要更多高端芯片和算力的堆积。如果没有替代产品的话,对英伟达算力的需求就不会消失。
这段时间或许是AMD这种公司的喘息机会,可以加快他们的研发步伐,追赶NVdia。DeepSeek V3已经可以在AMD GPU上运行了,R1看着也不会太远,这会暂时影响英伟达的竞争优势。当然如果AMD的产品无法突破,当算力需求再度爆发时,依然还是英伟达的天下。
至于台积电的暴跌13.33%更是无厘头的拖累,其他公司难道就不用台积电来生产芯片么?这最多只会是刺破美国纳斯达克科技股泡沫的黑天鹅,而不可能成为算力和芯片行业的转折点。
这么看,华尔街确实被中国的玩家吓的不轻,疯狂出逃,搞得跟我们大A一样,听风便是雨,变成了散户市场。
好了,以上就是我对这次DeepSeek R1和英伟达暴跌的评论和观点。
关于作者
Hotcan,80后技术老炮儿和哲学爱好者
云计算和数字化转型的投资人和创业者
免责申明:
本公众号不以盈利为目的,内容仅供参考,个人及所属公司对发布的信息不作任何保证和承诺。如需转载,请您注明出处和保持信息完整性。如有未注明作者及出处信息或图片,请版权所有者联系我们,我们将及时补上,感谢您的辛勤创作。
本文斜体字由OpenAI GPT生成,内容经由作者审核;部分图片由DALL·E或Mid Journey生成并可能被作者编辑;部分视频由Sora生成。
作者对本文原创和AI生成的内容负责。