靠的是什么？DeepSeek破了英伟达禁令，让硅谷地震，还打了国内专家的脸- 大数跨境

首页

靠的是什么？DeepSeek破了英伟达禁令，让硅谷地震，还打了国内专家的脸

刃辛机器人

2025-01-30

导读：全球AI中心或已转移到中国。

全球AI中心或已转移到中国。

文章要点

■

国外的AI大模型，如GPT4o，好比西餐烹饪，厨师尊贵，厨具种类繁多、工艺复杂、用途专一，严格按照食谱缩写，靠量杯和计时器来精确分毫，才做出尚算可口的食物。

为防止中国偷学了去，西方人不仅禁售厨具（如禁售英伟达A100），且餐谱保密（如ChatGpt不开源）。

而DeepSeek则一把菜刀打天下，只一锅一铲，煎、炒、烹、炸、溜，就做出一道道风味独特的大席，而且菜谱完全公开。

作者丨陈重山

异军突起

85后小伙梁文锋或许也没想到，他能获得今天这样的成就。

他出生于广东省的一个五线城市，父亲是一名小学老师，17岁以所在高中第一名的成绩，考上了浙江大学，学习信息与电子工程学，一直读到了硕士。但他并不以进入大厂为终身理想。哪怕当时处于2008年金融危机期间，他依然躲在廉价出租屋里研究量化对冲。

量化对冲是资本市场的一种选股策略：不断训练大模型，利用大模型选股，提高胜率，并用对冲策略降低风险。

梁文锋创办的幻方量化，管理资金规模曾达千亿元，一度是国内量化私募“四巨头”之一。

股市中小散“韭菜”最深恶痛绝的，就是这些“搞量化交易的”。有关部门对其管理也在不断加强。

梁文锋或许是唯一一个登上“大雅之堂”的量化交易人。1月20日，他受邀参加了“顶层会议”。但他谈论的不是量化交易，而是AI，这源于他创办的另一家公司深度求索（DeepSeek）。

在“顶层会议”上发言的梁文锋

截图于央视网

DeepSeek R1的发布，已使硅谷地震。在第三方基准测试中，此前发布的DeepSeek V3的表现，已优于OpenAI、Meta和Anthropic等美国领先AI公司产品。

1月26日，美区app store免费app排行榜中，DeepSeek飙升到第9名。作为对比，一度“火到国外”的小红书，目前在排行榜中已经下降到第36位了。而在AI类的排行中，DeepSeek仅次于第一名的OpenAI公司的ChatGPT。

外国纷纷在思考，DeepSeek R1的发布，是否全球人工智能的中心已经转移到了中国？

已有网友戏言：DeepSeek可能是大模型公司中唯一一个不依靠一级市场融资的公司。因为这家公司直接从二级市场“融资”了。幻方量化通过量化交易“割”到的韭菜的钱，就足够DeepSeek源源不断的研发了。这么说，韭菜有时候也在为国做贡献。

硅谷地震

相较于OpenAI的闭源，DeepSeek则完全开源。

OpenAI成立时，怀着许多良好的愿景，即，开发AI技术以“造福全人类，不受财务回报需求的限制”。OpenAI名字中的“Open”就代表着“开源”，其最初发布的GPT模型，如GPT-1和GPT-2，都是开源的，任何人都可以访问这些模型的代码和预训。

但为了商业利益和保护知识产权，GPT-3及其后续版本则彻底走向了闭源，不再对外公开，这让“OpenAI”变成了“CloseAI”。

马斯克因OpenAI的闭源而要求其改名

如今，DeepSeek 的完全开源，再一次彰显了开源的伟大，也意味着开源相对于闭源的胜利。这不仅促进开源社区繁荣，并可能导致北美闭源模型API价值归零。

无疑，这展示中国在AI领域的实力，因此有人认为，全球AI中心或已转移到中国。此后AI领域的“规矩”，将由中国来定，硅谷有可能慢慢在AI领域掉队。

DeepSeek之所以能让硅谷产生地震，还在于研发的超高性价比，花费仅仅550万美元。

“更糟糕的是，这家不知名中国公司仅为此花费了550万美元。”1月23日，在美国匿名职场论坛TeamBlind上，一名Meta公司员工发布涉深度求索的帖子“Meta生成式AI部门陷入恐慌”。

550万美元是什么概念呢？“Meta生成式AI部门里的每位‘领导’的薪资都超过了这个数字”。

谷歌公司的一名员工也评论称，不仅仅是Meta，OpenAI以及谷歌/Anthropic目前同样是“火烧屁股”：

DeepSeek的性能与OpenAI推出的GPT4o差不多，但GPT4o的训练成本大概一个亿美元。550万美元与一个亿美元，这投入产出效率，高出不止一个量级。

特朗普日前宣布的“星球之门计划”也成了笑话。“星球之门计划”预计投入总规模达到5000亿美元，“但如果当这些AI基础设施仅能与深度求索极小的成本相匹配时，投资人还能有多少耐心？这个5000亿美元的计划还没开始就将夭折。”

DeepSeek超高性价比背后，则来源于英伟达对中国芯片的禁运。不得已下，DeepSeek仅用2000张H800就训练出了顶尖的AI。Open AI创始成员Karpathy对此称赞道：“DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。”

这说明，AI的发展中，堆砌高性能显卡，并没有那么重要。英伟达的芯片禁运，影响也不是很大。

面对英伟达对芯片的禁运，DeepSeek尝试过将自家模型移植到华为昇腾芯片上运行，通过“动态精度调节”技术，使得同等任务下性能损失仅5%，但成本下降70%。英国FT也报道过，华为曾派过工程师协助客户从英伟达芯片迁移到昇腾。

这对凭借AI显卡爆火的英伟达公司（Nvidia）来说，不是一个太好的消息。其“算力神话”可能就此走向破灭。

受此影响，英伟达公司股价已暴跌。华尔街研究员们预计，其股价未来还可能因DeepSeek而继续走低。“做空英伟达”成为了最新网络流行词。

美国知名硅谷风险投资家、Social Capital首席执行官查马斯·帕里哈皮提亚（Chamath Palihapitiya）认为，在DeepSeek出现之后，资本市场预计将寻求重新定价英伟达等美股“七巨头”公司的价值，美国股市将出现波动。

甚至于，由于对DeepSeek的担忧，日本芯片股也正遭到大幅抛售。

打脸专家

DeepSeek没有简单地抄写哪个模型，更没有沿用业内较为成熟的Llama的结构。

若沿用Llama结构，训练效率、训练数据将与国际上有两代的差距。而且，用Llama结构，需要的是几十万AI显卡，而非2000张H800能达到效果。

DeepSeek则创新地运用了注意力架构和MOE混合专家模型架构，另辟蹊径，做的是前人没做过的事，从而实现了高效的推理和经济的训练。

周鸿祎都认为DeepSeek这种做法，是“冒险的”，但创新就意味着要与众不同，大胆尝试。因此，DeepSeek得以创新成功。

DeepSeek训练方法，十分巧妙。传统的AI模型训练，往往需要人为设计复杂的奖励机制，引导模型学习正确的行为。这就像训练一只小狗，需要制定一系列的规则和奖励，告诉它什么是对的，什么是错的。

DeepSeek则更加注重结果，它采用了一种叫做“Outcome Reward RL”（结果奖励强化学习）的方法。这种方法更加简单直接，只关注最终的结果，而较少关注中间的过程。这就像训练小狗，只需要告诉它最终的目标是什么，比如“把球捡回来”，而不需要详细地教它每一步的动作。

这种方法的优点在于，它可以让模型更加自主地探索和学习，从而发现更有效的解决方案。就像小狗在捡球的过程中，可能会自己摸索出最快的路线和方法。

DeepSeek V3/R1未出圈之前，国内那些经过西方科学训练的专家，是不看好中国的大模型的。前一段时间，他们还在说中国的AI水平，比起美国，落后的速度在加快，鼓吹美国在AI领域一骑绝尘。他们之所以这么看，根源在于不自信，一切以美国马首是瞻。

对此，梁文峰一针见血地指出，中美AI大模型的区别，不在于代级差别，而在于原创与模仿的区别。“很多中国公司习惯了别人做技术创新，拿过来做引用变现，然后等着摩尔定律从天而降，躺在家里18个月就会出来更好的硬件和软件。”

中国的科技创新，不缺资本支持，不缺人才，缺的是自信心。具体来说，中国缺的是如何组织高密度人才进行创新的能力。

创新，并不仅仅依靠商业驱动，而是依靠好奇心驱动、创造欲驱动。DeepSeek的组织结构就与别的公司不同，其采取的是完全自由的自组织结构，不前置分工，而是根据工程师的爱好与兴趣，自由组队。如果工程师有想法，就可调用训练集群的显卡，无需审批。这种自由的氛围与组织形式，才能诞生奇迹。

譬如，DeepSeek V3/R1之所以选择注意力架构，就在于某个工程师的个人爱好，然后他就灵活组队，几个月就跑通了。

而采取这种结构，并不需要高深莫测的人才，DeepSeek的团队里都是一些应届毕业生，以及尚没毕业的博士生。

在此之前的，雷军千万年薪挖来的“天才少女”，95后AI“新星”罗福莉，就来自DeepSeek，只是其中的一名工程师，参与的DeepSeek V2的研发。

罗福莉

图源：罗福莉公众号

DeepSeek并不是靠堆砌人才，靠技术密度取胜，而是自由的氛围与独特的组织架构。创新，与资本投入关系不大，与自由度关系巨大。

“这种凭兴趣组队的方法，在大厂是行不通的，在360这样的中厂，也行不通。”周鸿祎表示。

封面来源丨豆包生成图片

■ 参考资料

[1] 《中国大模型DEEPSEEK反超GPT是怎么做大的？》红衣大叔周鸿祎

[2] 《OpenAI变得越来越不开放了？》中国电子报宋婧

相关提示

本文系基于公开资料撰写，仅作为信息交流之用，不作为任何投资建议和操作指南，交易风险请自担。转载请注明出处及作者名。

【声明】内容源于网络

刃辛机器人

关注机器人、人形机器人等。

内容 50

粉丝 0

刃辛机器人关注机器人、人形机器人等。

总阅读3

粉丝0

内容50