大数跨境

靠的是什么?DeepSeek破了英伟达禁令,让硅谷地震,还打了国内专家的脸

靠的是什么?DeepSeek破了英伟达禁令,让硅谷地震,还打了国内专家的脸 刃辛机器人
2025-01-30
2
导读:全球AI中心或已转移到中国。

全球AI中心或已转移到中国。

           文 章 要 点


国外的AI大模型,如GPT4o,好比西餐烹饪,厨师尊贵,厨具种类繁多、工艺复杂、用途专一,严格按照食谱缩写,靠量杯和计时器来精确分毫,才做出尚算可口的食物。



为防止中国偷学了去,西方人不仅禁售厨具(如禁售英伟达A100),且餐谱保密(如ChatGpt不开源)。


而DeepSeek则一把菜刀打天下,只一锅一铲,煎、炒、烹、炸、溜,就做出一道道风味独特的大席,而且菜谱完全公开。


作者丨陈重山


01


异军突起

85后小伙梁文锋或许也没想到,他能获得今天这样的成就。


他出生于广东省的一个五线城市,父亲是一名小学老师,17岁以所在高中第一名的成绩,考上了浙江大学,学习信息与电子工程学,一直读到了硕士。但他并不以进入大厂为终身理想。哪怕当时处于2008年金融危机期间,他依然躲在廉价出租屋里研究量化对冲


量化对冲是资本市场的一种选股策略:不断训练大模型,利用大模型选股,提高胜率,并用对冲策略降低风险。


梁文锋创办的幻方量化,管理资金规模曾达千亿元,一度是国内量化私募“四巨头”之一。


股市中小散“韭菜”最深恶痛绝的,就是这些“搞量化交易的”。有关部门对其管理也在不断加强。


梁文锋或许是唯一一个登上“大雅之堂”的量化交易人。1月20日,他受邀参加了“顶层会议”。但他谈论的不是量化交易,而是AI,这源于他创办的另一家公司深度求索(DeepSeek)。


在“顶层会议”上发言的梁文锋

截图于央视网


DeepSeek R1的发布,已使硅谷地震。在第三方基准测试中,此前发布的DeepSeek V3的表现,已优于OpenAI、Meta和Anthropic等美国领先AI公司产品。


1月26日,美区app store免费app排行榜中,DeepSeek飙升到第9名。作为对比,一度“火到国外”的小红书,目前在排行榜中已经下降到第36位了。而在AI类的排行中,DeepSeek仅次于第一名的OpenAI公司的ChatGPT。



外国纷纷在思考,DeepSeek R1的发布,是否全球人工智能的中心已经转移到了中国?


已有网友戏言:DeepSeek可能是大模型公司中唯一一个不依靠一级市场融资的公司。因为这家公司直接从二级市场“融资”了。幻方量化通过量化交易“割”到的韭菜的钱,就足够DeepSeek源源不断的研发了。这么说,韭菜有时候也在为国做贡献。



02


硅谷地震

相较于OpenAI的闭源,DeepSeek则完全开源。


OpenAI成立时,怀着许多良好的愿景,即,开发AI技术以“造福全人类,不受财务回报需求的限制”。OpenAI名字中的“Open”就代表着“开源”,其最初发布的GPT模型,如GPT-1和GPT-2,都是开源的,任何人都可以访问这些模型的代码和预训。


但为了商业利益和保护知识产权,GPT-3及其后续版本则彻底走向了闭源,不再对外公开,这让“OpenAI”变成了“CloseAI”。


马斯克因OpenAI的闭源而要求其改名


如今,DeepSeek 的完全开源,再一次彰显了开源的伟大,也意味着开源相对于闭源的胜利。这不仅促进开源社区繁荣,并可能导致北美闭源模型API价值归零


无疑,这展示中国在AI领域的实力,因此有人认为,全球AI中心或已转移到中国。此后AI领域的“规矩”,将由中国来定,硅谷有可能慢慢在AI领域掉队。


DeepSeek之所以能让硅谷产生地震,还在于研发的超高性价比,花费仅仅550万美元。


“更糟糕的是,这家不知名中国公司仅为此花费了550万美元。”1月23日,在美国匿名职场论坛TeamBlind上,一名Meta公司员工发布涉深度求索的帖子“Meta生成式AI部门陷入恐慌”。


550万美元是什么概念呢?“Meta生成式AI部门里的每位‘领导’的薪资都超过了这个数字”。


谷歌公司的一名员工也评论称,不仅仅是Meta,OpenAI以及谷歌/Anthropic目前同样是“火烧屁股”:


DeepSeek的性能与OpenAI推出的GPT4o差不多,但GPT4o的训练成本大概一个亿美元。550万美元与一个亿美元,这投入产出效率,高出不止一个量级。


特朗普日前宣布的“星球之门计划”也成了笑话。“星球之门计划”预计投入总规模达到5000亿美元,“但如果当这些AI基础设施仅能与深度求索极小的成本相匹配时,投资人还能有多少耐心?这个5000亿美元的计划还没开始就将夭折。”


DeepSeek超高性价比背后,则来源于英伟达对中国芯片的禁运。不得已下,DeepSeek仅用2000张H800就训练出了顶尖的AI。Open AI创始成员Karpathy对此称赞道:“DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。”


这说明,AI的发展中,堆砌高性能显卡,并没有那么重要。英伟达的芯片禁运,影响也不是很大。


面对英伟达对芯片的禁运,DeepSeek尝试过将自家模型移植到华为昇腾芯片上运行,通过“动态精度调节”技术,使得同等任务下性能损失仅5%,但成本下降70%。英国FT也报道过,华为曾派过工程师协助客户从英伟达芯片迁移到昇腾。


这对凭借AI显卡爆火的英伟达公司(Nvidia)来说,不是一个太好的消息。其“算力神话”可能就此走向破灭


受此影响,英伟达公司股价已暴跌。华尔街研究员们预计,其股价未来还可能因DeepSeek而继续走低。“做空英伟达”成为了最新网络流行词。


美国知名硅谷风险投资家、Social Capital首席执行官查马斯·帕里哈皮提亚(Chamath Palihapitiya)认为,在DeepSeek出现之后,资本市场预计将寻求重新定价英伟达等美股“七巨头”公司的价值,美国股市将出现波动。


甚至于,由于对DeepSeek的担忧,日本芯片股也正遭到大幅抛售。


03


打脸专家

DeepSeek没有简单地抄写哪个模型,更没有沿用业内较为成熟的Llama的结构。


若沿用Llama结构,训练效率、训练数据将与国际上有两代的差距。而且,用Llama结构,需要的是几十万AI显卡,而非2000张H800能达到效果。


DeepSeek则创新地运用了注意力架构和MOE混合专家模型架构,另辟蹊径,做的是前人没做过的事,从而实现了高效的推理和经济的训练。


周鸿祎都认为DeepSeek这种做法,是“冒险的”,但创新就意味着要与众不同,大胆尝试。因此,DeepSeek得以创新成功。


DeepSeek训练方法,十分巧妙。传统的AI模型训练,往往需要人为设计复杂的奖励机制,引导模型学习正确的行为。这就像训练一只小狗,需要制定一系列的规则和奖励,告诉它什么是对的,什么是错的。


DeepSeek则更加注重结果,它采用了一种叫做“Outcome Reward RL”(结果奖励强化学习)的方法。这种方法更加简单直接,只关注最终的结果,而较少关注中间的过程。这就像训练小狗,只需要告诉它最终的目标是什么,比如“把球捡回来”,而不需要详细地教它每一步的动作。


这种方法的优点在于,它可以让模型更加自主地探索和学习,从而发现更有效的解决方案。就像小狗在捡球的过程中,可能会自己摸索出最快的路线和方法。


DeepSeek V3/R1未出圈之前,国内那些经过西方科学训练的专家,是不看好中国的大模型的。前一段时间,他们还在说中国的AI水平,比起美国,落后的速度在加快,鼓吹美国在AI领域一骑绝尘。他们之所以这么看,根源在于不自信,一切以美国马首是瞻。


对此,梁文峰一针见血地指出,中美AI大模型的区别,不在于代级差别,而在于原创与模仿的区别。“很多中国公司习惯了别人做技术创新,拿过来做引用变现,然后等着摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。”


中国的科技创新,不缺资本支持,不缺人才,缺的是自信心。具体来说,中国缺的是如何组织高密度人才进行创新的能力。


创新,并不仅仅依靠商业驱动,而是依靠好奇心驱动、创造欲驱动。DeepSeek的组织结构就与别的公司不同,其采取的是完全自由的自组织结构,不前置分工,而是根据工程师的爱好与兴趣,自由组队。如果工程师有想法,就可调用训练集群的显卡,无需审批。这种自由的氛围与组织形式,才能诞生奇迹。


譬如,DeepSeek V3/R1之所以选择注意力架构,就在于某个工程师的个人爱好,然后他就灵活组队,几个月就跑通了。


而采取这种结构,并不需要高深莫测的人才,DeepSeek的团队里都是一些应届毕业生,以及尚没毕业的博士生。


在此之前的,雷军千万年薪挖来的“天才少女”,95后AI“新星”罗福莉,就来自DeepSeek,只是其中的一名工程师,参与的DeepSeek V2的研发。


罗福莉

图源:罗福莉公众号


DeepSeek并不是靠堆砌人才,靠技术密度取胜,而是自由的氛围与独特的组织架构。创新,与资本投入关系不大,与自由度关系巨大。


这种凭兴趣组队的方法,在大厂是行不通的,在360这样的中厂,也行不通。”周鸿祎表示。


封面来源丨豆包生成图片


 参考资料

[1] 《中国大模型DEEPSEEK反超GPT是怎么做大的?》 红衣大叔周鸿祎

[2] 《OpenAI变得越来越不开放了?》 中国电子报 宋婧




相关提示

本文系基于公开资料撰写,仅作为信息交流之用,不作为任何投资建议和操作指南,交易风险请自担。转载请注明出处及作者名。

【声明】内容源于网络
0
0
刃辛机器人
关注机器人、人形机器人等。
内容 50
粉丝 0
刃辛机器人 关注机器人、人形机器人等。
总阅读3
粉丝0
内容50