新年伊始,DeepSeek在全球科技市场掀起了一场「AI海啸」。
上线一周用户数破亿并登顶全球应用商店下载榜单,一个月日活突破3000万……这家来自中国的人工智能初创公司不仅持续刷新着行业纪录,并且通过开源的方式「造福」了整个中国AI市场,无论是大模型厂商、企业开发者还是每一个普通用户。而由它产生「鲶鱼效应」也在更深层次颠覆了大模型行业过往的发展逻辑。
透过现象看本质,DeepSeek的出现将如何影响全球AI产业链?它是否真的将成为中美AI竞争叙事的转折点?值得我们投资者去关注把握的投资机会有哪些呢?
带着这些问题,我们邀请到了中欧基金权益研究部副总监、中欧信息科技混合拟任基金经理——杜厚良一起聊聊,在DeepSeek带来技术震撼之后,关于这场即将发生的AI产业巨变,我们需要了解的那些事。
1
DeepSeek「横空出世」:
意料之外,情理之中
用最简单的方式来介绍一下
DeepSeek究竟是什么?
DeepSeek是一家人才密度和算力密度高、使命追求专一的人工智能公司。它是一个「火炬的传递手」,在前人的基础上,通过一些智慧和优化,以一个更低的成本让广大的老百姓也能用到最先进的AI模型。
从人才密度来讲,DeepSeek不到140人的团队是非常高质量的,由专业的IT人员组成。从算力密度来讲,它的股东在国内是少数有万卡算力集群的一家公司。
DeepSeek是全球第一个用开源方式复现了强化学习的模型,开源带来的好处是,全球所有的模型能力可以迅速提升到类ChatGPT-4或者类GPT-o1的能力层面。用一句话讲就是「旧时王谢堂前燕,飞入寻常百姓家」,这可能是DeepSeek为整个世界带来的最大贡献。
有一种说法是,DeepSeek用不到
600万美金干成了硅谷巨头花费数十亿
美金的模型,它的降本水平到底如何?
这两个维度的比较不太准确,因为500多万美金是单次训练成本,但几十亿美金是全成本,它包括了人才、算力采购、数据集标注优化等各方面的成本。
从可比成本来看,GPT4当时单次模型训练成本大概在1亿美金,通过硬件的优化,我们预估现在成本大概在2000万-4200万美金,所以DeepSeek真实的降本大概在4到6倍左右。
按照大模型正常的发展规律,算力成本是每年下降十倍的。对比Claude 3.5和ChatGPT-4,Claude 3.5晚了25个月,它的算力成本下降了10倍,DeepSeek-V3比ChatGPT-4晚了22个月,它的成本下降30倍,这也处于成本下降的正常斜率。
但是在任何一个领域做到全球第一,这一定是一件令人振奋的事情,尤其做这件事的又是一个中国较小的团队。
DeepSeek能够实现高水平的训练效率
和极低的训练成本,
主要是源于哪些创新?
创新主要来源于DeepSeek对算力卡和对模型架构的理解。
比如,它通过FP8(8位浮点数)低精度的调用去替代FP16(半精度浮点数),在文字模型这个领域用低成本实现了相同的好效果。有公开报道提到,DeepSeek专门训练H800这个集群,通过架构提升了通信能力。还有MoE模型的调用(注:Mixed Expert,混合专家模型,主要用于处理大规模数据和复杂任务),ChatGPT-4可能一次调用3000亿个参数,但DeepSeek优化到一次只调用370亿个参数,也是大幅降本。
说到DeepSeek常常会提到「模型蒸馏」、
「数据压缩」,是什么意思?
对数据的处理思路有什么不一样?
「模型蒸馏」实际是去实现一个基座模型60%-80%的能力,用一个小的参数去部署在端侧。DeepSeek做的一个很大的创新是通过减少SFT(Supervised Fine-tuning,监督微调)在模型蒸馏阶段实现大幅的降本。
另外一个概念是「数据压缩」,是我们提炼出一些客观规律、社会真理来概括完整的数据集,大模型的本质其实就是对数据的极致压缩。
2
AI竞争叙事:
缩小差距,竞争加剧
怎么看大模型的开源和闭源之争
以及不同路线带来的结果?
我们大概和海外顶尖技术水平
有多大差距?
借用专业人士的评论,大概在7到12个月,但这个差距不太好量化,因为真正去追逐前沿大模型的厂商其实都没有开源。如果我们去期待下一代大模型落地,还是要关注全球范围内人才密度和算力密度更强的公司。
3
产业之变:
算力拐点,应用提速
Deepseek崛起
会改变算力的供需格局吗?
当Deepseek刚开始出来的时候,很多人的第一反应是用非常低的成本可以训练前沿大模型,是不是算力需求崩塌了。其实,当我们去冷静分析的时候,就明白这个结论是错误的。
Deepseek横空出世之后,各家海外大厂的资本开支都是上修的。与此同时,国内大厂对于算力的需求激增,不只是对于海外算力,也包括国产算力。
一方面,在追逐先进基座大模型这条路上,还是需要用更多的参数、更多的数据量、更多的卡去把模型堆起来。另一方面,当更多人去使用现有模型的时候,推理需求增加带来的算力需求增长将远超预训练的需求量级。
而对于光模块行业,除了算力需求总盘子之外,还有一个需求变量需要关注。从理论上来讲,做预训练和推理的连接方式是可以改变的。后者对集群规模的要求没有预训练那么高,后面可以关注这方面的变化。
AI应用的落地会进一步提速吗?
什么时候能实现从量变到质变的突破?
提速这个结论一定是正确的,但是真正的AI应用端侧爆发有两个必要条件,第一是基座模型的能力,第二是降本。
DeepSeek在这一代基座模型的基础上,实现了文字模型的大幅降本。目前在业务领域最看好的还是企业的一些本地部署,即企业利用自身的数据去完成企业管理和营销的行为。还有一些文字处理的领域,比如教育、法律、客服等可能出现率先爆发的机会。
其实现在已经有一个质变出现,就是chatbot(聊天模型)已经大幅代替了搜索。不管是国内还是海外,搜索引擎调用的市占率都是大幅降低的,现在很多搜索工作都可以通过大模型的chatbot去完成的,这在全球是一块巨大的市场,大概在5,000亿美金左右。
关于下一代指数级的潜力爆发,如果2025年能够出现下一代基座大模型,那么在2026、2027年会涌现更多的创新。
怎么看接下来的AI国产化,未来会
发生哪些新的变化?
硬件方面,DeepSeek的出现让更多的人产生更多的应用,需要降低推理成本。客观来讲,国内的算力卡不管是单芯片能力还是计算能力是比海外算力卡弱的,想要在预训练的阶段替代难度较大,但是在推理阶段有很大的替代空间,所以,由推理需求暴增带来的国内算力市场空间变大。
与此同时,考虑到中美关系,未来国内厂商购买海外算力的难度将陡增,所以可能从今年下半年开始,更多采购会偏向国内。在这两个逻辑的加持下,不管是算力芯片还是存储、制造的国产化都有较大的机会。
软件方面,DeepSeek拉近了国内大模型厂商和海外的差距,我们看到苹果与阿里合作(新闻来源:证券时报,2025.2.13),其他大模型厂商最近也在积极发论文。
4
投资逻辑:
确定性与持续性
中国的科技资产会不会迎来
新一轮的定价逻辑?
在一个产业发展的时候,定价的本质逻辑有两点:这个产业的未来市场空间有多大?它爆发的可能性有没有持续提高?
DeepSeek的出现提高了这个产业爆发的可能性,DeepSeek大概在一个月的左右的时间积累了3000万以上的日活,这个爆发的斜率是投资者比较喜欢的。海外一直把AI这个行业定义成未来十年甚至几十年这样一个行业。国内也已经慢慢地同步到这个认知,投资热情有较强的持续性。
哪些AI领域的投资机会值得关注?
我们在投资和研究的过程中把整个产业链分成四块:海外的算力、国内的算力、应用侧以及端侧。
在训练与推理的「双轮驱动」下,不管是国内算力还是海外算力芯片需求都在增加。海外可以重点关注ASIC芯片及配套产业链,国内的产能缺口则为推理芯片、存储方案等国产替代斜率高的环节带来布局机会。
在应用侧,垂直场景可能率先迎来爆发。比如,开源模型+垂直数据使得越来越多企业能够以较低的成本快速部署大模型,从而实现企业经营和管理的大幅降本增效;消费端的教育、娱乐以及个人助手等场景也有望迎来爆发。
相比之下,端侧爆发还需等待「临界点」。如果能在2025年实现技术突破,随着多模态的成熟,AI眼镜和车载助手等在复杂场景的渗透率有望提升。
长期来看,AI的投资需要考虑软件周期和硬件周期的迭代,投资时间可能持续较长,且有比较强的专业度。
点赞推荐
留言评论
点赞推荐
红包口令已通过公众号私信发送,请于有效期内进行领取,避免过期失效。
滑动查看完整风险提示
点亮“赞+推荐”
截图并私信发给公众号后台
抽10位朋友送8.8元红包

