中国AI界黑马、性能媲美ChatGPT、成本仅为同类模型十分之一……,一夜之间,几乎所有的人都在研究、使用和热议DeepSeek。
春节以来,由中国深度求索(DeepSeek)公司开发的DeepSeek-R1开源大模型在科技圈和投资圈引起不小的波澜,这一大模型的问世甚至被不少外国友人称为“来自东方的神秘力量”。上线仅一周,DeepSeek便登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,2月1日,DeepSeek日活跃用户数突破3000万大关,成为史上最快达成这一里程碑的应用。(数据来源:QuestMobile)
DeepSeek源何会爆火?究竟创新在哪里?又会引导AI行业走向何方?本文我们一起一探究竟。
DeepSeek无疑是一场“科技奇袭”
DeepSeek的创始人梁文锋曾言:“中国的AI不可能永远在跟随,技术创新永远是第一优先级。” DeepSeek的崛起就像一场“科技奇袭”,它意味着中国人工智能领域实现了重大突破,也将深刻重塑全球科技的竞争格局。
至于为什么火了?主要源于两点——低成本和高性能。从成本角度来看,DeepSeek创造了惊人的优势,其正式训练只需要557.6万美金,甚至不到美国GPT-4o的十分之一甚至更小,却能在性能上与之抗衡,同处第一梯队。这就好比用一辆经济型轿车的造价,打造出了一辆性能卓越的豪华跑车。从结果来看,DeepSeek能够快速准确地理解和生成人类语言,无论是日常对话、文本创作还是智能客服场景,都能应对自如。
我们通过与DeepSeek聊天机器人的多次对话发现,DeepSeek-R1的深度思考模式会展示详细的思维的过程,这种推理的透明化更加有利于用户拆解问题和反复学习。而更令我们震惊的是,DeepSeek还能捕捉用户的情绪并给予反馈。当我们问DeepSeek“我们该如何过好这一生?”它的回答是这样的——
(以上文字由AI生成,仅供参考)
“愿你活得清醒而炽热,像一棵树——向下扎根,向上生长,在四季轮回中,活出生命的况味。”这是来自DeepSeek的美好祝福。它仿佛已超越了冰冷的科技产品和AI工具,能够深度共鸣、陪伴、倾听与理解用户的需求。正因如此,DeepSeek逐渐成为许多人心中的“赛博导师”,越来越多的人开始用它解决问题、排忧解难,甚至是聊天谈心。
揭秘DeepSeek两大创新技术
那么,从技术的角度,DeepSeek究竟创新在哪里?
自ChatGPT问世以来,全球AI巨头都以“巨参数、大数据、强算力”为大模型基础,例如OpenAI的GPT-4参数规模达1.8万亿。然而,与众多AI巨头们热衷于堆硬件、垒资源不同的是,DeepSeek并没有延续用更大规模的算力来训练大模型,而是致力于模型、算法、训练方式等方面的优化,创造出更加精简高效的大模型生成范式。
我们翻看了DeepSeek的学术报告、技术指南和研究报告等资料,试图以更加易于理解的语言来解释它的两大核心技术。
首先,是混合专家模型(以下简称MoE,Mixture of Experts),核心思路是“术业有专攻”,将大模型拆分为多个专家,训练时分工协作,推理时按需调用,提升整体效率。想象一下,你面对一个相当复杂的难题,既有擅长解决数学问题的专家,又有擅长解决文本问题或适合解决代码问题的专家帮助你解决,是不是安心很多?MoE会将任务分门别类地分配给相应的专家进行解决。相比于让一个通才来解决所有问题,术业有专攻的“专家网络”能够更快、更好地完成负责的任务。
除此之外,DeepSeek在模型论文中还介绍道,相较于传统MoE,DeepSeek使用了更细颗粒度的专家,使得专家更加专门化,特定任务只激活特定专家,降低了传统稠密模式需激活全部参数的计算量,进而提升了任务适配性;同时,DeepSeek将一些专家隔离为“共享专家”,用于减轻专家之间的知识冗余,使模型在激活相同数量专家和参数的情况下表现更好。
图:DeepSeekMoE示意图
其次,为了实现更高效的推理和低成本训练,DeepSeek的开发团队采用了多头潜在注意力机制(以下简称MLA,Multi-Head Latent Attention)。这一技术通过低秩联合压缩机制显著降低了推理成本,与标准注意力机制相比,MLA将每次查询所需的KV缓存(Key-Value Cache)减少了约93.3%。(KV缓存是Transforme模型中的一种内存机制,用于存储表示对话上下文的数据,以减少重复计算)。打个比方,MLA就像是将整本书的内容总结成一个高质量的摘要——信息浓缩了,但关键点都在,这样能大幅度降低对内存和计算资源的需求。
此外,作为中国团队自主研发的成果,DeepSeek在中文理解与生成方面具有天然的优势,能够挖掘中文语言的丰富内涵与文化背景,给出更加贴合实际应用场景、接地气的回答,这也是为什么我们在和DeepSeek交流的过程中能够感觉到更加亲切和自然。
整体来看,DeepSeek以其创新的发展理念、独特的技术优势以及卓越的市场表现,已在全球 AI领域占据了举足轻重的地位。
从DeepSeek看AI产业变革
近年来,AI已成为新一轮科技革命和产业变革的重要驱动力量,其发展速度之快、影响范围之广,备受瞩目。
此次DeepSeek备受关注,除之前提到的“低成本、高性能”以外,还有另一个原因:开源。DeepSeek所遵循的开源协议极为宽松,允许其他开发者将模型用于商业用途并及进行模型蒸馏,更彰显了“众人拾柴火焰高”的中国智慧。英伟达高级研究科学家Jim Fan在个人社交平台上称DeepSeek是“通过真正开放的前沿研究赋能全人类”,这一评价无疑是对其开源策略的高度认可。
技术开放是推动技术创新和发展的关键原因,这一理念贯穿于DeepSeek的发展始终。目前,DeepSeek已经广泛应用于教育、医疗、金融、制造等多个领域,并取得了显著的成效。比如在金融领域,金融机构已经能够通过接入DeepSeek模型辅助客户服务、风险评估、投资决策等场景,通过高效推理能力和实时动态分析,为金融机构提供了更精准的数据支持。
从长远的视角来看,以DeepSeek为代表的大模型有望接入更多样化的场景,赋能我们的生活和工作。就像微软CEO萨提亚·纳德拉所说的那样,人工智能将成为我们生活和工作中的基础设施。DeepSeek让我们看到,中国正在朝着这一方向不断迈进,为未来智能社会的构建提供强大的技术支撑。
DeepSeek的成功,不仅展示了中国在人工智能领域的创新实力和开放态度,也为全球开发者提供了一个低成本、高效率的人工智能开发平台。它证明了在资源有限的情况下,通过优化数据质量和模型架构,也可以实现强大的AI能力。这种理念的转变可能推动整个行业向更加高效、低成本的方向发展,为全球AI技术的发展提供了新的思路和方法。
事实上,DeepSeek的横空出世并非中国在人工智能领域第一次引发全球关注。从阿里的文心一言到科大讯飞的智能语音技术,从百度的自动驾驶平台阿波罗到华为的昇腾AI计算平台,中国在人工智能领域一直保持着强劲的创新势头,致力于用先进技术服务于全人类,如今中国的科技创新实力也成为国际上不容忽视的重要力量。
尾声
正如创始人梁文锋在DeepSeek-R1大模型发布前抒发的豪气干云,“旧世界分崩离析,新时代正在光速到来。”今天的中国,不仅是创新的追随者,也可以是创新的引领者。而DeepSeek爆火的背后,既有新的机遇,也有对创新的思辨,例如对算力收缩的质疑、对开闭源模型的争论、基于AI平权的展望等等......
这些争议,是AI发展浪潮中的一个缩影,反映着AI行业在数据使用、技术创新、内容管理和隐私保护等方面所面临的挑战。但也唯有直面争议,积极思辨,不断创新,才能真正推动AI行业的规范发展。从长远看,DeepSeek将给AI领域的发展更强的动力,它正在以开源化的方式推动重构AI领域的竞争规则,让大模型从遥不可及变得人人可及,让更多行业、企业和个人因AI而变得更加高效和美好。这些根本性的改变,正在塑造AI领域的新格局。
随着中国AI发展的主流叙事正逐渐从追赶转向超越,中国资产也正以其敏锐的嗅觉超前布局,无论是在算力、应用端侧,还是硬件、软件侧,都涌现了很多令人欣喜的投资机会。而对于普通投资者而言,想要抓住AI行业的机会,一方面可以持续学习和研究AI模型的底层逻辑和迭代趋势,熟练运用如DeepSeek一类的AI工具来辅助我们完成一些重复性的工作,另一方面,可积极关注AI创新对各行各业带来的影响,借助投资AI领域的公募基金把握时代发展的红利。

