大数跨境
0
0

DeepSeek带来的变化,企业该如何应对?

DeepSeek带来的变化,企业该如何应对? 沙丘社区
2025-02-06
0
导读:DeepSeek为何引发全球关注?

作者|沙丘智库研究团队

来源|沙丘社区(www.shaqiu.cn)

本文选自沙丘智库《DeepSeek带来的变化,企业该如何应对?》

01

DeepSeek为何引发全球关注?

DeepSeek近期引发全球热议,核心原因可归纳为如下三个方面——技术创新、成本优势和开源策略。
DeepSeek推出了一款新的开源基础模型DeepSeek R1,同时在其发布的一份22页的技术报告中,DeepSeek表示DeepSeek R1模型使用了约2000块英伟达H800 GPU进行训练,模型性能与美国领先的AI模型相当,但成本仅为后者的一小部分。在过去一段时间,DeepSeek发布了一系列开源模型,包括DeepSeek R1(2025年1月发布)、Janus Pro(2025年1月发布)、DeepSeek V3(2024年12月发布),显示了其快速迭代的能力。
DeepSeek采用了一种称为规模化强化学习(scale reinforcement learning)的技术,用算法优化弥补了算力上的差距。DeepSeek R1模型基于多项技术创新,包括:
· FP8动态混合精度训练:提高计算效率,降低显存占用;
· 多头潜在注意力机制(MLA):一种改进的注意力机制,旨在优化注意力计算,提升模型性能;
· 多token预测技术(MTP):一种并行优化机制,提升整体性能和推理速度;
· 键值对索引压缩:减少存储和计算开销;
· 模型蒸馏:将大模型压缩为更小的版本,便于部署;
· GPU 通信优化:提升分布式训练效率。
这些技术的成功组合和应用,展示了DeepSeek在工程实现上的重要突破。
除了主模型DeepSeek R1外,DeepSeek还发布了更小的版本(通过模型蒸馏技术生成),这些版本具有更高的成本效益。这些轻量化模型可以在端侧运行,也可以在云端部署。与 OpenAI的o1模型相比,DeepSeek最大版本的成本降低了27倍,这使其在商业化应用上具有显著优势。

02

关于DeepSeek的几个关键事实

技术影响:DeepSeek的技术影响主要在基础设施层面,包括大语言模型和GPU。通过创新的模型训练和推理技术,DeepSeek能够在使用更少的GPU和更低的成本下实现有效的模型训练和推理。DeepSeek展示了即使使用更普通的硬件(而非最先进的硬件),通过软件创新,也能训练出性能与传统大厂相当甚至更优的模型。

技术创新:DeepSeek的团队开发了一种极具成本效益的开源大语言模型,其核心创新在于“推理时计算”(inference-time computing)。这种技术只在每次查询时使用模型中最相关的部分,从而大幅提高了效率并降低了成本。

成本优势:DeepSeek表示,其用于构建基础模型DeepSeek v3的训练成本为560万美元。但需要注意的是,这仅仅是DeepSeek的边际成本,而不是购买AI芯片、建设数据中心和技术团队的原始成本。尽管如此,这一成本与训练最先进的大模型所需的1亿多美元相比,显得非常有竞争力。

硬件选择:DeepSeek在构建模型时使用了相对落后的英伟达H800芯片。这些芯片在2023年10月美国政府扩大对中国先进AI芯片出口禁令之前是广泛可用的。

03

DeepSeek对AI行业发展的贡献

开源创新、技术竞争力和可持续发展方面,DeepSeek为AI行业做出了显著贡献。

DeepSeek的方法展示了开源研究和开源技术在推动快速创新方面的强大优势。DeepSeek团队利用其他团队的开源成果(如Meta的Llama模型和PyTorch生态系统),并在这些基础上提出了新的技术和方法。这种开放协作的模式使得AI研究能够更快地迭代和进步。

DeepSeek的成功表明开源AI模型正在变得更具竞争力,甚至可能超越大型科技公司的闭源专有模型。由于DeepSeek的工作是公开且开源的,所有开发者和企业都可以从中受益。然而,开源模式在构建可扩展的产品化商业模式方面存在弱点。未来,开源模型可能会被加上一个专有层(如定制化服务或增值功能),以形成商业化竞争力。供应商的唯一优势在于可以通过开源基础构建连接服务业务,或在开源模型之上添加专有解决方案。

DeepSeek的成功还证明了,即使在硬件资源有限的情况下,通过软件创新和数据效率优化,仍然可以开发出与闭源模型相媲美的AI模型。DeepSeek 的方法强调更智能的训练技术,而不是单纯依赖算力。这种思路可能会激励其他开发者采用更可持续、更具成本效益的AI开发方法。这种转变有助于减少AI开发对环境的负面影响和资源消耗,推动行业向更可持续的方向发展。

04

DeepSeek技术突破的机遇与挑战

第一,效率与可持续性成为新标准。供应商需要将效率和可持续性作为新的模型性能衡量基准。大语言模型的普及化将挑战那些依赖昂贵、资源密集型AI策略的主导地位。

第二,DeepSeek的性能验证问题。DeepSeek的模型表现出了有竞争力的性能,但其关于成本和开发效率的大胆声明尚未经过独立审查或验证。预计其他的模型供应商接下来可能会尝试复制DeepSeek的方法。

第三,安全、滥用和隐私问题。尽管开源模型使更多人能够接触到AI技术创新,但也引发了关于安全、滥用和隐私问题的担忧。DeepSeek的模型权重和代码是开源的,但其训练数据来源仍然不透明,这使得潜在的偏见和安全风险难以评估。

第四,推动行业特定模型的发展。低成本和低计算需求可能会加速行业从通用大语言模型转向聚焦于行业和领域的特定模型,进一步降低企业大规模采用AI的门槛。

第五,安全性和可信度的不确定性。一些安全专家表示,DeepSeek模型的安全性和可信度存在不确定性,特别是在是否存在故意的审查和隐蔽偏见方面,训练数据的来源也不清楚。

第六,对AI芯片需求的潜在影响。根据杰文斯悖论(Jevons Paradox),当技术进步使某种资源的使用效率提高时,该资源的总体消耗量反而会增加。因此,DeepSeek反而可能会增加对新型AI芯片的需求,尤其是在推理方面。因为AI模型的训练和推理变得更加高效和经济,企业和研究机构更愿意大规模部署这些模型,从而推动了对计算资源的总体需求。

第七,应用层供应商受益。应用层供应商将从推理成本降低和行业及功能特定领域模型的增加中受益。此外,应用层供应商还有可能将大语言模型直接嵌入其应用程序中,而不是外部调用模型。

第八,对初创公司和商业模式的影响。依赖模型专有许可来证明其高估值的初创公司可能会受到重大打击。那些仅凭构建和训练大语言模型而无法实现差异化竞争的模型供应商可能会面临重大的资金挑战。

第九,政策调整的可能性。DeepSeek的创新可能会促使美国和其他政府重新评估和调整AI监管和出口管制政策。美国的技术限制可能进一步加速我国研究人员的创新努力,促使“用更少的资源做更多的事情”。

第十,开源模式的局限性。开源是构建可扩展产品商业模式的一个主要弱点。在某个阶段,所有开源模型都可能需要增加一个专有层。只有创建了连接服务业务或在开源基础上叠加专有解决方案的供应商才能从中受益。

05

对于DeepSeek带来的变化,企业应如何应对?

短期来看,在未来几个月:

建立实验环境评估开源模型。企业应在受控的实验环境中下载并实验DeepSeek模型,以评估其性能和准确性。然后将测试环境扩展用于持续评估其他开源模型,包括Qwen、Llama、Mistral等,这有助于保持组织的敏捷性和韧性。同时,对模型输出设置严格的限制,以减少不必要的数据泄露。虽然在实验室环境中这可能不是主要问题,但如果模型接入生产环境,这一措施是至关重要的。

审慎应对DeepSeek产品和技术。仔细评估DeepSeek产品的成本和技术创新,验证其初始成本和计算资源需求。积极参与开源社区,以了解技术的实际情况和市场动态。在采取行动之前,将实际情况与业务需求及AI治理相关的价值观(如安全性、隐私性、可解释性等)进行对比,而不仅仅是关注成本。

跟踪生态系统的最新动态。跟踪那些在其平台和服务中实现对DeepSeek支持的供应商,现有的大模型厂商将从DeepSeek的研究中学习,并将其优化创新整合到自己的模型中。

中期来看,在未来1年左右:

跟踪大模型领域的成本优化创新。预计会有新的开源模型出现,进一步推动AI模型的成本下降。模型蒸馏等技术将变得更加普及,减少训练和运行模型所需的AI芯片数量,从而降低成本。

架构设计要灵活。建议企业在设计和构建应用程序和平台时,确保能够轻松切换到不同供应商提供的更具成本效益的新模型,这有助于在未来采用更高效的模型,而不必完全重构系统。

风险投资策略发生变化。预计投资机构会调整其AI投资策略,减少对模型和基础设施供应商的投资,转而更多地投资于能够提供更高价值的应用层公司。预计基础模型市场可能会出现整合,大语言模型供应商可能会进入应用领域,直接提供基于其模型的应用程序。这可能导致市场竞争格局的变化,现有应用供应商商可能需要应对来自模型供应商的直接竞争。

较长期来看,在未来1-2年:

特定领域模型和Agent应用将爆发式增长。特定领域模型是指专注于某一特定主题领域的模型,例如某个行业(如医疗、金融)或某种业务功能(如客服、编码)。这些模型与通用模型不同,它们专注于解决特定领域的问题。特定领域模型通常规模更小、构建和运营成本更低,利用特定领域的上下文数据和洞察,以更高的准确性和效率解决特定领域的问题,这比通用模型更具优势,尤其是在企业级应用中。

随着Agentic AI时代的到来,AI需要能够处理特定领域的上下文数据和洞察。特定领域模型能够满足这一需求,使企业能够更有效地解决业务领域和行业垂直领域的问题。特定领域模型是企业大规模采用AI技术的关键,能够更好地适应企业的具体需求,提供更精准的解决方案。


*更多生成式AI研究可前往“沙丘智库”小程序查阅

*有任何需求可咨询客服微信:zimu738



【声明】内容源于网络
0
0
沙丘社区
数字化研究与服务机构
内容 672
粉丝 0
沙丘社区 数字化研究与服务机构
总阅读471
粉丝0
内容672