DeepSeek：中国AI力量的新纪元——如何在全球竞争中崭露头角- 大数跨境

首页

DeepSeek：中国AI力量的新纪元——如何在全球竞争中崭露头角

企业服务定制

2025-01-26

导读：V3，以其卓越的性能和低廉的训练成本，在全球范围内引起了轰动。这款由中国AI初创公司DeepSeek开发的模型，不仅成为了开源社区的新宠儿，也在多个国际基准测试中超越了诸如GPT-4o和Claude-

资讯快报

2024年12月26日

星期天

背景

background

在人工智能领域，一款新晋的大型语言模型（LLM）——DeepSeek-V3，以其卓越的性能和低廉的训练成本，在全球范围内引起了轰动。这款由中国AI初创公司DeepSeek开发的模型，不仅成为了开源社区的新宠儿，也在多个国际基准测试中超越了诸如GPT-4o和Claude-3.5-Sonnet等知名闭源模型。

时事新闻

News

技术创新与突破

DeepSeek-V3之所以能够引起如此大的反响，主要归功于其一系列的技术创新。首先，它采用了多头潜在注意力（MLA）机制和DeepSeekMoE架构，使得模型可以在保持高性能的同时显著降低计算资源的需求。其次，DeepSeek引入了一种称为多token预测（MTP）的策略，这不仅提高了数据效率，还增强了模型对未来文本的理解能力。

性能优异且成本低廉

尽管DeepSeek-V3拥有6710亿个参数，但其训练成本却远低于同类规模的其他模型。据称，DeepSeek-V3仅花费了约278.8万个H800 GPU小时完成训练，相比之下，Llama 3系列模型的计算预算则高达3930万个H100 GPU小时。此外，DeepSeek-V3在多项基准测试中表现出了色，特别是在数学和中文任务上，它的得分甚至超过了所有竞争对手。