大数跨境
0
0

DeepSeek开源关键问题研究

DeepSeek开源关键问题研究 CAICT数据基础设施
2025-04-17
2



DeepSeek开源爆火的背景

(一)传统大模型Scaling Law似乎已“撞墙”

2020年,OpenAI发表论文《Scaling Laws for Neural Language Models》首次系统性地提出了Scaling Law的概念,文章发现数据集、计算量和模型参数这三方面规模增加,LLMs性能也会相应提升。在2024年上半年之前,这一规律走势非常明显。

图1 训练模型提升可增加数据集、计算量和模型参数

然而,在2024年期间,虽然计算量、数据集规模和模型参数数量持续增长,模型性能提升却呈现出边际递减的趋势,很难再有显著提升,大模型Scaling Law似乎已经“撞墙”。

图2 训练时计算和LLMs性能的关系

(二)OpenAI o1发布开启新阶段Scaling Law

2024年9月,OpenAI正式公开发布o1模型。

图3 OpenAI正式公开发布o1模型

相比GPT-4o,OpenAI o1模型在解决科学、数据和编码等复杂推理任务方面效果显著,推理大模型成为热点。

为什么取名叫o1,OpenAI是这么说的:对于复杂推理任务来说,这是一个重要的进展,代表了人工智能能力的新水平。鉴于此,我们将计数器重置为1,并将这一系列命名为OpenAI o1。

需要注意的是,这并不是说o1模型就比GPT-4o“更好”,两者的适用范围各有侧重:

  • o1模型适用于需深入推理的复杂任务,适用于科学推理、代码编写等技术性和专业性较强的工作,但是耗时更长且成本更高;

  • GPT-4o支持多模态(包括文本、音频、图像甚至可能包括视频)输入处理,是虚拟助手、内容分析、市场营销等领域的理想工具,但在实现复杂任务推理方面则明显不足。

Open AI研究发现,o1的性能会不仅会随着训练阶段训练时计算的增加而提高,而且还会随着推理阶段测试时计算的增加不断提高,大模型似乎有望通过提升测试时计算来实现性能的显著提升,开启新阶段的Scaling Law。

图4 OpenAI o1性能随训练时计算和测试时计算平稳提高 

然而,虽然OpenAI o1取得了新突破,但模型实现方案却未公开,且应用服务收费较高,其推广应用存在难度。

(三)DeepSeek-R1发布破解了大模型推理能力提升谜题

2025年1月20日,DeepSeek-R1版本发布,性能与OpenAI-o1相当,并且还具备开源和低成本等独特优点,在全球爆火。1月25日,特朗普称赞DeepSeek的创新,并宣称这对美国科技敲响了警钟。1月26日,DeepSeek应用登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。1月27日,DeepSeek应用持续霸榜,引发市场震动,美国芯片龙头企业英伟达股价历史性重挫17%,市值蒸发近6000亿美元,引发欧美科技股连带大跌。

其实在此之前,DeepSeek就已经开源多个版本的大模型。2024年5月发布DeepSeek-V2,以创新的模型架构和超低的推理成本爆火,引发行业内的价格战。2024年12月发布DeepSeek-V3,性能与GPT-4o相当,并且以高性能、低成本的特点开始在全球范围获得关注。



DeepSeek开源内容

(一)大模型开源和传统软件的区别

件开源不仅要能获得源代码实现功能,还要能修改源代码完善功能传统软件按照设定好的逻辑构建代码即完成软件开发,因此,传统软件公开源代码就完成了开源大模型仿照人脑神经系统构建架构,利用海量数据集和训练代码对设计好的模型架构的权重进行多轮优化迭代,直至模型学习效果符合预期,最终输出一模型权重,如下图所示。因此,大模型开源不仅要公开模型架构代码和权重以实现模型功能,还需公开训练代码和数据集等以修改完善模型功能。

图5 大模型构建原理图

为统一对AI开源的定义,2024年10月,开放源代码促进会(简称 OSI)发布了“开源AI定义”的1.0正式版本,提出要使 AI 系统被视为真正的开源系统,它必须提供:

  • 可访问用于训练 AI 的数据的详细信息,以便其他人可以理解和重新创建;

  • 用于构建和运行 AI 的完整代码;

  • 训练中的设置和权重,帮助 AI 产生相应的结果。

(二)DeepSeek开源内容

DeepSeek主要开源了模型代码、模型训练参数和技术报告。模型代码方面,DeepSeek的模型代码基于美国HuggingFace公司开发的transformers库实现,在此基础上提高了模型运行性能,模型代码量不到2000训练参数方面,DeepSeek-R1利用蒸馏技术,提供了多个不同权重级别的较为轻量级的模型。技术报告方面,介绍了破解了提升大模型推理能力之谜,概述训练模型实现推理能力的核心思想,但未详细介绍实现细节。但由于未公开训练代码和数据集,因此难以复现DeepSeek的功能。



DeepSeek开源影响

在美国,除了Meta的Llama外,大部分顶级AI大模型都是闭源的,而采取开源策略的DeepSeek就像一个“破局者”,引发了全球对大模型开源的热议。

(一)积极影响

推动国产大模型生态构建,提升我国国际影响力。DeepSeek开源实践得到了国际学界和业界的认可,不仅在国内得到了广泛支持和应用,还被国外的英伟达、微软、亚马逊等企业部署在自家的云服务上对外提供服务,迅速占领了国内外市场,提升了中国在国际人工智能领域的影响力。

打破大模型推理技术垄断,推动大模型技术发展。DeepSeek开源使得推理大模型架构和实现方案等得以公开,打破了少数巨头对推理技术的垄断,为全球研究机构和开发者提供了了解和探究大模型推理技术的机会,有助于激发更多的创新思路,构建一个更加多元、包容和充满活力的大模型技术生态。

推动大模型与各产业融合,赋能我国数智化发展。对于企业来说,开源的DeepSeek模型使其无需从零开始研发,大大降低了开发成本和时间。我国深圳、广东等多地政务系统已接入DeepSeek,此外阿里、华为、邮储银行、比亚迪等多家公司相继接入DeepSeek,涉及互联网、金融、汽车等诸多行业,赋能各行业智能化转型与效率跃升。

(二)消极影响

开源程度有限,遭部分开发者质疑。DeepSeek的开源并不彻底,例如训练数据与完整训练框架未公开,限制了公众对模型的深入理解和进一步优化,难以完全复现模型训练过程,束缚了模型在开源社区中的迭代升级。

易被恶意利用,存在技术安全隐患。DeepSeek开源不仅使得其可赋能正常业务需求,也可能被网络攻击者、网络诈骗犯等滥用,可能引发数据泄露、虚假信息肆虐等安全乱象,给个人隐私、企业运营乃至社会秩序都带来严重冲击。

对外造成威胁,面临国际政治风险。美国长期领跑AI技术,DeepSeek的成功引发了国外对我国人工智能发展的警惕与围堵,美国、意大利、韩国等多国出台相关法案禁止美国个人及企业使用DeepSeek等中国AI技术,对中国AI技术发展形成一定阻碍。

作者介绍

马晨迪


工业互联网与物联网研究所系统开发工程师,“星火之光”青年专家,主要从事数据领域技术和政策研究工作,针对数据空间等技术有深入研究,在网络基础设施方面具有重大工程建设、专报撰写、软课题研究经验。


关于“CAICT数据基础设施”

CAICT数据基础设施以促进数据要素市场化配置为出发点,专注于数据基础设施的关键技术研究和数据智能服务网络建设,释放数据要素价值,推动数字经济与实体经济融合创新发展。

【声明】内容源于网络
0
0
CAICT数据基础设施
CAICT数据基础设施以促进数据要素市场化配置为出发点,专注于数据基础设施的关键技术研究和数据智能服务网络建设,释放数据要素价值,推动数字经济与实体经济融合创新发展。
内容 224
粉丝 0
CAICT数据基础设施 CAICT数据基础设施以促进数据要素市场化配置为出发点,专注于数据基础设施的关键技术研究和数据智能服务网络建设,释放数据要素价值,推动数字经济与实体经济融合创新发展。
总阅读27
粉丝0
内容224