

洞见2024｜国产AI大模型产业分析报告

撼地产研

2024-04-03

导读：大模型是一种参数规模非常庞大的深度神经网络模型，相比起小模型，深度神经网络大模型通常参数较多、层数较深，具有更强的表达能力和更高的准确度。

查看咨询企业和产业数据，请联系400-023-5320

图文｜胡娇

大模型概念

大模型概念：LLM（large language Model），即大语言模型，是一种参数规模非常庞大的深度神经网络模型。这类模型拥有超过数十亿甚至数千亿个参数，并基于大规模的数据进行训练，能够处理复杂的任务，如图像识别、自然语言处理、机器翻译、推荐系统、语音识别等。

相比起小模型，深度神经网络大模型通常参数较多、层数较深，具有更强的表达能力和更高的准确度，但也需要更多的计算资源和时间来训练和推理。当其模型的训练数据和参数不断扩大，达到一定的临界规模后将会表现出一些未能预测的、更复杂的能力和特性，模型能够从原始训练数据中自动学习并发现新的、更高层次的特征和模式，这种能力被称为“涌现能力”。而具备涌现能力的机器学习模型就被认为是独立意义上的大模型，这也是其和小模型最大意义上的区别。

较为具有代表性的大模型有文心一言、混元、盘古、悟道、星火、商汤日日新、通又、书生-浦语、baichuan-7B。

百度开发的文心一言具有一定程度的理解能力、文案创作能力和多种插件功能，具备跨模态、跨语言的深度语义理解和生成能力，该产品在搜索问答等方面都有广阔的想象空间。

混元是由腾讯研发的大语言模型，具备强大的中文创作能力，可靠的任务执行能力，能够实现多轮对话、内容创作、逻辑推理等。

华为盘古大模型具有问答、生成、理解、代码视觉、预测等多种能力，其应用较为广泛，与此同时，该模型为客户提供100亿、380亿、710亿等参数的基础大模型，能够适用不同场景，该模型在中文理解类榜单上排名第一。

商汤科技旗下的“日日新SenseNova 4.0”，更是多维度全面升级了大模型体系。“日日新SenseNova 4.0”拥有更全⾯的知识覆盖、更可靠的推理能力，更优越的长文本理解力及更稳定的数字推理能力和更强的代码生成能力，并⽀持跨模态交互。

发展历程

大模型经历了萌芽期、发展期和爆发期等三个阶段，第一个阶段是以CNN为代表的传统神经网络。

第二个阶段是以Transformer模型为代表的神经网络阶段，这个阶段中出现了word2vec技术，word2vec能够从自然语料中无监督地进行语言学习，该语言模型首次将单词转换为单词向量，除此之外，对抗生成网络GAN的诞生标志着深度学习进入到了新的阶段。

第三个阶段是以GPT为代表的预训练大模型阶段，这个阶段的大模型具备了多模态与多类型的内容生成能力，是数据、算法和算力的完美结合。在transformer架构下，GPT模型能够结合人类反馈、强化学习进行精准调整策略进行进一步的模型改良。

图1-大模型发展的历程

图2-大模型发展的三个阶段

相关技术

随着AI大模型的快速发展，其科技进步日新月异。其在云计算等领域有着巨大的突破,AI大模型正逐渐成为教育、医疗、安防等领域解决复杂问题的重要工具，AI大模型中的关键技术包括BERT、GPT和混合模式等，具体如下：

BERT:该模型是一个预训练模型，基于transformer模型的双向编码表示，该模型训练时的任务是预测句子中被掩盖的词以及判断输入的两个句子是不是上下句。该模型通过mask方式随机掩盖掉一些单词，让系统来猜测，从而使得该模型具有捕捉上下文的能力。
GPT: 该技术的底层结构为transformer模型，transformer模型通过位置embedding和单词embedding来实现，该模型可以用数据训练来进一步实现文本生成，是当前较为前沿的训练模型。
混合模式：混合专家模型通过专家模型和门控模型组成。通过实现任务和训练数据在不同专家模型间的分配，让每个模型处理其最擅长的任务实现模型的稀疏性，这样可以有效地利用不同专家模型的优势，进而实现模型较好的性能。以GPT-4为例，该语言模型拥有16个专家模型，总共包含1.8万亿个参数。

特点及分类

大模型的特点是规模巨大、具备涌现能力、较好的性能和泛化能力、能够进行多任务学习，通过大数据进行训练，AI大模型能够显著地降低人工智能的应用门槛。

大模型分类包括文本大模型、音频大模型、视频大模型、策略生成类大模型，其具体分类如下：

文本大模型：该类模型的主要功能是结构性新闻撰写、内容续写和诗词创作等，较有代表性的模型为NLP模型。
音频大模型：主要用于流行歌曲、乐曲、有声书的内容创作，以及视频、游戏、影视等领域创作，在一定程度上降低了音乐版权的采购成本。
图像大模型：主要功能为图像编辑及图像自主生成等，包括去除水印、提高分辨率、按指定要求生成营销类海报、模特图、logo等。代表性的模型有3D GAN模型，该模型在速度和内存上都有改进。
视频大模型：视频模型包括视频属性编辑、自动剪辑、视频部分编辑等，该模型将成为跨膜态生成领域中的重要模型。
策略大模型：该模型能够通过AI技术针对特定的问题及场景，自主提出解决方案，主要应用于游戏、自动驾驶和机器人控制等领域。

市场现状

就AI大模型而言，国外有较为前沿的科技，国内也有一大批竞争者正在出现。国内应用层面的需求推动AI产业的加速发展，或将带来市场的爆发性增长。根据IDC数据的预测，2023年中国的人工智能软件市场支出预测达到1080亿元，2026年中国的人工智能软件市场规模将会达到1519.2亿元，其CAGR为12%。同时，AI发展由数据、算法、算力驱动，国内的AI数据量正呈现出爆发式增长，据IDC统计，中国数据量2023年规模为30.02ZB，2026年将增长到60.81ZB，我国数据量规模的CAGR达到26.3%，排名全球第一。

图3-2022-2027年中国AI大模型数据量规模

在AI大模型的竞争厂商中，根据产业链布局可以分为上中下游厂商。

上游厂商包括AI芯片厂商，如华为、寒武纪等，还包括AI服务器厂商如ZTE中兴、同方等，光模块厂商包括II-VI等，智算中心包括光环新网等。

中游厂商包括软件层中的数据库厂商优刻得、润泽科技、奥飞数据等，中间件厂商如中创、宝兰德等，数据集厂商如曼孚、云测等，云计算厂商如华为云等，大模型厂商如网易等企业。

下游应用层厂商包括智慧能源、智慧政务、智慧教育、智慧金融等行业的厂商，AI模型技术的市场应用场景较为多元化，在智慧能源场景下，AI大模型可用于行业能源优化和供应链管理，其代表的企业有蓝谷智慧能源和朗坤；在智慧政务场景下，AI大模型可以应用于疫情防控、智慧城市等领域，代表企业包括太极股份、开普云等；而智慧教育场景下，该技术可以应用于个性化教学或者丰富传统教学内容，如讯飞AI等；在智慧金融场景下，AI大模型可以用于移动支付、区块链等方面，其标志性企业包括蚂蚁金服等。

图4-AI大模型上中下游产业链

就市场集中度而言，我国的人工智能软件市场高度集中，在计算机视觉AI市场排名前五的企业占据了94.5%市场份额，包含商汤科技、旷视科技、云从科技等企业，就语音语义市场而言，科大讯飞、百度智能云、阿里云、腾讯云等龙头企业则占据了该市场97.8%的市场份额。

未来发展趋势

大模型未来发展具有大小模型协同、数据依赖减少、模型性能提高的趋势。这意味着在未来，大小模型将会协同发展，大模型负责向小模型输出任务，小模型则精确地完成自己擅长的领域，达到降低产品能耗的目的。在未来，企业将追求更少的产品能耗、更少的数据标注、更优的模型效果。

在未来大模型的通用性将持续加强，最终实现AI开发大一统趋势。在不同场景中，大模型能够通过自我学习解决过程中产生的问题，与此同时，大模型将实现不同任务及领域模型上的通用性。未来大模型将通过在不同场景中的“自我学习”解决产业中的各种问题，增加模型差异化，提高模型应对能力，从而推动AI开发走向“统一”。

大模型未来发展将从科研创新走向落地，实现可复制、产业化趋势。这意味着大模型仅需较少的样本就可以实现很好的效果，同时与各个领域深度融合，如工业质检、蛋白质预测等领域。大模型不仅在科技行业应用，同时也在实际业务中有应用，在未来，企业将会深度整合大模型，将大模型嵌入搜索引擎和办公软件，从而提高大模型的利用率。

— end —