产业｜终局未定，“百模大战”未来何往- 大数跨境

中国建投

2025-02-05

JIC投资观察原创文章
中国建投子公司建投华科
作者：熊斌
本文6852字，阅读时间约10分钟

2025年1月20日，杭州深度求索人工智能基础技术研究有限公司正式发布了其最新研发的高性能AI推理模型—DeepSeek R1，一时间引发了AI圈的巨大轰动。这款国产模型在各类测试中表现亮眼，多个指标甚至直逼乃至超越OpenAI的o1系列，成为了行业的新标杆。

消息一出，AI爱好者们纷纷涌向各大平台讨论R1模型的卓越表现，研究人员也开始深入研究其技术报告，试图解开其背后强大能力的秘密。

DeepSeek的出圈让外界意识到中国的AI强大，以前外界认为中国AI进展落后美国两年，但这次R1漂亮的亮相将这个差距缩短到3-9个月，甚至某些方面更强，并已触及到了美国从上到下的核心圈，短期对美国AI圈、算力相关公司，甚至能源公司都会带来巨大冲击和压力，这看似突然爆发的震撼，让“蒸馏”技术又一次走到前沿，让“百模大战”增加了更多的变数，这也让我们这些投资人对未来如何布局大模型行业陷入了思索。

海外市场对DeepSeek的技术突破反响也很强烈。美国《麻省理工科技评论》评价其为“东方AI新势力的代表”，而欧洲多国科研机构已将其开源框架集成至本地化AI平台。与此同时，DeepSeek在2024年底推出的多模态模型DeepSeek-M6，支持文本、图像、视频的跨模态生成与推理，进一步巩固了其在全球大模型第一梯队的地位。

DeepSeek的崛起不仅体现了中国AI技术的迭代速度，也为“百模大战”注入了新的变量。这场技术竞赛的核心，正从单纯的参数规模比拼转向效率、场景适配与商业化能力的综合较量。

大模型的发展历程

（一）大模型的萌芽期（1950年-2005年）

大模型的萌芽期可以追溯到20世纪50年代，这一时期的人工智能研究主要基于小规模专家知识和规则系统。1956年，美国达特茅斯学院召开了一次会议，正式提出了“人工智能”的概念，标志着人工智能学科的诞生。

随后，人工智能领域的研究逐渐从理论探索转向实际应用，但受限于当时的技术条件，大模型的发展相对缓慢。

（二）大模型的沉淀期（2006年-2019年）

进入21世纪后，随着数据资源的不断丰富和计算能力的显著提升，大模型的发展进入了沉淀期。这一时期，以Transformer为代表的全新神经网络模型逐渐成为主流。2013年，美国斯坦福大学的Thomas Mikolov等人提出了词向量模型word2vec，将单词转换为向量表示，为自然语言处理领域的研究提供了新的思路。

（三）大模型的爆发期（2020年-2023年）

自2020年起，大模型的发展进入了爆发期。这一时期，以GPT为代表的预训练大模型逐渐成为市场主流。2020年，OpenAI推出了GPT-3模型，其参数规模达到了1750亿，成为当时最大的语言模型。随后，搭载了GPT-3.5的ChatGPT横空出世，迅速引爆互联网，展示了生成式人工智能的巨大潜力。

（四）大模型的加速落地期（2024年至今）

进入2024年，各大模型的性能差异及易用性仍在市场检验过程中，国内大模型领域竞争格局的明晰仍需时日，但是互联网巨头在AI领域积累已久，具备先发优势，大模型的应用不断加速落地，在各个领域的应用场景不断拓展，逐渐从理论探索走向实际应用，在金融、医疗、教育、智能制造等多个领域，发挥越来越重要的作用，推动各行业的智能化升级。

我们预计2025年，全球大模型的应用场景将覆盖80%的实体经济领域，在此特别提一下DeepSeek的推动速度，它凭借其行业大模型矩阵（覆盖金融、医疗、工业等10余个垂直领域），在银行智能风控、药物分子设计等场景中市占率快速超30%。其与阿里云共建的“轻量级大模型联合实验室”，通过模型压缩与动态剪枝技术，将推理成本降低至行业平均水平的60%，成为中小型企业智能化转型的首选方案。

国内大模型赛道正逐渐形成与海外相似的产业趋势，兼具技术、资金、人才和场景优势的头部互联网企业有望成为大模型领域的重要玩家，而其他厂商或面临路径选择，一种是充分利用自身在垂直场景和数据层面的优势，成为聚焦垂类的核心特色玩家，一种则是基于训练和用户调用带来的算力需求的激增，考虑到资源优势和经济性，或将寻求云厂商的支持与合作。

百模大战的竞争格局

随着大模型技术的快速发展，国内外科技巨头和初创企业纷纷投入大模型的应用开发中，市场竞争日益激烈。这场“百模大战”不仅涉及技术层面的竞争，还包括应用场景、商业模式等多个方面的比拼。

（一）海外竞争格局

从海外大模型格局来看，目前已经形成较为清晰的双龙头领先+Meta开源追赶+垂类繁荣的格局，基于通用大模型能力已相对成熟可用，应用生态已逐渐繁荣。

OpenAI凭借其GPT系列模型在生成式人工智能领域占据了领先地位，基于先进算法模型集成以及较早产品化，不仅人机对话展现超预期表现，应用生态也快速丰富，微软数款产品（Windows操作系统、Office、浏览器等）、代码托管平台GitHub，AI营销创意公司Jasper等均已接入GPT；谷歌则通过BERT、T5等模型在自然语言处理领域保持领先地位，同时其提出的IeNet卷积神经网络模型、Transformer语言架构等也均对全球人工智能产生重要推动，但由于公司团队变动以及更谨慎的产品化落地态度，谷歌前期尚未大规模推出面向C端的AI产品，但在ChatGPT流行推动下，谷歌也推出了聊天机器人Bard及PaLM2,并将接入谷歌协作和生产工具。

Meta通过开源方式快速追赶，发布了最新开源大模型LLaMA2,使用2万亿tokens训练，上下文长度翻倍，实现了更加强大的表现能力和更广泛的应用场景。

此外Anthropic、Cohere等基于各自的垂类特色和定制化服务也在海外AI市场中扮演重要角色，同时伴随Sora推出以及Pika的出圈，图像、视频生成领域的超预期进展获得极大关注，全球图像生成大模型以Midjourney、Stable Diffusion、OpenAI的DALL·E为代表，视频生成以Runway的Gen、Pika和OpenAI的Sora为代表。

（二）国内竞争格局

伴随AI大模型在全球范围内掀起的有史以来规模最大的人工智能浪潮，国内学术和产业界也抓紧追赶突破，经过2023年各行各业开源闭源大模型发动的百模大战，目前看来互联网巨头有望保持领先地位，中小厂商或将面临路径选择。

从模型的参与者来看，，分为互联网巨头、传统AI公司、创业专家品牌以及学术科研机构。

互联网巨头参与者，核心大模型大部分诞生于2023年，包括百度-文心一言、阿里-通义千问、腾讯-混元大模型、字节跳动-豆包大模型、华为-盘古大模型、360-智脑大模型、知乎-知海图AI、京东-言犀大模型、美团-光年之外大模型、小红书-小地瓜大模型等。

传统AI企业参与者，核心大模型包括云从科技-云从大模型、商汤科技-日日新大模型、云知声-山海大模型、科大讯飞-星火大模型、第四范式-式说大模型等。

创业公司参与者，核心大模型包括搜狗王小川-百川智能、创新工场李开复-Project 。AI、微软亚研究周明-澜舟科技、京东周伯文-衔远科技、稀宇科技-Minimax、快手李岩-元石科技、字节王长虎-爱诗科技等。

高校研究院参与者，核心大模型包括清华-智普华章、清华-面壁智能、清华-深言科技、北大-悟道科技、中科院-紫东太初、人大-智子引擎等。

从模型的能力来看，根据SuperCLUE最新的评测结果，以开源Llama-3-70B、Llama-3-8B的模型能力为分界线，国内大模型可以形成三大梯队：

1）开源模型Qwen2-72B（阿里-通义千问）在SuperCLUE基准中表现非常出色，超过众多国内外闭源模型，与Claude-3.5持平，与GPT-4仅差4分。

2）此外，还有4个国内大模型（深度求索DeepSeek-V3、智谱GLM-4、商汤SenseChat5.0 、OPPO的AndesGPT）超过GPT-4-Turbo-0409。

3）除了互联网大厂和AI公司，创业专家团队如Baichuan4（百川智能）、Kimi（月之暗面）、MiniMax-abab6.5（稀宇科技）均有超过70分的表现，位列国内大模型第一梯队。

由此可见，国内在“百模大战”中，竞争格局逐渐呈现出多元化的趋势，不仅有大型科技公司之间的竞争，还有初创企业与传统企业之间的竞争；不仅有技术层面的竞争，还有应用场景、商业模式等多个方面的比拼，这种多元化的竞争格局为大模型的发展提供了更多的可能性和挑战，同时国内大模型能力迭代迅速，绝大部分闭源模型能力已超过GPT-3.5Turbo-0125。

伴随百模大战的演进，各大模型参与者逐步从专业技术、核心人才和应用场景构成等核心壁垒方面渐渐拉开差距，但还不够清晰，投资者仍处于观望状态。

百模大战后期的投资战略

大模型是一个重资源禀赋、高进入门槛的赛道，其对算法模型的有效性、高质量的数据、算力的支撑能力均有极高要求，模型的优化迭代亦有赖于资金和人才的持续投入。此外，大模型的实际落地和行业应用能力也是市场检验的重要标准。

面对“百模大战”的竞争格局演进，投资者需要密切关注市场动态和技术发展趋势，通过对大模型行业价值的深刻理解，制定合理的投资战略。

（一）大模型的行业价值

1.降本提效：大模型比较显性的价值表现在助力降本提效，核心在于大模型能够辅助增强人员能力，提升自动化水平进而简化流程，最终减少人力等成本、提升组织运营和管理效率。

典型场景可以包括自动化开发、业务流程优化、智能化决策支持等，衡量成效的指标如大模型支持业务的成本节约、时间节约、效率提升、辅助决策准确率等。

2.业务创新：大模型最具希望的价值表现在对业务供给能力的影响，核心在于大模型的生成能力能扩大内容供给，与应用场景的结合还可能创造新功能或业务，帮助提高业务的竞争力、扩大业务的市场空间。

典型场景包括丰富内容创意、优化业务功能、开发新业务等，衡量成效的指标如大模型支持内容生成的速度和质量、业务的用户数、业务的营收等。

3.体验增强：大模型极有消费价值的成效是衡量行业大模型对用户使用的影响，体现对用户的价值。大模型能提供自然语言交互能力，并随着向多模态、具身智能方向发展，为用户提供更加自然、丰富的体验，从而创造价值增值。

典型场景包括交互方式变革、个性化服务、虚拟陪伴等，衡量成效的指标如大模型支持业务的用户使用量、活跃度、满意度、问题解决率、留存率等。

（二）投资方向

1.关注技术创新型企业

在“百模大战”中，技术创新型企业通常具有更强的竞争力和市场潜力。这些企业通常具有深厚的技术积累和创新能力，能够在特定领域或应用场景中取得突破。

DeepSeek的崛起验证了技术驱动型企业的长期价值，其通过“小模型集群+轻量化部署”策略，在算力资源有限的情况下实现商业闭环，为投资者提供了“高性价比”的技术标的。

作为投资人我们可以关注这些企业的技术创新和产品研发进展，以及其在市场上的表现情况，选择具有潜力的企业进行投资。

2.布局垂直领域大模型应用

随着大模型技术的不断成熟和应用场景的不断丰富，垂直领域的大模型应用将成为未来的发展方向。

作为投资人我们可以关注在垂直领域具有优势的企业和团队，如金融、医疗、教育等行业的大模型应用。这些企业通常具有深厚的行业背景和专业知识，能够将大模型技术与行业实际需求相结合，开发出具有实际应用价值的产品和服务。

3.关注商业模式创新

在“百模大战”中，商业模式创新也是企业竞争的重要方面。一些企业通过提供基于大模型的增值服务、构建生态系统等手段实现商业模式的创新，从而在市场竞争中占据优势地位。

作为投资人我们可以关注这些企业的商业模式创新情况，以及其在市场上的表现情况，选择具有潜力的企业进行投资。

4.注重平衡风险与收益

在投资过程中，作为投资人我们需要全面平衡风险与收益的关系。一方面，大模型领域具有巨大的市场潜力和发展前景，但另一方面也存在技术风险、市场风险等不确定性因素。

因此，投资者需要谨慎评估投资风险，制定合理的投资策略，以获取稳健的回报。

（三）投资误区

大模型投资需要避免两大误区：

一是片面追求技术性能或者短期收益将技术指标当作证明大模型成功的唯一标准。在大模型技术快速迭代的形势下，我们会将注意力集中在技术性能上，通过呈现指标指数的增长来反映大模型的成功，包括精度、提升率等。

但是这些指标远远不够，最大的问题是，技术指标的高低无法直接反映出大模型价值的大小，更重要的应该是关注业务指标，例如用户数、使用量、收入等，这些指标能够直观反映价值，作为评判大模型成功的标准更具有说服力，可以将技术指标与业务指标建立联系，用业务发展来牵引技术开发和优化，也更容易论证技术性能提升带来的价值。

二是过度看重投资收益中的短期产出部分而忽视长期投入。行业更关注大模型的实用性，越来越强调投入产出比，这本身没有问题，但我们往往会将大模型与成熟业务类比，要求明确的投入产出，甚至短期内实现正向盈利，这并不符合大模型应用的成长和发展逻辑。

大模型还在快速迭代，有大量的不确定性，比如技术突变、泡沫等，短期财务上很难有较好地表现，长期也很难评估准确，更合理的方式是将大模型作为研发或孵化项目，不强求短期的财务指标绝对值达成，转而关注业务、技术等指标的相对提升，采取更广泛的组合投资策略长期持续投入才可能真正见效。

我国大模型未来的发展趋势和投资趋势

（一）大模型正在成为推动新一轮科技创新、产业升级、生产力跃迁的重要力量

随着前沿技术推动产业全链条升级，未来从田间到产线，从实验室到便利店，大模型可能会无处不在。

从大模型应用类型来看，国外研发的大模型主要以通用大模型为主，而我国国产大模型更加贴近产业端，呈现出行业大模型占比较高的发展形态。

以大模型生成技术为核心，人工智能正在成为下一轮数字化发展的关键动力，为解决产业痛点带来了全新的思路。大模型的价值在于应用，多样化的实际应用场景将赋能智能经济与智能社会的发展，除了对话、写诗、作画等应用之外，大模型将切实投入到城市发展、金融科技、生物医药、工业制造、科学研究等领域，在实体产业落地，为社会经济带来实实在在的价值。

事实上，利用大模型加速千行百业的数字化、智能化转型，深耕实体经济行业，正在成为业界的共同选择。

（二）加快布局大模型及其相关产业，尽快实现关键性突破，从算力、数据等方面进一步夯实国产大模型根基

大模型的性能主要受算力、数据、算法三方面因素影响。

在算法方面，国产大模型与国际先进水平相比没有根本性差异，基本都是围绕深度神经网络、注意力机制、人工调优等基础算法上进行模型结构或局部算法优化，而在算力、数据等方面则与国际先进水平存在差距。

加快布局大模型及其相关产业，尽快实现关键性突破，从算力、数据等方面进一步夯实国产大模型根基。

1.加快算力基础建设。推进国家重大算力基础设施建设，并以此为基础进一步形成覆盖全国的算力网络，使得算力的供给能够随时满足大模型的行业应用。

2.建立可信数据体系。为国产大模型训练提供安全的高质量数据，建立面向人工智能大模型的可信数据体系，提供高质量的丰富中文语料库。

（三）多模态融合、轻量化部署、个性化服务以及跨领域驱动将成为大模型未来的关注方向

多模态融合：未来大模型将更加注重多模态数据的融合能力，包括文本、图像、音频、视频等多种数据类型。这将使得大模型能够处理更加复杂和丰富的信息，提高模型的智能水平和应用场景的广泛性。

轻量化部署：随着大模型应用场景的不断拓展，轻量化与可解释性将成为未来的发展方向。轻量化技术可以降低大模型的应用门槛和成本，使其更容易在终端设备上部署和运行；可解释性技术则可以提高大模型的透明度和可信度，使其更容易被用户接受和应用。

随着国产算力芯片（如华为昇腾910C）性能比肩国际主流产品，基于轻量化大模型的边缘计算项目备受青睐，预计2025年相关领域融资规模将突破500亿元。

个性化服务：随着用户需求的不断多样化和个性化，大模型将更加注重提供个性化和定制化的服务。通过引入用户画像、行为分析等技术手段，大模型可以更好地理解用户需求和偏好，从而提供更加精准和个性化的服务。

跨领域驱动：未来大模型将更加注重跨领域的整合能力。通过引入其他领域的知识和技术手段，大模型可以更好地应对复杂多变的应用场景和不确定性因素，提高模型的鲁棒性和泛化能力。

（四）持续关注技术迭代与商业落地的协同效应，把握大模型赋能实体经济的长期红利

1.聚焦技术原创性与落地能力：优先选择拥有自主核心技术（如动态稀疏训练、多模态融合算法）且已在垂直领域形成标杆案例的团队。

2.充分评估商业化闭环潜力：关注企业是否具备清晰的商业模式，如按需付费API、行业解决方案订阅制等，早期项目还需要验证客户付费意愿及规模化复制的可行性，避免陷入“技术先进但场景模糊”的陷阱。

3.深挖团队背景与资源壁垒：核心团队需要兼具学术顶尖背景与产业落地经验，同时考察其与超算中心、头部企业的战略合作资源，此类合作可以大幅降低算力与数据获取成本。

4.全面把握政策与产业链红利：重点布局国家算力网络节点城市（如贵阳、京津冀等）或人工智能先导区的企业，这些区域在数据开放、算力补贴等方面更具优势，同时关注与半导体、新能源等战略行业联动紧密的AI项目，享受产业链协同红利。

5.动态平衡风险与投资周期：大模型研发周期长、投入高，一级市场投资需要穿透技术光环，回归价值本身，唯有技术深度、场景厚度与商业成熟度兼备的企业才能在这场变革中持续领跑，所以作为投资人我们一方面要有项目的组合策略，技术头部企业和垂类应用创新项目都要兼顾，分散风险，另一方面关注企业后续融资规划与IPO预期，确保退出路径多元。

综上，“百模大战”的终局仍无定论，但技术、场景与商业化的三角闭环已清晰指向未来。DeepSeek的突围证明，唯有将创新根植于产业需求，方能在竞争中占据制高点。

对投资者而言，在这场没有硝烟的战争中，每一个参与者都需要保持敏锐的洞察力和创新精神，2025年既是机遇之年，亦是风险重构之年—唯有深耕行业认知、强化投后赋能，方能在这场智能革命中捕获真正价值。

图片来源：unsplash.com/pexels.com