常投格物·产研说（总第52期）| 多模态大模型系列（一）—— 从“人工智能”到“思维宇宙”的进化



常投格物·产研说（总第52期）| 多模态大模型系列（一）—— 从“人工智能”到“思维宇宙”的进化

常州人才科创集团

2025-04-06

2025年第10期总第52期

要点

3月5日公布的政府工作报告中，“支持大模型广泛应用”首次被写入，笔者认为，人工智能行业已经迎来以大模型为核心的巨大变革，需要重点关注：

1、多模态占据竞争主导地位，推动AI迈向AGI。相比单模态，多模态大模型同时处理文本、图片、音频、视频等多类信息，推动AI更加接近人类认知方式。同时，跨模态对齐技术极速迭代，研究者已经开始探索全模态前沿。

2、国内大模型产业弯道超车，DeepSeek引发开源浪潮。开源性质促进了技术的创新和共享，并强调了可扩展性、对齐性和可访问性，推动大模型行业从少数大厂主导逐渐向多元化、普惠化发展。

3、专业化增强，推理模型成开发重点。研发侧开始深耕垂直领域，打造具有商业竞争力的专用模型。需要注意的是，推理模型在数学逻辑问题上表现出色，但在涉及创意创造等开放性领域时，“幻觉”问题会增强。

4、Scaling Law面临挑战，轻量化、小型化成趋势。当前是大模型迈向产业落地的关键节点，知识蒸馏、混合专家模型等创新技术带来效率提升和成本的直线下降，我们有望真正迎来人工智能应用的大爆发。

引言

从ChatGPT掀起的对话革命，到DeepSeek-R1以三十分之一成本实现媲美GPT-4o的性能，人工智能行业正迎来以多模态大模型为核心的技术跃迁。多模态大模型的魔力已不在于单项技能的登峰造极，而在其“认知流体”般的跨界融合能力，就像单细胞生物突然获得了脊椎动物的神经中枢。这种技术正重塑医疗、交通、教育等各个行业，让AI从“专业工具”进化为“数字劳动力”，人类面对的不再是替代者，而是拥有异质智慧的“认知伙伴”。本文详细回顾了多模态大模型从Transformer架构开端到“后暴力计算时代”的发展历程，带读者初步掌握该领域的基本概念。

定义与内涵

（一）人工智能与大模型

在2012年AlexNet出现后，深度学习（即使用深度神经网络进行机器学习）成为人工智能领域发展的关键技术路线和核心研究领域。具体来讲，机器学习（Machine Learning）指开发算法和模型，以数据驱动让机器靠自主学习而不是预设规则来获得智能。深度学习（Deep Learning）是机器学习的重要分支，原理是模仿人脑神经元的组织结构以及对外界刺激的响应机制来进行算法抽象与数据建模，通过“多层思考”来学习和解决更加复杂的问题的方法。深度学习的核心是构建深度神经网络（Deep Neural Network，DNN），也被称作深度学习模型。大模型就是指具有billions（十亿）甚至trillions（万亿）级别参数的深度学习模型。

图1 人工智能与大模型的关系

在今年3月5日的政府工作报告中，“大模型”概念首次被写入，和早期模型比，它的特点体现在：大参数数量（如阿里巴巴推出的最新大模型 Qwen2-72B，参数量达到72B，即720亿个参数）、大训练数据量（如GPT-3使用了约570亿个token的数据集）、大算力需求（如LLaMA-270B模型，推理需要140GB显存，训练需要840GB显存）、大电力需求（如训练GPT-3的耗电量约为1.287吉瓦时，相当于120个美国家庭一年的用电量）。

（二）AGI与多模态

如果AI能像人一样同时具备听说读写等多种能力，解决多个领域的棘手问题，那就叫通用人工智能（Artificial General Intelligence，AGI），这也是人工智能发展的最高目标之一。

为了探索和实现AGI，2015年，美国YC公司的CEO Sam Altman、深度学习的专家Ilya，以及马斯克等人一拍即合，共同创办了OpenAI。2023年，OpenAI旗下产品GPT-4所展示出的惊人多模态示例让人们看到了实现AGI的可能性，自此国内外多模态大模型（Multimodal Large Language Models，MLLMs）的研究热潮正式掀起，也标志着AI领域从弱人工智能开始向通用人工智能方向转变。

（三）单模态与多模态

2022年之前，大模型尚处于单模态发展阶段，主要分为两类。

1.语言大模型（Large Language Models, LLMs）

指在自然语言处理（Natural Language Processing，NLP）领域中的一类大模型，用于处理文本数据和理解自然语言。代表性产品包括GPT系列（OpenAI）、Bard（Google）、文心一言（百度）等。

LLMs也被叫做自回归语言模型（Autoregressive Language Models），本质是一个概率模型，以自回归方式操作，根据之前的输入文本预测下一个字（token／sub-word）的概率分布。这一过程可以采用不同的策略,既可以选择概率最高的下个字（即贪婪搜索），也可以从预测的概率分布中随机采样一个字。后一种方法使得每次生成的文本都有所不同，这种特性与人类语言的多样性和随机性颇为相似。

图2 自回归的本质：概率预测

资料来源：DeepSeek技术社区

2.视觉大模型（Visual Large Models，VLMs）

在计算机视觉（Computer Vision，CV）领域中使用的大模型，用于图像处理和分析，应用如图像分类、目标检测、图像分割、姿态估计、人脸识别等。代表性产品包括VIT系列（Google）、文心UFO、华为盘古CV、INTERN（商汤）等。

目前，多模态大模型（MLLMs）作为实现AGI的核心，已占据大模型发展的主流方向。它结合了NLP和CV的能力，

可以执行跨模态任务和复杂任务。代表性产品包括DingoDB多模向量数据库（九章云极DataCanvas）、DALL-E（OpenAI）、悟空画画（华为）等。

图3 大模型发展时间线

资料来源：赵鑫，李军毅，周昆，唐天一，文继荣《大语言模型》

单模态发展阶段（2017-2022年）

（一）Transfomer架构：大模型诞生的基石（2017年）

[该部分省略内容请扫文后二维码获取]

（二）预训练（Pre-trained）时代：规模拓展期（2018-2020年）

[该部分省略内容请扫文后二维码获取]

（三）训练后对齐：弥合人工智能与人类价值观的差距（2021 - 2022年）

[该部分省略内容请扫文后二维码获取]

多模态发展阶段（2022年至今）

人类通过图片、文字、语言等多种途径来学习和理解，多模态技术也通过整合多种模态、对齐不同模态之间的关系，使信息在模态之间传递。当前，多模态已经成为大模型的主战场。

（一）技术奠基：VIT与VLP（2020-2021年）

[该部分省略内容请扫文后二维码获取]

（二）多模态加速拓展到全模态前沿（2022-2024年）

2022年以后，多模态融合技术使大模型的通用能力开始加速扩展，不仅限于图像和文本，还会涵盖音频、视频、传感器数据等多种模态，为市场带来了巨大的想象空间。

随着GPT-4的到来、视频生成模型Sora的诞生、国内第一个全自研视频大模型Vidu的发布等代表性事件接连发生，多模态大模型跃升为全球大模型厂商竞争的重点，多模态技术也成为早期商业化爆发的主要驱动力。国内众多科技巨头、科研院所以及初创公司纷纷加快布局，积极开发自己的大模型及其应用产品。

为了应对现实场景中的复杂任务，研究者又将目光从Specific-MLLMs目光投向了全模态大模型（Omni-MLLMs）。全模态的前沿是2024年初的GPT-4o，其中“o”代表“omni”（全能），它能够接受文本、音频和图像的任意组合作为输入，并生成相应的输出。实时交互和增强的创造力（如生成多媒体内容）使其成为娱乐和设计等行业的多功能工具，也标志AI正向着更接近人类认知的方向前进。

（三）“开源”与“闭源”的协同（2023-2024年）

[该部分省略内容请扫文后二维码获取]

（四）推理时代与专业化（2024-2025年）

[该部分省略内容请扫文后二维码获取]

（五）效率革命与AI“普惠潮”（2025年至今）

[该部分省略内容请扫文后二维码获取]

总结来看，随着技术的不断进步和应用场景的不断拓展，多模态大模型行业正在经历一场前所未有的变革：过去几年被奉为圭臬的“规模定律”可能将被“密度定律”替代（即AI模型的能力密度随时间呈指数级增长，技术终将回到质量和效率的比拼）。与此同时，以DeepSeek为主导的国产大模型强势崛起，打消了2025年之前业界对大模型商业可持续性、资源垄断性、技术门槛过高、数据安全性等方面的担忧，推动国内人工智能领域从“应用驱动”迈向“基础技术与应用并重”，也让人类离理解智能的本质更近一步。