AIGC发展史中的几个重要模型解构- 大数跨境

首页

AIGC发展史中的几个重要模型解构

数组智控产业发展科技院

2023-10-13

导读：自2018年OpenAI发布GPT-1以来，全球科技巨头和相关企业相继发布多种生成式AI预训练大模型，模型的

自2018年OpenAI发布GPT-1以来，全球科技巨头和相关企业相继发布多种生成式AI预训练大模型，模型的参数数量明显增加，应用场景也更加广泛（图2-5）。

未来的人工智能或将成为最先的进生产力工具，让人们获益。

图2-5 中国AIGC大模型一览图

（图片来源：量子位）

一　基础模型

表2-1简单列举了一些主流的生成模型，接下来将对其中一些做更为详细的介绍。

表2-1 主流生成模型一览表

（资料参考：腾讯研究院、国信证券）

（一）变分自编码

提出时间：2014年；应用场景：图像生成、语言合成。

变分自编码器(Variational Autoencoder, VAE)是深度生成模型中的一种，由Kingma等人在2014年提出，与传统的自编码器通过数值方式描述潜空间不同，它以概率方式对潜在空间进行观察，在数据生成方面应用价值较高。

VAE分为两部分，编码器与解码器。编码器将原始高维输入数据转换为潜在空间的概率分布描述；解码器从采样的数据进行重建生成新数据。

假设有一张人脸图片，通过解码器生成了多种特征，这些特征可以有“微笑”“肤色”“性别”“胡须”“眼镜”“头发颜色”。

传统的自编码器将输入图像潜在特征编码为具体图像，比如，微笑= 0.5，肤色= 0.8等，得到这些数值后通过解码器解码得到与输入接近的图像。

也就是说该张人脸的信息已经被存储至网络中，我们输入此人脸，就会输出一张与该人脸相似的固定图像。

我们的目标是生成更多与输入近似的图像。

因此，我们将每个特征都用概率分布来表示，假设“微笑”的取值范围为0—5，“肤色”的取值范围为0—10，我们在此范围内进行数值采样可得到生成图像的潜在特征表示，同时，通过解码器生成的潜在特征解码得到生成图像。

（二）生成对抗网络

提出时间：2014年；应用场景：图像生成、语言合成。

生成对抗网络(GAN)是早期最著名的生成模型。

GAN使用零和博弈策略学习，在图像生成中应用广泛。

以GAN为基础产生了多种变体，如DCGAN、StytleGAN、CycleGAN等。

GAN包含两个部分。

一是生成器。

它可以学习生成合理的数据。

对于图像生成来说是给定一个向量，生成一张图片。其生成的数据作为判别器的负样本。

二是判别器。

判别输入是生成数据还是真实数据。网络输出越接近于0，生成数据的可能性越大；

反之，真实数据的可能性越大。我们希望通过GAN生成一些手写体来以假乱真。

我们对生成器与判别器进行了定义。

生成器：图中蓝色部分网络结构，其输入为一组向量，可以表征数字编号、字体、粗细、潦草程度等。

在这里使用特定分布随机生成。

判别器：在训练阶段，利用真实数据与生成数据训练二分类模型，输出概率为0—1，越接近1，输入为真实数据可能性越大。

生成器与判别器相互对立。

在不断迭代训练中，双方能力不断加强，最终的理想结果是生成器生成的数据，判别器无法判别是真是假。

以生成对抗网络为基础产生的应用包括图像超分、人脸替换、卡通头像生成等。

（三）扩散模型

提出时间：2015年；应用场景：图像生成。

扩散是受到非平衡热力学的启发，通过定义一个扩散步骤的马尔科夫链，并逐渐向数据中添加噪声，然后学习逆扩散过程，最后从噪声中构建出所需的样本。

扩散模型(Diffusion Model)的最初设计是用于去除图像中的噪声。

随着降噪系统的训练时间越来越长且越来越好，以纯噪声作为唯一输入，生成逼真的图片。

一个标准的扩散模型分为两个过程：前向过程与反向过程。

在前向扩散阶段，图像被逐渐引入的噪声污染，直到图像成为完全随机噪声。

在反向过程中，利用一系列马尔可夫链在每个时间步逐步去除预测噪声，从而从高斯噪声中恢复数据（图2-6）。

图2-6 前向扩散与反向扩散原理图

（上图为前向扩散过程，向原图中逐步加入噪声，直到图像成为完全随机噪声；

下图为反向降噪过程，在每个时间步逐步去除噪声，从而从高斯噪声中恢复源数据）扩散模型的工作原理是通过添加噪声来破坏训练数据，然后通过逆转这个噪声过程来学习数据恢复。

换句话说，扩散模型可以从噪声中生成连贯的图像。

另外，在扩散模型的基础上产生了多种令人印象深刻的应用，比如：图像超分、图像上色、文本生成图片、全景图像生成等。

图2-7就是全景图像的一个例子；

中间图像作为输入，基于扩散模型，生成左右视角两张图，输入图像与生成图像共同拼接成一张全景图像。

图2-7 由扩散模型生成的全景图像

在扩散模型的基础上，各公司与研究机构开发出的代表产品如下。

1.DALL·E 2

DALL·E 2是2022年4月由美国OpenAI公司公布的，并在2022年9月28日，在OpenAI网站向公众开放，提供数量有限的免费图像和额外的购买图像服务（图2-8）。

图2-8 DALL·E 2 生成变种图像

2.Imagen

Imagen是2022年5月谷歌发布的文本到图像的扩散模型，该模型目前不对外开放。

用户可通过输入描述性文本，生成图文匹配的图像。

如图2-9，通过提示语“一只可爱的手工编织考拉，穿着写着‘CVPR’的毛衣”模型生成了考拉图像，考拉采用手工编织，毛衣上写着CVPR，可以看出模型理解了提示语，并通过扩散模型生成了提示语描述图像。

3.Stable Diffusion

2022年8月，Stability AI发布了Stable Diffusion，这是一种类似于DALL·E 2与Imagen的开源Diffusion模型，代码与模型权重均向公众开放。

图2-10是通过提示语“郊区街区一栋房子的照片，灯光明亮的超现实主义艺术，高度细致8K”生成的图像，整体风格与内容契合度高，AI作画质量较高。

图2-9 Imagen通过提示语生成的图像

图2-10 Stable Diffusion通过提示语生成的图像

（四）Transformer

提出时间：2017年；应用场景：语言模型。

2017年由谷歌提出，采用注意力机制(Attention)根据输入数据重要性的不同而分配不同权重，其并行化处理的优势能够使其进行更大的数据集训练，加速了GPT等预训练大模型的发展。

最初用来完成不同语言之间的翻译。

主体包括Encoder与Decoder分别对源语言进行编码，并将编码信息转换为目标语言文本。

采用Transformer作为基础模型，发展出了BERT、LaMDA、PaLM以及GPT系列。

人工智能开始进入大模型参数的预训练模型时代。

（五）Vision Transformer (ViT)

提出时间：2020年；应用场景：视觉模型。

2020年由谷歌团队提出，将Transformer应用至图像分类任务，此后Transformer开始在CV领域大放异彩。

ViT将图片分为14×14的patch，并对每个patch进行线性变换得到固定长度的向量送入Transformer，后续与标准的Transformer处理方式相同。

以ViT为基础衍生出了多种优秀模型，如SwinTransformer、ViTAE Transformer等。

ViT通过将人类先验经验知识引入网络结构设计，获得了更快的收敛速度、更低的计算代价、更多的特征尺度、更强的泛化能力，能够更好地学习和编码数据中蕴含的知识，正在成为视觉领域的基础网络架构。

以ViT为代表的视觉大模型赋予了AI感知、理解视觉数据的能力，助力AIGC发展。

二　预训练大模型

虽然过去各种模型层出不穷，但是生成的内容偏简单且质量不高，远不能满足现实场景中灵活多变以高质量内容生成的需求。

预训练大模型的出现使AIGC发生质变，诸多问题得以解决。

大模型在CV/NLP/多模态领域成果颇丰，诸如我们熟知的聊天对话模型ChatGPT，便是基于GPT-3.5大模型发展而来的。

表2-2 主流AIGC训练模型一览表

（资料参考：腾讯研究院、国信证券）

（一）计算机视觉(CV)

Florence是微软在2021年11月提出的视觉基础模型。Florence采用双塔Transformer结构。

文本采用12层Transformer，视觉采用SwinTransformer。

通过来自互联网的9亿个图文对，采用Unified Contrasive Learning机制将图文映射到相同空间中。

其可处理的下游任务包括图文检索、图像分类、目标检测、视觉问答以及动作识别。

（二）自然语言处理(NLP)

LaMDA是谷歌在2021年发布的大规模自然语言对话模型。

LaMDA的训练过程分为预训练与微调两步。

在预训练阶段，谷歌从公共数据中收集了1.56T数据集，feed给LaMDA，让其对自然语言有初步认识。

到这一步通过输入提示词能够预测上下文，但是这种回答往往不够准确，需要二次调优。

谷歌的做法是让模型根据提问输出多个回答，将这些回答输入分类器中，分析输出回答结果的安全性(Safety)、敏感性(Sensible)、专业性(Specific)以及有趣性(Interesting)。

根据这些指标进行综合评价，将评价从高分到低分进行排列，从中挑选出得分最高的回答作为本次提问的答案。

ChatGPT是美国OpenAI公司在2022年11月发布的智能对话模型。

截至目前，ChatGPT未公开论文等技术资料。

大多数的技术原理分析是基于InstructGPT分析。

ChatGPT与GPT-3等对话模型不同的是，ChatGPT引入了人类反馈强化学习(Human Feedback Reforcement Learning, HFRL)。

ChatGPT与强化学习。

强化学习策略在AlphaGo中已经展现出其强大学习能力。

简单来说，ChatGPT通过HFRL来学习什么是好的回答，而不是通过有监督的问题—答案式的训练直接给出结果。

通过HFRL, ChatGPT能够模仿人类的思维方式，回答的问题更符合人类对话。

ChatGPT原理。

举个简单的例子进行说明，公司员工收到领导安排任务，需完成一项工作汇报的PPT。

当员工完成工作PPT制作时，去找领导汇报，领导看后认为不合格，但是没有清楚地指出问题。

员工在收到反馈后，不断思考，从领导的思维方式出发，重新修改PPT，提交领导查看。

通过以上多轮反馈修改后，员工在PPT制作上会更符合领导思维方式。

而如果领导在第一次查看时，直接告诉员工哪里有问题，该怎样修改。

那么，下一次员工所做的PPT很大概率还是不符合要求，因为没有反馈思考，没有HFRL，自然不会做出符合要求的工作。

ChatGPT亦是如此。

ChatGPT能够回答出好的问题与它的“领导”所秉持的价值观有很大关系。因此，你的“点踩”可能会影响ChatGPT的回答。

ChatGPT主要有以下几个特点。

一是主动承认错误：若用户指出其错误，模型会听取，并优化答案。

二是敢于质疑：对用户提出的问题，如存在常识性错误，ChatGPT会指出提问中的错误。

如提出“哥伦布2015年来到美国时的情景”, ChatGPT会指出，哥伦布不属于这一时代，并调整输出，给出准确答案。

三是承认无知：对于非常专业的问题或超出安全性范围，如果ChatGPT不清楚答案，会主动承认无知，而不会一本正经地“胡说八道”。

四是支持连续多轮对话：ChatGPT能够记住先前对话内容，并展开多轮自然流畅对话。

（三）多模态

多模态(MM)模型是一种能够处理多种形式数据（如文本、图像、语音等）的深度学习模型，通过将不同形式的数据进行联合处理和融合，从而实现更高级别的任务。

多模态模型最早由美国斯坦福大学计算机科学家Fei-Fei Li提出并应用于图像识别领域，之后逐渐发展成为一个独立的研究方向。

下面分别介绍几家国内外主流企业或机构的多模态大模型。

谷歌CLIP：由谷歌提出的多模态模型，可以实现图像和文本之间的互相理解。

该模型采用了Transformer网络结构，能够对图片和文本进行联合编码，从而实现跨模态信息的交互学习。

CLIP模型在图像分类方面表现出色，且在多个图像分类基准测试中的表现都超过了人类专业人士。

Facebook DETR：由Facebook(Meta)提出的多模态模型，可以同时检测物体并将其分割出来。

该模型使用Transformer网络结构和注意力机制，能够在单个前向传递中完成检测和分割任务。

DETR模型在目标检测方面优于其他模型，但在复杂场景下的精度有待进一步提高。

OpenAI DALL·E：由OpenAI提出的多模态模型，可以根据自然语言描述生成相应的图片。

该模型结合了GPT-3和GAN等技术，能够在日常生活场景中生成非常逼真的图像。

DALL·E模型在自然语言生成和图像生成方面表现出众，但需要消耗大量计算资源和时间。

百度ERNIE-M：百度提出的基于多模态预训练的语言理解模型，可以同时处理文本、图像和视频等多种形式的数据。

该模型通过跨模态任务学习和知识蒸馏等方法，能够实现更好的跨模态信息融合和表示学习。

ERNIE-M模型在各类中文自然语言处理任务中表现突出。

腾讯VLP：腾讯提出的基于视觉语言预训练的多模态模型，可以实现图像和文本之间的联合学习和表示学习。

该模型采用了一系列自监督学习任务和预训练策略，能够在各类视觉语言任务中取得优秀结果。

VLP模型具有良好的通用性和可扩展性，可以应用于多种自然语言处理和图像处理场景。

【声明】内容源于网络

数组智控产业发展科技院

以AI技术为底层能力，聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域，提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。

内容 986

粉丝 0

数组智控产业发展科技院以AI技术为底层能力，聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域，提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。

总阅读450

粉丝0

内容986