自2018年OpenAI发布GPT-1以来,全球科技巨头和相关企业相继发布多种生成式AI预训练大模型,模型的参数数量明显增加,应用场景也更加广泛(图2-5)。
未来的人工智能或将成为最先的进生产力工具,让人们获益。

图2-5 中国AIGC大模型一览图
(图片来源:量子位)
一 基础模型
表2-1简单列举了一些主流的生成模型,接下来将对其中一些做更为详细的介绍。
表2-1 主流生成模型一览表

(资料参考:腾讯研究院、国信证券)
(一)变分自编码
提出时间:2014年;应用场景:图像生成、语言合成。
变分自编码器(Variational Autoencoder, VAE)是深度生成模型中的一种,由Kingma等人在2014年提出,与传统的自编码器通过数值方式描述潜空间不同,它以概率方式对潜在空间进行观察,在数据生成方面应用价值较高。
VAE分为两部分,编码器与解码器。编码器将原始高维输入数据转换为潜在空间的概率分布描述;解码器从采样的数据进行重建生成新数据。
假设有一张人脸图片,通过解码器生成了多种特征,这些特征可以有“微笑”“肤色”“性别”“胡须”“眼镜”“头发颜色”。
传统的自编码器将输入图像潜在特征编码为具体图像,比如,微笑= 0.5,肤色= 0.8等,得到这些数值后通过解码器解码得到与输入接近的图像。
也就是说该张人脸的信息已经被存储至网络中,我们输入此人脸,就会输出一张与该人脸相似的固定图像。
我们的目标是生成更多与输入近似的图像。
因此,我们将每个特征都用概率分布来表示,假设“微笑”的取值范围为0—5,“肤色”的取值范围为0—10,我们在此范围内进行数值采样可得到生成图像的潜在特征表示,同时,通过解码器生成的潜在特征解码得到生成图像。
(二)生成对抗网络
提出时间:2014年;应用场景:图像生成、语言合成。
生成对抗网络(GAN)是早期最著名的生成模型。
GAN使用零和博弈策略学习,在图像生成中应用广泛。
以GAN为基础产生了多种变体,如DCGAN、StytleGAN、CycleGAN等。
GAN包含两个部分。
一是生成器。
它可以学习生成合理的数据。
对于图像生成来说是给定一个向量,生成一张图片。其生成的数据作为判别器的负样本。
二是判别器。
判别输入是生成数据还是真实数据。网络输出越接近于0,生成数据的可能性越大;
反之,真实数据的可能性越大。我们希望通过GAN生成一些手写体来以假乱真。
我们对生成器与判别器进行了定义。
生成器:图中蓝色部分网络结构,其输入为一组向量,可以表征数字编号、字体、粗细、潦草程度等。
在这里使用特定分布随机生成。
判别器:在训练阶段,利用真实数据与生成数据训练二分类模型,输出概率为0—1,越接近1,输入为真实数据可能性越大。
生成器与判别器相互对立。
在不断迭代训练中,双方能力不断加强,最终的理想结果是生成器生成的数据,判别器无法判别是真是假。
以生成对抗网络为基础产生的应用包括图像超分、人脸替换、卡通头像生成等。
(三)扩散模型
提出时间:2015年;应用场景:图像生成。
扩散是受到非平衡热力学的启发,通过定义一个扩散步骤的马尔科夫链,并逐渐向数据中添加噪声,然后学习逆扩散过程,最后从噪声中构建出所需的样本。
扩散模型(Diffusion Model)的最初设计是用于去除图像中的噪声。
随着降噪系统的训练时间越来越长且越来越好,以纯噪声作为唯一输入,生成逼真的图片。
一个标准的扩散模型分为两个过程:前向过程与反向过程。
在前向扩散阶段,图像被逐渐引入的噪声污染,直到图像成为完全随机噪声。
在反向过程中,利用一系列马尔可夫链在每个时间步逐步去除预测噪声,从而从高斯噪声中恢复数据(图2-6)。

图2-6 前向扩散与反向扩散原理图
(上图为前向扩散过程,向原图中逐步加入噪声,直到图像成为完全随机噪声;
下图为反向降噪过程,在每个时间步逐步去除噪声,从而从高斯噪声中恢复源数据)扩散模型的工作原理是通过添加噪声来破坏训练数据,然后通过逆转这个噪声过程来学习数据恢复。
换句话说,扩散模型可以从噪声中生成连贯的图像。
另外,在扩散模型的基础上产生了多种令人印象深刻的应用,比如:图像超分、图像上色、文本生成图片、全景图像生成等。
图2-7就是全景图像的一个例子;
中间图像作为输入,基于扩散模型,生成左右视角两张图,输入图像与生成图像共同拼接成一张全景图像。

图2-7 由扩散模型生成的全景图像
在扩散模型的基础上,各公司与研究机构开发出的代表产品如下。
1.DALL·E 2
DALL·E 2是2022年4月由美国OpenAI公司公布的,并在2022年9月28日,在OpenAI网站向公众开放,提供数量有限的免费图像和额外的购买图像服务(图2-8)。

图2-8 DALL·E 2 生成变种图像
2.Imagen
Imagen是2022年5月谷歌发布的文本到图像的扩散模型,该模型目前不对外开放。
用户可通过输入描述性文本,生成图文匹配的图像。
如图2-9,通过提示语“一只可爱的手工编织考拉,穿着写着‘CVPR’的毛衣”模型生成了考拉图像,考拉采用手工编织,毛衣上写着CVPR,可以看出模型理解了提示语,并通过扩散模型生成了提示语描述图像。
3.Stable Diffusion
2022年8月,Stability AI发布了Stable Diffusion,这是一种类似于DALL·E 2与Imagen的开源Diffusion模型,代码与模型权重均向公众开放。
图2-10是通过提示语“郊区街区一栋房子的照片,灯光明亮的超现实主义艺术,高度细致8K”生成的图像,整体风格与内容契合度高,AI作画质量较高。

图2-9 Imagen通过提示语生成的图像

图2-10 Stable Diffusion通过提示语生成的图像
(四)Transformer
提出时间:2017年;应用场景:语言模型。
2017年由谷歌提出,采用注意力机制(Attention)根据输入数据重要性的不同而分配不同权重,其并行化处理的优势能够使其进行更大的数据集训练,加速了GPT等预训练大模型的发展。
最初用来完成不同语言之间的翻译。
主体包括Encoder与Decoder分别对源语言进行编码,并将编码信息转换为目标语言文本。
采用Transformer作为基础模型,发展出了BERT、LaMDA、PaLM以及GPT系列。
人工智能开始进入大模型参数的预训练模型时代。
(五)Vision Transformer (ViT)
提出时间:2020年;应用场景:视觉模型。
2020年由谷歌团队提出,将Transformer应用至图像分类任务,此后Transformer开始在CV领域大放异彩。
ViT将图片分为14×14的patch,并对每个patch进行线性变换得到固定长度的向量送入Transformer,后续与标准的Transformer处理方式相同。
以ViT为基础衍生出了多种优秀模型,如SwinTransformer、ViTAE Transformer等。
ViT通过将人类先验经验知识引入网络结构设计,获得了更快的收敛速度、更低的计算代价、更多的特征尺度、更强的泛化能力,能够更好地学习和编码数据中蕴含的知识,正在成为视觉领域的基础网络架构。
以ViT为代表的视觉大模型赋予了AI感知、理解视觉数据的能力,助力AIGC发展。
二 预训练大模型
虽然过去各种模型层出不穷,但是生成的内容偏简单且质量不高,远不能满足现实场景中灵活多变以高质量内容生成的需求。
预训练大模型的出现使AIGC发生质变,诸多问题得以解决。
大模型在CV/NLP/多模态领域成果颇丰,诸如我们熟知的聊天对话模型ChatGPT,便是基于GPT-3.5大模型发展而来的。
表2-2 主流AIGC训练模型一览表


(资料参考:腾讯研究院、国信证券)
(一)计算机视觉(CV)
Florence是微软在2021年11月提出的视觉基础模型。Florence采用双塔Transformer结构。
文本采用12层Transformer,视觉采用SwinTransformer。
通过来自互联网的9亿个图文对,采用Unified Contrasive Learning机制将图文映射到相同空间中。
其可处理的下游任务包括图文检索、图像分类、目标检测、视觉问答以及动作识别。
(二)自然语言处理(NLP)
LaMDA是谷歌在2021年发布的大规模自然语言对话模型。
LaMDA的训练过程分为预训练与微调两步。
在预训练阶段,谷歌从公共数据中收集了1.56T数据集,feed给LaMDA,让其对自然语言有初步认识。
到这一步通过输入提示词能够预测上下文,但是这种回答往往不够准确,需要二次调优。
谷歌的做法是让模型根据提问输出多个回答,将这些回答输入分类器中,分析输出回答结果的安全性(Safety)、敏感性(Sensible)、专业性(Specific)以及有趣性(Interesting)。
根据这些指标进行综合评价,将评价从高分到低分进行排列,从中挑选出得分最高的回答作为本次提问的答案。
ChatGPT是美国OpenAI公司在2022年11月发布的智能对话模型。
截至目前,ChatGPT未公开论文等技术资料。
大多数的技术原理分析是基于InstructGPT分析。
ChatGPT与GPT-3等对话模型不同的是,ChatGPT引入了人类反馈强化学习(Human Feedback Reforcement Learning, HFRL)。
ChatGPT与强化学习。
强化学习策略在AlphaGo中已经展现出其强大学习能力。
简单来说,ChatGPT通过HFRL来学习什么是好的回答,而不是通过有监督的问题—答案式的训练直接给出结果。
通过HFRL, ChatGPT能够模仿人类的思维方式,回答的问题更符合人类对话。
ChatGPT原理。
举个简单的例子进行说明,公司员工收到领导安排任务,需完成一项工作汇报的PPT。
当员工完成工作PPT制作时,去找领导汇报,领导看后认为不合格,但是没有清楚地指出问题。
员工在收到反馈后,不断思考,从领导的思维方式出发,重新修改PPT,提交领导查看。
通过以上多轮反馈修改后,员工在PPT制作上会更符合领导思维方式。
而如果领导在第一次查看时,直接告诉员工哪里有问题,该怎样修改。
那么,下一次员工所做的PPT很大概率还是不符合要求,因为没有反馈思考,没有HFRL,自然不会做出符合要求的工作。
ChatGPT亦是如此。
ChatGPT能够回答出好的问题与它的“领导”所秉持的价值观有很大关系。因此,你的“点踩”可能会影响ChatGPT的回答。
ChatGPT主要有以下几个特点。
一是主动承认错误:若用户指出其错误,模型会听取,并优化答案。
二是敢于质疑:对用户提出的问题,如存在常识性错误,ChatGPT会指出提问中的错误。
如提出“哥伦布2015年来到美国时的情景”, ChatGPT会指出,哥伦布不属于这一时代,并调整输出,给出准确答案。
三是承认无知:对于非常专业的问题或超出安全性范围,如果ChatGPT不清楚答案,会主动承认无知,而不会一本正经地“胡说八道”。
四是支持连续多轮对话:ChatGPT能够记住先前对话内容,并展开多轮自然流畅对话。
(三)多模态
多模态(MM)模型是一种能够处理多种形式数据(如文本、图像、语音等)的深度学习模型,通过将不同形式的数据进行联合处理和融合,从而实现更高级别的任务。
多模态模型最早由美国斯坦福大学计算机科学家Fei-Fei Li提出并应用于图像识别领域,之后逐渐发展成为一个独立的研究方向。
下面分别介绍几家国内外主流企业或机构的多模态大模型。
谷歌CLIP:由谷歌提出的多模态模型,可以实现图像和文本之间的互相理解。
该模型采用了Transformer网络结构,能够对图片和文本进行联合编码,从而实现跨模态信息的交互学习。
CLIP模型在图像分类方面表现出色,且在多个图像分类基准测试中的表现都超过了人类专业人士。
Facebook DETR:由Facebook(Meta)提出的多模态模型,可以同时检测物体并将其分割出来。
该模型使用Transformer网络结构和注意力机制,能够在单个前向传递中完成检测和分割任务。
DETR模型在目标检测方面优于其他模型,但在复杂场景下的精度有待进一步提高。
OpenAI DALL·E:由OpenAI提出的多模态模型,可以根据自然语言描述生成相应的图片。
该模型结合了GPT-3和GAN等技术,能够在日常生活场景中生成非常逼真的图像。
DALL·E模型在自然语言生成和图像生成方面表现出众,但需要消耗大量计算资源和时间。
百度ERNIE-M:百度提出的基于多模态预训练的语言理解模型,可以同时处理文本、图像和视频等多种形式的数据。
该模型通过跨模态任务学习和知识蒸馏等方法,能够实现更好的跨模态信息融合和表示学习。
ERNIE-M模型在各类中文自然语言处理任务中表现突出。
腾讯VLP:腾讯提出的基于视觉语言预训练的多模态模型,可以实现图像和文本之间的联合学习和表示学习。
该模型采用了一系列自监督学习任务和预训练策略,能够在各类视觉语言任务中取得优秀结果。
VLP模型具有良好的通用性和可扩展性,可以应用于多种自然语言处理和图像处理场景。

