文章来源《一本书读懂ChatGPT》
ChatGPT是潘多拉魔盒还是文明利器,它的诞生预示着崭新时代来临?
1950年,艾伦·图灵(Alan Turing)发表了题为《计算机器与智能》的论文,在文中首次提出了“机器智能”的概念,并且提出用“图灵测试”的方法来判断计算机是否有智能。
1956年,在达特茅斯会议上,“人工智能”概念被首次提出,人工智能开始作为一个研究学科出现。热衷于人工智能的科学家们致力于有朝一日可以创造出由复杂物理结构组成的,拥有和人类同样的智力和思维能力的计算机器。
时至今日,OpenAI开发的ChatGPT横空出世,科学家们的梦想貌似正在逐步走向现实。
ChatGPT拥有语言理解和文本生成能力,它可以通过大量包含真实世界对话的语料库来训练模型,从而上知天文下知地理,还可以根据聊天的上下文进行互动,做到在与真正的人类几乎无异的聊天交流。
ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。
ChatGPT作为一种机器,它的“感知智能”从何而来?“认知”智能又如何取得突破?
追本溯源,就要从实现人工智能的方法——机器学习开始说起。
一 人工智能技术的发展
人工智能技术的发展经历了诞生、黄金时代、低谷、繁荣期、寒冬期,现在进入了真正的春天。
伴随每个时期的进步,人工智能相关的各项技术也在不断地发展完善。
可以说,技术的革新推动了人工智能的发展,而人工智能发展阶段中的瓶颈又使技术不得不向前推进。
(一)机器学习是什么

图3-1 人工智能日益成为科技创新、产业升级和生产力提升的重要驱动力量
图片来源:千图网
人类出生来到这个世界,对一切都一无所知。
从呱呱坠地的那一刻,人类就在不断学习各类新的知识和技能。
一岁多的婴儿学说话,靠的就是模仿大人,例如,我们教他说“妈妈”,大人多重复几次,孩子跟着学自然而然就学会了。
又如,教孩子认识不同的动物,在电视上看到老虎,告诉孩子这是老虎,给孩子描述老虎具体长什么样,有哪些特征。
下次我们带孩子到动物园看到真的老虎,孩子就知道了这是老虎,从而认识了老虎这种生物。
下次遇到不同种类的老虎:华南虎、东北虎、孟加拉虎……
我们再给孩子讲解这些不同种类老虎在毛色、体型、习性等各方面的特点,那么孩子对于老虎这种动物知识的学习就会更进一步。
在成长的过程中,学习其他知识也可以遵循这种方法,按这种流程来学习,从而不断掌握解决新问题的能力。
计算机也是一样,如果想要使其更加智能化,也要让它不断地学习。
那具体如何学习呢?
和孩子学习新知识的方法类似,计算机要能够自主地学习诸如“老虎长什么样”“不同种类的老虎具体有什么特征”等问题,掌握“解决问题时可遵循的原则”,从而不断解决新的问题。
计算机能够自发地认识到不同种类的老虎都是老虎,能够设定各种不同的情况,并且知道如何应对各种不同的情况。
为了让计算机能够如此,在没有人为设定程序的情况下也能够自动完成工作,就必须让计算机事先学习事物的特征和规则,这就是“机器学习”。
机器学习通常分为三类:监督学习、无监督学习和强化学习。
首先我们来了解一下什么是监督学习。
监督学习是指用数据和正确答案的组合来训练模型,令其学习特征和规则的方法。
这里的数据和正确答案的组合就叫作样本集,数据相当于输入,正确答案是我们期望的输出结果,二者缺一不可,都是监督学习必不可少的。
通过不停训练,模型就可以根据输入的数据,给出正确的输出。
例如,把房产中介公司一年的数据作为样本集,数据包含房源的朝向、面积、楼层、房龄以及成交价格。
其中房源的朝向、面积、楼层、房龄就是特征值,成交价格就是结果。
最后把这些数据训练成若干个成熟的模型。
当我们想要了解一套在售房子的价格时,我们只需要向计算机输入房源的朝向、面积、楼层、房龄,计算机就会根据模型预测出房子的成交价格。
这就是监督学习。
监督学习的输出值是定性的且是定量的,对问题描述和所用学习方法影响很大。
以此为标准,监督学习大致可以分为两类:分类问题,这类问题的输出值是定性离散的;
回归问题,这类问题的输出值是定量并且通常是连续的。
分类问题是对数据进行分类,不需要给出准确的数值。
分类问题一个较为经典的例子就是垃圾邮件的分类,通过垃圾邮件过滤器来实现。
垃圾邮件过滤器的作用就是对邮件进行分类,找出垃圾邮件。
邮件过滤器的规则就是把邮件中出现的诸如“促销”“打折”“贷款”等特征性敏感性的词语收集起来,形成一个庞大的词汇数据库,每个词赋予一定的权重。
当收到新邮件的时候,用邮件中的内容跟这个数据库中的词汇去进行比较,如果权重值的总乘积达到某个百分比,这些新邮件就会被标记为垃圾邮件,然后被垃圾邮件过滤器过滤到垃圾箱,而不会到我们的收件箱。
而权重值低于这个百分比的邮件,就会被垃圾过滤器放过,正常发送到我们的收件箱。这个百分比就是垃圾邮件和正常邮件的分界线。
再举一个例子,给计算机输入一张狗的图片,让它分辨是“狗”还是“猫”或者其他什么动物,然后输出它的结果。
这也属于分类问题。
回归问题主要用来预测一个具体的数值,能够给出具体数值。
典型应用场景有房屋成交价格的预测、未来天气情况的预测等。
正如前文所说,例如,向计算机输入一套房子的朝向、面积、楼层、房龄,计算机就会预测出房子的成交价格。
这就是监督学习中的回归问题。
那么计算机怎样来回答回归问题,也就是说这个具体的数值是如何来实现的呢?
首先回想一下初中数学学过的“一次函数”。
一次函数是函数中的一种,一般形如y=kx+b(k, b是常数,k≠0)其中x是自变量,y是因变量。一次函数的图像是一条直线,可以看作线性的。
对于回归问题,如果只有一个变量,可以把它看作单变量线性回归,就是指从其他变量值的线性式中预测并说明单个变量值,表达式为y=ax+e,其中y的值由推测得来。
单变量线性回归只适用取值跟一个变量相关的情况,但通常情况下数值和很多变量相关,并不能仅仅靠一个因素就决定。
例如,预测一个地区某日的降水量,不能只靠温度这样一个参数,因为降水量和温度之间的关系并不是温度越高,降水量越大,它是由很多因素共同作用的结果,跟很多参数有关。
这时候就需要用到多个变量,也就是多变量线性回归,表达式为y=a1x1+a2x2+……+anxn+e。
对于降水量来说,y就相当于降水量,a1x1就相当于温度,a2x2就相当于湿度……
综合温度、湿度、气压、风向等参数数据,才能得到降水量的准确值。
这些参数的影响可以通过调整权重也就是a的数值来改变。
那么,每个参数的具体影响有多大呢?
在大部分人的观念中,湿度对降水量的影响肯定比风向对降水量的影响要大得多,那么湿度的权重就要比风向的权重大。
权重调整会导致原函数所代表的直线偏离调整后的数据点。
为了使尽可能多的数据点落在函数所代表的直线上,就要调整这条直线的斜率。
这样一来,函数所代表的直线就会和数据更好地结合在一起。
在这个过程中,我们会发现影响降水量最关键的因素,也就是和降水量关系最密切的数据,这样就能将多变量线性回归转化成单变量线性回归。
这种自动找寻函数关系的过程,就是我们所说的机器学习。
移动函数的多个参数,包括权重(a1、a2……an)、截距e,从中找出与所求问题关系最密切的数据,再将所有的参数数据都用一个函数来表示,就能根据多个影响因素推算出确定的降水量。
其中代表函数的这条直线非常重要,只有找到和实际输入数据最一致的函数,创建正确的公式,才能够找到数据的规律性,这样使用函数才能预测正确的输出数据。
如何区分分类问题和回归问题呢?
简单地说,对于天气预测而言,如果想要计算机预测明天是阳光明媚还是大雨滂沱,这就是分类问题;
但是如果想让计算机告诉我们明天的气温是在最低多少摄氏度到最高多少摄氏度之间,这个问题就是回归问题了。
是否输出明确的数值就是区分分类问题和回归问题的关键。
在监督学习中,一定要防止“过度学习”。
“过度学习”又称“过拟合”,是计算机对于训练数据,即人类提前准备好的学习数据用来训练计算机的数据,可以轻松给出正确答案,但是对于测试数据,即人类输入的实际未知的数据,需要得到预测结果的数据,无法给出答案。
这就是陷入了“过度学习”。
这种状况就有点像准备期末考试的学生,明明很努力把所有的题目都背下来了,但是考试考砸了。
原因可能就是他没有弄懂题目的含义,只是机械地去背题目,考试时没有出原题,题目换了个出法,就不知道如何回答了。
一个良好的学习机器,应该是既可以根据事先学习的数据预测出正确的答案,又可以根据未知的新数据预测出正确的答案。
陷入“过度学习”的最主要原因是计算机用来训练的模型参数过多,所以参数的选择并不是越多越好,一定要限定参数。
现在我们知道监督学习有输入有输出,目的就是找寻输入输出数据间的关系,从而根据输入来给出预测输出值,每组输入输出数据对应一个点,监督学习就是要把这些点尽可能连接起来形成一条直线,这条直线对应的函数就是要找寻的关系表示函数。那么什么是无监督学习呢?
无监督学习并没有输出值,就像是考试只有各类题目,但是没有标准答案一样。
无监督学习不需要画出函数的那条直线,不需要费尽心思找到输入数据和输出数据之间的关系。
这种令计算机分析不知道正确答案的数据,让其自己发现其中的特征和规律的方法就是无监督学习。
计算机要在学习的过程中思考分类的方法,自行完成分类的工作。
而在有监督学习中,这个分类工作是不需要计算机自己完成的。企业销售员工对顾客购买群体进行分类就会用到无监督学习。
因为销售员工想要了解顾客的购买倾向并不容易,不可能一开始就知道这位顾客要买什么,这时候就要用到无监督学习,让计算机对顾客进行分类,分好类之后,就可以给不同的顾客推荐适合他们的产品。
例如,在淘宝网购物,有一个栏目叫作“猜你喜欢的商品”,通过这一栏就可以了解到更符合我们需求的产品。
分类是一项比较复杂的工作,按照不同的分类依据,同样的事物有不同的分类方法。
到底有多少种分类方法呢?
这项艰巨的工作交给计算机,人类便会轻松很多,计算机会找到更好的分类方法。
无监督学习最具代表性的分类方法就是聚类。
俗话说:物以类聚,人以群分。
聚类就是采用这种原则:将所有数据中的相似数据总结在一起。
例如,一张图上画了很多图形,这些图形有不同的形状和颜色,形状和颜色就是两种属性。
如果对画上的形状进行分类,可以按照形状这种属性分类,分为长方形、心形、椭圆形、圆形、菱形,也可以按照颜色这种属性分类,分为红色、绿色、蓝色、粉色。
除此之外,还可以按有没有心形来分类,按照是否是四边形来分类,等等,如图3-2所示。

图3-2 聚类示例
这些分类方法无法定义哪种分类方法好,哪种分类方法不好。
聚类的目的就是把没有正确答案的数据按照一定的规律和法则,通过分类变得更加易于理解。
在分类之后,就可以明确从中发现了什么以及如何来解释这些问题。
鉴于分类方法的多样性,在实际进行聚类的时候,要加上一个前提设定条件。
对于图形分类的例子而言,如果我们加上前提条件是分类后的每组数据数量相同,那么按颜色进行分类就是最满足要求的,刚好每种颜色的图形数量都一样。
这种分类之后每组数据数量都相同的聚类方法就是k均值聚类算法。
在聚类分析中,k均值聚类算法作为一种典型方法,广泛应用于各个领域之中。
k均值聚类算法的前提条件就是任意一组包含的数据数量完全相同。
如果不满足这个前提条件,那么k均值聚类算法得出的结果将会完全错误甚至完全不着边际。
这里的k就是指定分类的组数,具体需要分多少组,由k来决定,k由人类事先指定。
k均值聚类算法主要应用在文档分类器、识别犯罪地点、物品传输优化、客户分类、球队状态分析、保险欺诈检测、乘车数据分析、网络分析犯罪分子等方面。
如果要说起k均值聚类算法在分类问题上的应用,就不得不提文档分类器。
文档数据标签、主题和文档内容将文档分为多个不同的类别。
第一步操作就是使文档恢复默认状态,用一组数来表示每一个文档,接下来就是最重要的一步,统计术语出现的次数,次数越多越常用,标识出来并把内容类似的术语归到一类,从而就可以辨别出不同文档是否相近了。
通过识别文档组中的相似性从而实现文档的分类。
最后我们再来谈谈什么是强化学习。
人生离不开失败和成功,人生就是不断地在失败中总结经验教训,然后走向下一次成功,就这样循环往复,才能不断前进。
计算机同人类一样,也可以从不断反复交替的失败和成功中来完成学习。
这种学习方法就叫作强化学习。强化学习和无监督学习有些类似,都是计算机自主进行学习。
强化学习这个概念最早被大众熟知是2017年,AlphaGo在围棋比赛中战胜了当时世界排名第一的柯洁。
强化学习和监督学习、无监督学习方式的最主要区别在于:强化学习训练时,需要环境给予反馈以及对应具体的反馈值。
它的目的不是完成分类,不是将邮件区分为垃圾邮件和正常邮件诸如此类的任务,而主要是为了指导训练对象每一步如何决策,采用什么样的行动可以完成特定的目的或者使收益最大化。
例如,AlphaGo下围棋的时候,在这种情况下,AlphaGo就是强化学习的训练对象,它走的每一步棋都不存在对与错之分,但是存在“好”与“坏”之分。
在当前正在进行的棋局,下得“好”,代表是一步好棋,下得“坏”,代表是一步臭棋。
强化学习的训练基础在于AlphaGo每下一步棋,环境都能给予明确的反馈,是“好”是“坏”。
二者具体占多少比例可以进行量化操作。
在AlphaGo下围棋这个场景中,强化学习的最终训练目的就是让AlphaGo一方的棋子占领棋局上更多的区域,从而赢得围棋比赛的最终胜利。
打个比方,这个过程有点类似海洋馆的驯兽师训练动物,海洋馆的海豚就相当于训练对象,驯兽师抬起右手,海豚就会完成指定动作,例如,表演钻圆圈,成功完成之后就会得到一条鱼的奖励,如果没有完成或者完成得不对,就没有小鱼奖励甚至是受到挨饿的惩罚。
久而久之,每当驯兽师举起手或作出某种手势,海豚就自然而然地跟随手势完成对应的动作,因为这个动作是当前环境下能够获得收益最大的动作,可以获取食物,如果做其他动作就不会有食物,甚至会挨饿。
强化学习主要应用在自动驾驶、游戏、推荐系统等方面。
自动驾驶是人工智能应用较为成熟的领域。
目前,百度公司使用了一部分强化学习算法,用来提高自动驾驶的智能性。
但是由于强化学习在使用时需要和外界环境交互试错,实际应用的时候为了提高安全性,通常配置安全员适时进行人工干预,从而及时纠正自动驾驶中出现的错误和偏差。
强化学习应用范围最广阔的当数游戏领域,目前市场上的很多MOBA(多人在线战术竞技)游戏基本都包含强化学习人工智能,其中最广为人知的就是《王者荣耀》人工智能。
由于该游戏本身就是虚拟的,因此在游戏环境下计算机可以和外界随便交互,任意试错,不产生任何真实世界的成本,同时游戏本身的奖励也相对容易设置,存在明显的奖励机制。
(二)神经网络又是什么
神经网络就是用计算机来模拟人脑的构造,简单地说就是神经的线路网。人类大脑构造十分复杂,很难精准地描述清楚。
但是可以确定的是,人类的大脑具有超强的记忆力、计算能力和感知能力,同时还有超过300亿个神经元通过各种方式结合在一起,这些神经元共同处理和传递信息,完成计算、记忆、思考等功能。
神经元就是神经元细胞,对于神经系统来说,它是最小的单位。它的组成部分有两个:细胞体、突起。细胞体相当于指挥部,它可以对收到的神经冲动作出反应,同时可以传导神经冲动。
突起分为树突和轴突,树突的作用是接受其他神经元轴突传来的冲动并传给细胞体;
细胞体接受外界刺激,会产生兴奋,轴突负责把这些兴奋传导出去。
可以看出,神经元负责的工作就是输入和输出,即处理信息并把信息传递给其他神经元。
此外,由于它还有思考的功能,所以和人类智力相关的活动相关联。
人类很早以前就有这样一个构想:如果能模仿人脑的构造,是否就能设计出模拟人脑运行的计算机程序呢?
美国心理学家沃伦·麦卡洛克(Warren McCulloch)和数理逻辑家沃尔特·皮茨(Walter Pitts)在合作的论文A Logical Calculus of the Ideas Immanent in Nervous Activity中对人工神经网络的概念作出了定义,同时建立了人工神经元的数学模型,揭开了人工神经网络研究的新篇章。
人工神经元就是模仿人类大脑的神经元结构,从而在计算机上应用类似的结构。
人工神经元出现以后,人们找到了让计算机变得更智能的方法,开始不断尝试各种人工制造的神经元的组合。现在大家所熟知的深度学习,正是有了人工神经元以后才出现的。
人工神经元和真正的人脑神经元工作方法是一致的:从多个感受器接受电信号(0或者1表示),进行处理(加权相加),处理结果要和阈值相比较,根据是否大于阈值作出相应的判断,从而发出相应的电信号(正确就发出1,否则就发出0),这就是它叫神经元的原因。
这里所说的阈值就是传递给各个信息元的数值。
输入的信号乘以一定的权重,这里的权重是实数,可以为正,也可以为负,可以是整数,也可以是小数,具体数值可以根据需求随意设定,然后将乘积全部相加,得到的结果和阈值进行比较,如果大于等于阈值,就输出1,如果小于阈值就输出0。
0和1对应了神经元的两种状态:抑制与兴奋。很多人工神经元组合在一起,设定好权重,计算机就可以实现各种不同信息的处理。
这就是所谓的神经网络。

图3-3 人的大脑由神经元组成。
神经元由细胞体、树突和轴突三部分组成。
神经元之间通过轴突(输出)与树突(输入)相互联结。
图为放大的脑神经细胞
图片来源:中新图片/顾建文
在本书中我们经常提到权重,那权重到底是什么,对于信息处理来讲,输入信息的权重也可以理解为人们对这条信息的信任程度。
举个例子,小李、小王、小张三人是闺蜜,她们都喜欢看电视剧并且分享心得。
最近新出了一部电视剧,小李、小王都看了,小张还没来得及看,小李告诉小张别看了,电视剧拍得很差劲。
但是,小王告诉小李说赶紧抽时间看吧,电视剧太精彩了,绝对不能错过。
因为两个人评价完全不同,小张还是抽时间看了这部电视剧,看完之后,她和小王一样都觉得拍得不错,值得一看。
这时,她对小李的信任度就会下降,下次小王再说某部电视剧不好看,她也不会再相信了。
如果小王当初也告诉她电视剧很精彩,她看了也觉得确实很精彩的话,她下次看到别人也会推荐这部电视剧,说看起来很精彩,这时候小张的神经元就被激活了。
小李和小张的权重相加给小王,信任度达到一定程度,即达到小王的阈值,小王的神经元就被激活。
人工神经元看似原理构造简单,却可以实现不那么简单的功能。
1949年,加拿大心理学家唐纳德·赫布(Donald Hebb)提出了神经元学习法则。
在此基础上,顺应人类第一次人工智能的热潮,美国科学家弗兰克·罗森布拉特(Frank Rosenblatt)在1957年提出了“感知机”的构思,就是将人工神经元和赫布定律结合在一起,可以模拟人类感知能力。
这里出现了一个新名词——赫布定律,是唐纳德·赫布于1949年提出的关于神经元之间联系的变化规律的定律。
唐纳德·赫布的理论认为,如果在同一时刻,同时受到外界刺激而兴奋起来的神经元之间的关系会被加深记忆。
也就是这些神经元中的某个或某些在下次受到刺激兴奋起来,另外一些也很容易一起兴奋。
人类的神经元可以划分为多种功能,有只对某种特定形状兴奋的细胞,只对某种特定颜色兴奋的细胞,只对某种特殊气味兴奋的细胞,等等。
例如,在部队里,吃饭前要先吹号,当吃饭号角声响起来时一个神经元被激发,对号角声兴奋的细胞兴奋起来,在同一时间饭桌上的饭菜会激发附近的另一个神经元,对食物兴奋的细胞兴奋起来,那么这两个神经元就会彼此记住,兴奋的细胞之间的联系就会增强,兴奋的细胞和未兴奋的细胞之间的联系就会减弱。这就是赫布定律。
下次号角声再响起来时,士兵就知道是开饭时间到了,就会感觉到饿。
这正是因为与号角声相关联的细胞与食物相关联的细胞之间的联系增强了。感知机的仿真于1957年由唐纳德·赫布完成。
1959年,在感知机仿真基础上,唐纳德·赫布又增加了识别英文字母功能的神经计算机——Mark1。
Mark1正式问世的时间是1960年6月23日。
感知机通过简单的数学模型模拟出神经元基本的激活和抑制两种状态,促进了人工神经网络的研究。
正如人生有起起落落,科学研究的领域也有高潮和低谷。
随之而来的便是人工神经网络的第一次低谷。因为美国科学家、“人工智能之父”马文·明斯基(Marvin Minsky)在1969年发现感知机存在致命缺点,就是它无法解决线性不可分问题。
直观地说,就是感知机无法解决一条线不可分割的问题,如果x轴和y轴分别对应了不同年龄的人的身高、体重。
按12岁以上和12岁以下进行分类,基本上一条直线就可以将所有的数据分开,但是如果按收入分类就无法用一条线分开,因为身高、体重和收入没有必然联系。
这就是线性不可分问题。
(三)深度学习有多厉害
人工智能的第二次高潮始于20世纪80年代。感知机不能处理线性不可分问题,由于这点被人类发现,于是提出了改进这个弱点的反向传播(BP)算法,用来解决非线性分类和学习的问题,以补救感知机的不足。
反向传播算法可以将计算误差从输出层反向传回,纠正各个神经元的错误,从而减少误差。
随着反向传播算法的逐渐发展,还发展到多层反向传播算法,用于提高反向传播算法的准确度,但是在4层以上的反向传播算法中,因为层数越多,误差反向传播就越困难,所以,增加层数反而存在梯度消失问题,无法对前一层进行有效的学习。
反向传播算法也因之失去了热度。
人工智能的发展进入了寒冬期。这个时候发生了一件人工智能史上的大事,在2012年世界级图像识别竞赛中,冠军由初次参赛的加拿大多伦多大学研发的Super Vision所获得,要知道它的对手可是牛津大学、东京大学等世界一流大学和企业所研发的产品。
这次比赛的主题是如何让计算机自动并正确识别出图像所显示的是花朵还是动物,以1000万张图片作为学习数据,15万张图片作为测试数据,最后以错误率最低为衡量胜利的标准。
Super Vision以最低的错误率15%取胜,那么它有什么特别之处呢?
它使用的正是由英国的杰弗里·辛顿(Geoffrey Hinton)所发明的深度学习算法进行学习的,杰弗里·辛顿也被誉为“深度学习之父”。深度学习由此开启了人工智能的第三次高潮。
那么深度学习到底有多厉害呢?在深度学习出现之前,训练计算机识别出动物图片,要给计算机输入各种动物的特征,如老虎额头有个王字,猫的趾底有厚的肉垫用来确保行走无声,等等。
这些特征都是人来提取描述的,这类工作还有个专有名词叫作“特征工程”。但是提取特征是一件很烦琐的事情,要想把某种动物区别另一种动物的所有特征都找出来,是要费一番功夫的。
并且如果提取特征的方法不同,计算机识别图像的准确度也会随之变化,人们担负的责任也很重大。
有了深度学习,只要学习的数据量足够大,计算机就可以自己提取动物的特征,并以此为基础进行图像的识别分类。
所以说,深度学习的厉害之处就在于它可以自发地进行特征学习,这样人类就从繁杂的工作中解脱出来了。
现在只需要告诉计算机这张东北虎的图片是老虎,另外一张孟加拉虎的图片也是老虎,而不用告诉它两个不同种类的老虎有什么区别,计算机就能学会老虎是什么。
能够像人一样自发学习成了人工智能研发出像人一样行动的计算机的突破口,从此以后,机器学习向“自动数据分析”又前进了一步,人类研究人工智能的思路又拓宽了许多。
在反向传播算法中,层数达到4就无法继续顺利学习了,那深度学习是如何做到5层、6层,甚至10层的呢?
这是因为深度学习采取的是“自编码”,这是一种信息压缩器。
有了它,每一层都能正确地学习。
自编码的构造是输入层=正确答案=输出层。
例如,传统的神经网络,给计算机输入“手写字母a”的图像,此外人类还要告诉计算机这是字母a,计算机才能学习。
但是自编码就不用,人类给出正确答案后,只要输入“手写字母a”的图像,计算机就会输出这是“手写字母a”的答案。
输入可以和输出完全相同。在这个过程中,输入、输出是人类可以看到的,但是中间层是隐藏起来看不到的。
正是在中间层(隐层)的位置,计算机完成了自动识别特征的工作。
例如,一幅像素为1024的图像,输入层和输出层都是1024个像素点,但是隐层有300个特征点。
这种1024到300的压缩,就是统计学中常用的“主成分分析法”。
到了第三层,数据点又被压缩到100个,这样逐层压缩,但是越压缩,特征越抽象也越准确。
生成的抽象度和准确度都高的特征,使深度学习在输出时就可以正确地输出,还原输入的数据。
深度学习目前在多个领域都得到了广泛应用。
在图像识别领域,图像识别涉及识别照片并根据其特征分类。
因此,图像识别软件和应用程序可以确定照片中显示的内容并区分它们。当前人们所用的智能手机相册就实现了这一功能,会自动根据照片拍摄的时间、地点、人员等对图像进行分类。
在自动驾驶领域,其主要目的是对外部因素作出安全反应,如周围的汽车、路牌和行人,以便从一个地点顺利到达另一个地点。
深度学习推动了自动驾驶技术的发展,自动驾驶可以缓解交通拥堵,虽然现在还不能完全实现无人全自动驾驶,但深度学习让人类离这个目标越来越近。
例如,地震预报领域,因为地震会给人类财产、生命等安全带来巨大破坏,科学家们一直致力于解决地震预报问题的研究。
成功的地震预报可以减少财产损失,挽救生命。
科学家们正试图根据地震发生的时间和地点以及震级来预测地震。
深度学习应用Von mises屈服准则帮助科学家将地震预测时间的准确率提高了5000%,使地震时间预测从仅仅猜测地震何时会发生转变为能够准确预测地震何时会发生。
在医疗健康领域,深度学习可以担负医生和医疗检测器械的部分工作,可以帮助检查小儿有没有孤独症、发育迟滞等,语言发育是否有障碍等。
因为一旦患上这三类疾病,他们很难正常生活,也很难融入社会,更不要说生活会有什么品质和幸福感。
所以,如果能在早期就发现,并且能够及时治疗对他们会有很大的帮助。
深度学习也正在努力解决这些问题。
在机器自动翻译领域,互联网的出现使不同地域的人之间的沟通成为可能,你在马里共和国的库里克罗,我地处中国北京,我们同样可以通过网络进行沟通。
但有一个问题就是你说班巴拉语,而我说汉语,必须将班巴拉语翻译成汉语或者将汉语翻译成班巴拉语,这样沟通才能顺利进行。
这种自动翻译就可以选择深度学习,深度学习在自动翻译文本和图像方面可以大展身手。
另外,机器人的研发是为了模拟人的行为,首先它要了解周围的世界,认识所有常见的事物,最早出现的机器人对于形状相同的事物认知能力非常欠缺,例如,形状类似的啤酒瓶和钢笔,机器人就无法准确区分。
但是深度学习算法能够直接让机器人从数据中学习,因此它们非常适合机器人技术,大大提高了机器人的认知能力,使机器人越来越好地模拟人类进行工作。
二 人工智能的集大成者:ChatGPT
ChatGPT的发布可谓一石激起千层浪,那么它是怎么发展至今的呢?
(一)从PGC到UGC再到AIGC

图3-4 GPT-4是OpenAI语言模型系列中的最新产品,可为ChatGPT和新版Bing等应用程序提供支持。
图为GPT-4界面
图片来源:中新图片/王冈
近年来,互联网上的内容生产模式历经了多次变革:完成了从专业生成内容(Professional Generated Content, PGC),再到用户生成内容(User Generated Content, UGC)最终到现在的利用人工智能技术自动生成内容时代(Artificial Intelligence Generated Content, AIGC)。
这三种方式最大的区别在于内容的创作主体和专业度不同。
在UGC中,创作主体一般是广大用户,其内容更加大众化和简单化,但是质量参差不齐;
而在PGC中,创作主体通常是专业人士,其创作的内容较UGC而言更加专业、精准,质量更高,但是也因此其生产效率和产量受到了限制。
在AIGC中,创作内容是由人工智能生成的,而非人类创作,因此其内容质量和产量都具有高度可控性。
因此,AIGC、UGC、PGC在创作主体、专业度和内容质量等方面存在着明显的区别。
针对不同的需求和场景,可以选择不同的内容生产方式来满足用户的需求。
AIGC正在拓展数字时代中的创造力极限,为内容生产领域带来巨大变革,对于内容生产、极限工作的完成有着极大的意义。
那么,AIGC相对于UGC和PGC具体有哪些优势呢?
首先,AIGC具有极高的效率,它可以在短时间内生成大量内容,大大提高了内容生成的效率;
其次,AIGC生成的内容相对稳定,它的质量可以通过人工智能技术得到保证,因此具有很高的稳定性;
再次,AIGC可以节省成本,可以有效降低内容生成的成本,同时也不会因为人员流失等因素影响内容的生成;
最后,AIGC可拓展性更加强大,AIGC技术的拓展性比UGC和PGC更强,可以应用于更多领域,更广泛地满足用户的需求。
除了以上优点,AIGC技术还具有使用门槛低、普及性强等特点。
AIGC的这种特点使它在未来具有更加广阔的发展空间。
随着技术越来越成熟,AIGC的应用前景会越来越广泛。
(二)从深度学习到大模型
模型是将现实问题进行抽象化,抽象成数学公式。
例如,人的收入和年龄、性别以及学历的关系,最后抽象成一个数学公式:Y=F(A, S,E),可以先不用管这个公式具体表达什么,只要建立了这个公式就相当于建立了模型。
既然模型是把现实问题抽象成数学公式,那么即使深度学习的出发点是更深层次的神经网络,但是只要划分得更细致的话,也可以划分成数量非常多的不同的模型。
不同的抽象问题的方式对应不同的数学公式,如常见的卷积神经网络、深度神经网络等。
“大”模型,就是模型中比较“大”的那一类,“大”的具体含义也就是数学公式更复杂,所包含的参数更多。
2021年8月,美国华裔科学家、谷歌云的首席科学家李飞飞院士联合100多位学者发表一份题为On the Opportunities and Risk of Foundation Models的研究报告,这份报告有200多页,该报告详细描述了当前大规模预训练模型面临的机遇和挑战。
在报告中,大模型被统一命名为Foundation Models,中文翻译为基础模型或者基石模型。
该报告肯定了Foundation Models对智能体基本认知能力的推动作用。
2017年,Transformer结构的提出使深度学习模型参数突破了1亿。发展到后来,Bert网络模型的提出又使参数量首次超过3亿规模,GPT-3模型超过百亿。
近两年国内的大模型在蓬勃发展,目前已经存在多个参数超过千亿的大模型。
对于大模型而言,参数量更多,学习的数据量更多,模型的泛化能力更强,泛化能力就是完成任务的能力,泛化能力越强,完成任务的数量越多。
例如,目前开源开放的浪潮源1.0模型,其参数规模高达2457亿,训练采用的中文数据集达5000GB,相比于GPT-3模型1750亿参数量和570GB训练数据集,“源1.0”参数规模领先40%,训练数据集规模领先近10倍。
同时,源1.0模型在语言智能方面表现优异,获得中文语言理解评测基准CLUE榜单的零样本学习和小样本学习两类总榜冠军。
测试结果显示,人群能够准确分辨人与源1.0模型作品差别的成功率已低于50%。
大模型是否可以作为通往机器学习认知智能的桥梁?
这个问题目前还没有准确的答案,随着人工智能技术的发展,人类可以在研究的过程中探究自己想要的方案。
(三)从“+人工智能”到“人工智能+”
“+人工智能”,也就是各个领域中应用到人工智能技术,人工智能技术可以帮助各个行业领域实现快速高效处理数据,提高生产效率,降低生产成本,从而增加经济效益。在这种情况下,人工智能是起辅助作用,位于次要地位。
金融领域+人工智能:目前人工智能主要用于风控、支付、理赔等方面,应用最为成熟的要数智能投顾。
智能投顾也叫机器人理财,2008年诞生于美国,并不是实体的机器人帮助客户理财,而是将人工智能导入传统的理财顾问服务,通过网上互动,根据投资者的风险承受度和不同的投资目的,在计算机算法的作用下,给出自动化的投资组合建议。
智能投顾的优点就是24小时提供服务,并且使用的人力较少,进入财富管理的门槛及费用较低,但是无法保证收益最大化,对于是否会发生金融危机等突发事件,能否给出正确的投资意见存在不确定性。
2022年,国内多家银行相继关停智能投顾服务。
服务停止与银行的监管政策有关,或许意味着商业银行的智能投顾服务走到了终点。
电力领域+人工智能:在建设环节,电力公司利用人工智能技术可以建设模型库、样本库,构建运行环境和训练环境的智能基础设施,搭建模型和平台;
在巡检环节,工作人员向无人机发送指令,无人机可自主完成巡检一线的输电线路巡检作业。
通过使用基于人工智能的智能识别算法使巡检工作的识别准确率提升了近30%,识别效率提升了近5倍;
在变电站运维环节,运维人员可直接从线上接入智能调控系统,采用一键调控的操作,无须到场便可完成千伏变电站的倒闸操作,既可以保证安全,又使启动送电时间缩短到原来的20%,效率提升了几十倍。
电力集团构建的智能化管理平台,线上就可轻松管理分布在全国各地的上万台风机、几百座风电场。
“人工智能+”,在这种模式下,人工智能占主体地位,将人工智能作为当前行业科技化发展的核心特征,并与工业、金融业等全面融合,可以为社会创造出新的需求、打造新商业模式、构建新的经济增长点。
这代表了一种新的社会形态,将人工智能的成果深度融合于经济,形成以互联网为基础的基础设施和实现工具的新社会发展形态。
人工智能+工业:对于工程设计中重复性的、耗费大量时间以及不需要耗费大量脑力的工作,通过AIGC技术实现自动化,可使原来需要耗费数千小时的工程设计缩短到分钟级,大大提高工程效率。
ChatGPT再一次打开了人们对人工智能内容创作的想象空间,大大增强了AIGC在编程语言领域、新闻撰写、文案创作等自然语言方面领域的创作能力上限,效率和可靠性大幅提升。
未来,诸如搜索引擎、艺术设计、文稿创作等行业的行业格局和商业模式可能发生超乎人们想象的改变。
相比于传统的专业生产内容和用户生产内容模式,使用人工智能生产内容显然更具有效率和成本上的优势。
三 ChatGPT推动人工智能发展
自从问世以来,ChatGPT的热度与日俱增,丝毫没有减退的迹象。
对于人工智能以及互联网行业的发展来说,这无异于打了一针兴奋剂。
但兴奋过后,会留下些什么?
人类的受益是否如想象般巨大?
还是会颠覆整个人类社会?
这些都是我们需要考虑的问题。
(一)ChatGPT是否代表一个新时代的开启
每一个新时代的开启,都有它独特的标志。
例如,互联网刚兴起的时候,腾讯、搜狐、网易……
如雨后春笋般冒出。在移动互联时代,也就是手机端互联网兴起的时候,各种手机端App,如美团、拼多多等蓬勃兴起。
所以,ChatGPT的出现,让我们看到了各种新型商业模式的衍生。
人工智能开始真正地贴近普通人的日常生活,让人们更加深刻、更加直观地感受到它们的价值。
现在更像是开启了真正的人工智能时代。
不久的将来,越来越多的行业、场景将会和人工智能紧密联系在一起;越来越多的行业、职业将会被人工智能所取代。
正如互联网资讯网站取代部分报纸,电商取代部分传统零售一样,ChatGPT将会再度开启一场人工智能深度影响和改变人们的生产和生活方式的新进程。
(二)ChatGPT后人工智能未来的发展方向
人类在一直不停地创造发展人工智能技术,目的就是创造出能模拟人的思想和行为的智慧的机器,可以说,人类一直在向智能社会努力前进,在经历了互联网时代、数字时代的发展之后,进入人工智能时代是一种必然的发展趋势。
但人类始终没有找到一条通向人工智能社会的正确的道路。
虽然目前人工智能应用在很多方面,如智能制造、智能家居、智能驾驶等,然而,对于普通人而言,人工智能并没有彻底地、完全地、贴近地改变人类的生活方式。
说到底,人工智能还是一个遥不可及的梦想。
要想让每一个普通人能真真切切地感受到人工智能的存在,除了要让人工智能的应用场景更加丰富以外,还要降低人工智能应用的门槛,让人工智能更接地气,才能有更多的人真实地感受到人工智能的强大与实用。
ChatGPT恰恰达到了这样一个目的。
当它为你写出一封感情真挚的情书送给你暗恋许久的女神;
当它在你脆弱无助的时候说上几句安慰的暖心的话语;当你出国旅游苦于语言不通的时候它帮你翻译,缓解你的尴尬;
当你被复杂的概念所困扰,它几句解释就让你茅塞顿开……
ChatGPT就是给人们这种感觉,它无时无刻不在人们身边,只要你需要,它就在,而且可以提供多种帮助,从而有越来越多的人参与其中,越来越多的人感知到它的存在,这才是真正意义上的人工智能时代。

