文章来源《一本书读懂ChatGPT》
ChatGPT从哪里来将到哪里去,人工智能领域的革命狂飙即将来临?
ChatGPT的全称是Chat Generative Pre-trained Transformer,是一种革命性的人工智能语言模型。
它由OpenAI开发并于2022年11月正式发布。
与传统的互联网聊天机器人软件相比,ChatGPT智商情商双高,社交网络流传出各种询问或调戏ChatGPT的有趣对话,在其开放试用的短短几天,就吸引了超过100万互联网注册用户。
从目前来看,ChatGPT不仅仅是传统的搜索引擎或对话机器人,它还能够在实时互动的过程中获得问题的最佳答案,被视为“搜索引擎+社交软件”的结合体。
那么,ChatGPT到底是从何而来,又将向何处去?
它的诞生将会给人工智能领域带来一场怎样的革命?
我们先从ChatGPT的诞生背景、发展历程和未来发展趋势等方面来介绍ChatGPT的前世今生。
一 ChatGPT的横空出世
随着信息技术的不断发展,几乎每隔一段时间都会产生一些新产品,其中一些已有的技术和市场所带来的革命性影响开创了一个全新的时代。
例如,网景浏览器(Netscape)催生了PC互联网时代,苹果手机(iPhone)催生了移动互联时代。
如今,ChatGPT一经发布,就因其超出人类预期的对话能力而技惊四座,被视为当年的网景浏览器和苹果手机一样划时代的产品而艳惊四座,引发全世界的广泛关注。
那么,ChatGPT为何能震惊世人?
它开发背后有着怎样的故事?
让我们从ChatGPT的诞生环节来探寻ChatGPT的身世之谜。
(一)ChatGPT的开发团队——OpenAI
ChatGPT是OpenAI开发的一个软件程序。
OpenAI成立于2015年,由特斯拉首席执行官埃隆·马斯克(Elon Musk)、美国创业孵化器Y Combinator总裁山姆·阿尔特曼(Sam Altman)、全球在线支付平台PayPal联合创始人彼得·蒂尔(Peter Thiel)等硅谷科技大亨共同创办。
OpenAI的目标是与全球人工智能领域的相关机构进行合作,以开放性的研究成果促进人工智能技术的发展,造福全人类。
早在创业伊始,OpenAI就将自己确立为一个使命驱动型的企业,其核心宗旨在于“实现安全的通用人工智能(AGI)”。
正如其创始人之一的阿尔特曼所说,OpenAI的目标是创造一种与人类智力相匹配的“通用人工智能”。
2022年6月,量子计算专家、ACM计算奖得主斯科特·亚伦森(Scott Aaronson)宣布,将加盟OpenAI公司。
2023年2月2日,OpenAI宣布推出ChatGPT Plus订阅服务,可以让用户在高峰期优先使用人工智能聊天机器人ChatGPT。
2023年2月16日,OpenAI豪掷千金,将超优质域名AI.com链接跳转到了ChatGPT。
据统计,2023年1月,平均每天有超过1300万名独立访问者使用ChatGPT,是2022年12月的两倍多。
推出仅仅2个月,ChatGPT月活跃用户就成功过亿。
(二)ChatGPT的爆火出圈
2022年11月30日,OpenAI公司在社交网络上向世界宣布他们最新的大型语言预训练模型ChatGPT。
自发布以来,ChatGPT热度不减,在首次亮相两个月后,ChatGPT拥有超过3000万用户,每天访问量约为500万。
这使它成为活跃用户增长最快的软件产品之一。
在2023年1月末就已突破1亿,之前最快破亿的是TikTok(抖音海外版),而其用户破亿也用时9个月,这一切让ChatGPT成为史上用户增长速度最快的消费级应用程序。
于是,网络上关于ChatGPT“开启人工智能新纪元”“全新的时代正拉开序幕”之类的说法广为流传。
上到科技巨鳄,下到普通民众,都对ChatGPT的强学习智能化能力惊叹不已。
经济学家罗伯特·希勒(Robert J.Shiller)曾说:“精彩的、富有感染力的经济叙事往往不胫而走,比严肃刻板的论文和说教更容易被人理解、接受和传播。”
时下最受追捧的话语表达是什么?是以颠覆性创新为主轴的叙事框架。
例如,2023年春节期间爆火的电影《流浪地球2》中的行星发动机、太空电梯等,就因为满足了大众对于未来世界的颠覆性想象,受到观众热捧。
ChatGPT的爆火出圈,同样缘于其颠覆性、创新性的技术。
ChatGPT虽然只是一个软件程序,但它的数据库融合了来自互联网的大量代码和信息,帮助ChatGPT能够快速学习并实现类似人类的互动交流方式。
利用海量数据,加上人工智能技术以及量子计算,ChatGPT生成了极为强大且适应性很强的逻辑思维能力,具备了能够处理当今人类几乎所有学科和知识的能力。
ChatGPT的基本原理与核心技术,是基于统计方法的监督式深度(强化)机器学习,属于人工智能生成内容(AI Generated Content, AIGC)和自然语言处理(Natural Language Processing, NLP)领域,ChatGPT作为人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、代码、论文等任务。
ChatGPT的出现,使AIGC强化了内容与生产力的连接,大大推进了自然语言处理的研究进展。
目前看来,无论是技术上还是应用上,ChatGPT都极具潜力,它被《科学》(Science)杂志评选为2022年度十大科学突破之一。

图1-1 ChatGPT的出现具有划时代意义,大模型+ChatGPT已形成新一代操作系统平台的雏形。
图为ChatGPT网站截图图片来源:ChatGPT网站
人工智能聊天机器人程序有很多,而ChatGPT爆火出圈除了缘于其先进的技术,也缘于它刺激了大众的好奇心理。
调查数据显示,ChatGPT在短短2个月内,就拥有了超1亿的活跃用户,美国89%的大学生在使用这个软件写作业,而这个数字还在不断上升中,有可能在不久的将来达到10亿、20亿,或者说拥有智能手机的用户都很有可能安装上这个程序。
就连《人类简史》一书的作者尤瓦尔·赫拉利(Yuval Noah Harari)都惊讶其不仅言之有理,还有着连贯的逻辑。清华大学计算机系副教授黄民烈说:“ChatGPT已经超出了80%甚至90%人的对话能力,GPT-3的对话能力其实就已超出了人类平均水准。”
微软联合创始人比尔·盖茨(Bill Gates)在接受德国商业日报采访时表示:“ChatGPT可以对用户查询作出惊人的类似人类的反应,它的出现与互联网、个人电脑的发明一样重要,到目前为止,人工智能可以读写,但无法理解内容。
像ChatGPT这样的新程序将通过帮助写发票或信件来提高许多办公室工作的效率,这将改变我们的世界。”
近年来,人工智能领域经历了先被追捧、后被看低的过程。人们起初以为,人工智能会给人类带来超级自动化的应用场景。
然而,多年过去了,人脸识别仍然是人工智能技术最广泛的应用场景。
就已呈现的形态看,ChatGPT确实跟以往人们所认知的人工智能不一样。
与其他人工智能产品相比,ChatGPT的工作过程更接近我们的大脑:
在形成智能能力之前,会有大量原始、未经处理的数据通过输入端进入ChatGPT的数据库,这些数据库中的杂乱原始数据会在ChatGPT中进行融合,利用上下文,按照某种意义的组合方式进行结构化处理,形成类似于我们大脑中“信息”的数据处理结果,这些数据处理结果与处理前的原始数据,在ChatGPT的后端通过经验或按照特定主题进行理解和分析处理,形成了ChatGPT的“知识”,利用ChatGPT背后的人工智能技术和量子计算机进行进一步处理,使ChatGPT拥有了“智慧”。
经过从“数据—信息—知识—智慧”的处理过程,ChatGPT拥有了像人类一样根据知识、经验和洞察力的结合从而作出正确判断和决策的能力。
这种高度拟人化的逻辑思考能力,使ChatGPT从一众人工智能产品中脱颖而出。
与以往的技术相比,ChatGPT不仅通过数据库比对提高了对文字、图片等的识别效率,而且其自身所具备的基于大数据技术的自我学习和自我生成能力,无疑让ChatGPT更接近图灵测试所说的技术“奇点”,让人工智能距离具备“人”一样的自主意识更近了一步。
ChatGPT的出现及相应的产业化商业化落地,有望加速写作助手、对谈系统、智能客服、代码开发等领域的商业化进程,无疑会赋能造势、推动人工智能领域打开更广阔的应用空间。

图1-2 人工智能技术和量子计算机的超高计算能力让ChatGPT拥有了“智慧”,它能够像人类一样拥有根据知识、经验和洞察力的结合从而作出判断和决策的本领
图片来源:千图网
热潮涌起,风口已开。
ChatGPT一经出圈,全球互联网巨头纷纷在生成式人工智能方面发力。
谷歌旗下人工智能企业DeepMind发布了新的人工智能聊天机器人Sparrow;
Facebook(脸书)母公司Meta也推出了人工智能聊天机器人BlenderBot。
令人欣喜的是,在ChatGPT发布后不久,中国互联网巨头也都纷纷计划推出类似的应用。
比如,百度正式确认将发布类ChatGPT项目“文心一言”(ERNIE Bot);阿里巴巴达摩院正在研发类ChatGPT的聊天机器人,试图将人工智能大模型技术与钉钉生产力工具深度结合。
相信ChatGPT推出之后,互联网、人工智能等多个相关领域将进入一个群雄并起、风云迭代的新世纪,人工智能的新的春天将会到来。
(三)ChatGPT带来的争议
与市面上其他聊天机器人相比,ChatGPT功能更加多样,用户只需输入文字,就可免费使用完成各种事情(如数学计算、写信、生活问题解答等)。
例如,有网友要求ChatGPT用《坎特伯雷故事集》风格改写20世纪90年代热门歌曲Baby Got Back;
有网友晒出ChatGPT参加美国高考(SAT)考试之后的得分——1020(总分1600分);
有网友收获了ChatGPT用《老友记》几大主角口吻创作的剧本对白……同时,ChatGPT全面免费开放的特性,为用户的实感体验和在线讨论提供了土壤。
而用户的体验和应用,进一步增强了ChatGPT的代码理解和生成能力,在彰显技术实力的同时也拓宽了应用场景。
在ChatGPT爆火的同时,ChatGPT也引发了许多人的“生存危机”“失业焦虑”。
目前来看,受这个程序影响最大的可能是文字归纳、图像生成、代码辅助开发、智能客服等行业领域,而讨论最多的,就是随着这些科技应用的落地,很多职业可能会被机器人、被拥有这些程序的机器人替代。
例如,创新工厂创始人李开复列举了20项人工智能容易取代的工作,如电话营销员、客服、出纳员、收银员、快餐店员等,但凡属于固定程序开展工作的,不需要动脑创新的,都有可能被替代,甚至音乐、美术、文学等这些过去被认为人工智能无法取代的艺术创作行业都开始岌岌可危。
还有专家宣称,未来如媒体从业人员、法律工作者、会计师、市场分析师、程序员等一大批职业都将被ChatGPT所替代。
那么,ChatGPT真的有那么神奇吗?
目前看来,ChatGPT可以用更接近人类的思考方式参与用户的查询过程。
ChatGPT之所以颠覆了以往所有的聊天机器人的应用程序,其核心原因就是其人工智能水平真正达到了某个行业的专家水平。
例如,它在写诗、绘画、计算机编程、法律等方面的能力水平,基本上达到了高级专家的水平,这也是它让很多人感到震撼的原因。
然而,美国新闻可信度评估与研究机构在对ChatGPT进行测试后警告世人:在使用ChatGPT的过程中,需要更加谨慎。
在他们看来,该软件能在几秒钟内根据上下文和语境,提供看上去“令人信服”却毫无信源的内容。
换言之,ChatGPT能够在短时间内对用户所提出的内容进行看起来非常恰当的解答,但是用户无法确保其答案的准确性。
一言以蔽之,人类无法避免ChatGPT“一本正经”地胡说八道。
也就是说,ChatGPT的优点在于其回答非常自然流畅,而缺点就在于其对问题的解答更多时候是“看起来”正确。
而这种“看起来”正确的回答,在人类社会生活的很多领域是不能直接使用的,例如,在医疗健康、投资理财、市场行情等领域。
因此,在专家们看来,如果你本身是一位行业专家,具备对本行业知识的判断力,那么ChatGPT将是你的另一个得力助手;
如果你是在寻求一个你不了解领域的答案,对ChatGPT的回答要谨慎对待。
可见,ChatGPT背后的智能技术虽然非常高超,但是,ChatGPT要真正完全地取代人类,尚有一段很长的路要走。
二 ChatGPT的发展历程
近年来,人工智能技术在持续提高和飞速发展,并不断冲击着人类的传统认知。
随着人工智能技术的不断进步,ChatGPT作为一种先进的人工智能语言模型,受益于更大的模型尺寸、更先进的预训练方法、更快的计算资源和更多的语言处理任务,它的出现对人类而言无疑具有划时代的意义。
本部分将从聊天机器人的产生和发展讲起,梳理ChatGPT的技术演进路线,展望未来ChatGPT的发展趋势。
(一)聊天机器人的产生
最早的聊天机器人诞生于20世纪60年代,聊天机器人自诞生后,经历了从“文本对话机器人”到“语音对话机器人”再到“多模态虚拟人聊天机器人”的发展过程。
20世纪60年代后,随着互联网的普及以及信息检索技术的发展,很多早期聊天机器人诞生,其最初应用于在线客服领域,主要采用文本对话的形式,主要应用在多种互联网连接渠道,辅助或替代人工进行文本对话的在线客服。
随着人工智能技术的不断发展,文本对话机器人后,结合人工智能语音技术,语音机器人产品形式产生,其主要用于辅助替代真人接听和拨打电话。
多模态数字人则是继语音机器人之后的再一次产品形式升级。
而今配合虚拟现实等虚拟仿真技术的发展,融合计算机视觉和多模态模型等技术,在文字和语音基础上,加入虚拟人形态,聊天机器人的交互能力更加自然真实。
2016年是聊天机器人崛起的元年。微软发布了一款针对18岁到24岁青少年名为Tay的在线聊天机器人,除了人工智能技术,Tay的认知内容主要由包括即兴喜剧演员在内的作家精心创作而成,在此之后,全球掀起了一阵发展聊天机器人的风潮,自此之后,聊天机器人便成为最热门的科技话题之一。
当时,这个新兴的产品被认为是时代发展中的下一个大事件。
聊天机器人出现后,为了更好地为客户提供服务,曾一度被集成到如Skype、Slack等很多聊天软件平台中,甚至拥有预订披萨、订购苹果手机等网上购物的功能。
聊天机器人出现后被普遍看好,然而也有一部分专家开始担忧聊天机器人引发的市场威胁。
一位瑞银分析师就曾经提出过警告,由于聊天机器人广受欢迎并且被广泛下载使用,智能手机用户可以不需要苹果手机提供的应用商店,仅仅通过短信与在线服务互动即可完成订购商品,苹果手机的主导地位或许会受到聊天机器人的出现带来的“生存威胁”。
尽管当时各大通信软件都开放了聊天机器人API接口,而且在技术的发展下,自然语言理解的水平有了很大的提高,但聊天机器人还是未能顺利地发展下去,反而走起了下坡路。
由于Tay初始状态对世界一无所知,并不具备独立思考的能力,于是在短短不到24小时内便被“教导”成为一个极端的种族主义者。
在这种情况下,微软不得不将其紧急关停。
对此,微软副总裁彼得·李(Peter Lee)在一篇博文中表示:“我们对未提前看到这种可能性承担全部责任。”
Tay以后,聊天机器人App的热度已经有了大幅度减退。据当时美国市场统计,65%的用户每月聊天机器人App的下载量为0,用户下载量的锐减就意味着推动用户下载应用的成本越来越高,也就是相关App开发者的研发成本也开始递增。
虽然风头渐退,但Tay引发的聊天机器人研发热潮并未停止,微软以及其他社交媒体巨头都在Tay之后开始了聊天机器人领域的研发竞争。
2016年,在F8开发者大会上,Facebook宣布开放Messenger Platform,开放了Facebook的聊天机器人串接Messenger的API和后台功能。
而Facebook宣布开放API后,Messeger的易用性和互动性有了大大提升。
与此同时,这一举动也吸引了越来越多的用户开始集中到社交类应用中,Facebook、飞书信(Messenger)、照片墙(Instagram)、微信等社交类应用在全球的应用商店都广受欢迎。
社交应用的发展对聊天机器人的前进至关重要,就像是为聊天机器人的火热又添了一把柴。
聊天机器人产生和发展的过程与人工智能技术的前进有着密不可分的联系。
随着人工智能的流行,“聊天机器人+人工智能”也成为聊天机器人后续发展的一个重要趋势。
而后加上了大数据技术的加持,算力提升后,聊天机器人的发展似乎开始了“大融合”的发展趋势。
而随着技术的不断进步,很多人都普遍看好聊天机器人领域的发展,聊天机器人似乎将迎来更“人性化对话”的未来。
然而事情的发展似乎并不像人们想象的那么顺利,在Siri等聊天机器人风靡后,其发展似乎一度进入了瓶颈期。
到了2018年,聊天机器人的狂热已经骤减。由于自然语言理解技术似乎并没有如人们所预想的那样快速发展,聊天机器人领域的发展已经尽显疲态。
虽然微软和谷歌的自然语言处理模型构建都有了很大的突破,但这些模型的泛用性似乎都没有得到很好的验证。
中国的阿里客服小蜜、微软的小冰虽然显现出了很高的自然语言理解与处理能力,但市面上大部分聊天机器人对于人类语言的理解能力仍十分有限,大部分聊天机器人的自然语言的理解和处理都存在很大漏洞。技术发展进入了平台期,聊天机器人产品的推出也逐渐后劲不足。
2019年,Facebook宣布关闭其Messenger,其他公司也开始削减聊天机器人业务,包括时尚零售商埃韦兰斯,该公司宣布客户的通知信息将恢复成电子邮件的方式。
正如Tay的快速退场一样,在技术发展不尽如人意的时候,推出有趣的、足以吸引用户和媒体注意,同时又足够可靠的在线聊天机器人并不容易。
聊天机器人的发展逐渐由早期的兴奋爆发增长期,逐渐归于冷静。
而到了今天,每次谈及聊天机器人,大家的第一反应可能更多的是电子商务中常见的自动留言功能,比如,“评论获取相关优惠”等。
自聊天机器人出世后,人们心目中那种聪明伶俐、情感丰富,可以与人类对答如流的聊天机器人并未出现。
面对这样令人失望的现状,国外媒体曾评论道:“我不确定能不能说聊天机器人死了,因为我不知道它是否活过。”
在聊天机器人“拟人化”的实现中,机器学习是现阶段实现人工智能的主要手段,而其中深度学习是机器学习的分支,是基于建立和模拟人脑进行分析的特殊机器学习模式,在2012年进入研究的爆发期。
深度学习技术不断的发展,给了聊天机器人行业新的希望。
相对于传统机器学习以数据为经验来驱动计算机模拟人类的经验决策行为,深度学习通过模拟人类的神经元结构来达成数据的处理和结果产出,能处理更为复杂的各类数据并进行决策。
通过让计算机学习阅读大量文章,可以使聊天机器人理解前后文的语义,显然不用像过去一样,一字一句地教导计算机进行语言知识的学习。
目前我们最经常接触到的聊天机器人,如Siri、Cortana、小爱同学之类的,就是依托深度学习及自然语言处理技术的崛起后各种技术发展的结果,而ChatGPT更是建立在高度集成发展的先进人工智能基础之上的。
在前几年,聊天机器人还只能尽量让文本生成模型说人话,基本的语法合理性和语义合理性还很难满足,从目前ChatGPT的效果来看,语法和语义合理性已经不再是问题了,甚至还能展示出超强的知识储备、联想及逻辑计算能力。
这证明聊天机器人的能力正在向下一阶段进化。
聊天机器人实现了语法和语义合理性方面的突破后,可精准解决人工服务现存痛点,如设置24小时在线,不间断地进行客服应答及业务处理;
快速解决重复性问题,并根据业务流程,引导用户厘清复杂、模糊问题,给予用户直接清晰的问题回复;
对语音文本对话数据进行智能分析与质检,帮助企业深度挖掘数据价值,有着巨大的发展潜力。
据相关研究机构统计,聊天机器人行业2019年市场规模为14.0亿元,2020年市场规模为27.1亿元,预计2025年市场规模将达到98.5亿元。
从增长曲线来看,聊天机器人行业的市场规模在近几年会有较快增长,在达到一定体量后步入稳定增长。
ChatGPT带来热潮的同时,也为相关领域的产业发展带来了新的希望,聊天机器人、人工智能等领域未来将呈持续增长态势。
(二)ChatGPT的技术演进
2016年6月21日,OpenAI宣布了其主要业务发展目标。
当时,OpenAI创始人、研发主管伊利娅·苏特斯科娃(Ilya Sutskever)等联合发表博文称:“我们正致力于利用物理机器人(现有而非OpenAI开发)完成基本家务。”
其博文明确提及制造“通用”机器人和使用自然语言的聊天机器人将是一段时间内OpenAI研发的重点目标。
确定目标后,OpenAI一直矢志不渝地致力于自然语言处理的人工智能模型研究和聊天机器人的开发,而后因推出GPT系列自然语言处理模型而闻名。
从2018年起,OpenAI开始发布生成式预训练语言模型GPT(Generative Pre-trained Transformer),可用于生成文章、代码、机器翻译、问答等各类内容。
2019年2月发布的GPT-2参数量为15亿,同年3月OpenAI宣布从“非营利”性质过渡到“封顶营利”性质,利润上限为任何投资的100倍。
2019年7月22日,微软投资OpenAI 10亿美元,并获得了OpenAI技术的商业化授权,宣布双方将携手合作替Azure云端平台服务开发人工智能技术,从此OpenAI的一些技术开始出现在微软的产品和业务中。
2020年6月11日,OpenAI宣布了GPT-3语言模型,参数量达到了1750亿。
与此同时,OpenAI发布了OpenAI API,这是OpenAI第一个商业化产品,OpenAI正式开始了商业化运作。
2020年9月22日,微软获得使用GPT-3模型的独家授权,使之成为全球首个享用GPT-3能力的公司。
2023年3月14日,OpenAI正式发布了升级后的GPT-4。
与之前相比,GPT-4不仅展现了更加强大的语言理解能力,还能够处理图像内容,在考试中的得分甚至能超越90%的人类。
目前,ChatGPT的Plus订阅用户已经可以使用GPT-4。
“GPT-3或3.5像一个六年级学生,而GPT-4像一个聪明的十年级学生。”
有美国初创企业人士这样评价。

图1-3 2019年7月22日,微软宣布向非营利性人工智能研究公司OpenAI投资10亿美元研发通用人工智能(AGI),并建立独家计算合作伙伴关系,以构建新的Azure AI超级计算技术
图片来源:中新图片/陈玉宇
OpenAI推出的GPT模型是一种自然语言处理模型,使用Transformer(多层变换器)来预测下一个单词的概率分布,通过训练在大型文本语料库上学习到的语言模式来生成自然语言文本。
OpenAI推出的每一代GPT模型的参数量都呈爆炸式增长,从GPT-1到GPT-3每一代模型的训练数据量进化明显,随着数据量的提升,GPT系列模型的智能化水平越来越高,堪称“越大越好”。
从GPT-1到GPT-4,GPT系列模型的智能化程度不断提升,具体对比情况如表1-1所示。
表1-1 GPT家族主要模型相关数据对比

ChatGPT可以实现的功能包括问题解答、撰写文章、文本摘要、语言翻译和生成计算机代码等,一经推出便备受瞩目。
ChatGPT包含了更多主题的数据,能够处理更多小众主题。
ChatGPT嵌入了人类反馈强化学习以及人工监督微调,因而具备了理解上下文、连贯性等诸多先进特征,解锁了海量应用场景,ChatGPT的到来也是GPT-4正式推出之前的序章。

图1-4 2023年3月,OpenAI宣布推出GPT-4。
图为GPT-4宣传短片画面图片来源:OpenAI官网
(三)ChatGPT的未来发展
2023年可能是ChatGPT非常受关注的一年,也有可能是制约因素逐步被技术所迭代、后续逐渐克服发展局限的一年。
ChatGPT模型的出现对于这种文字模态的人工智能生成内容的应用也具有非常重要的意义。
根据目前对于人工智能发展的认识,当前很多业内的从业者对于ChatGPT还是保持一种观望的态度,主要还是在持续地考量模型回复的准确性。
对于ChatGPT的技术进化方向,已有很多相关研究机构及智库给出了展望:
一是在ChatGPT中引入搜索技术。
有人已经作出了几个搜索引擎插件来为ChatGPT补充输入数据。
而OpenAI自己也已研发了WebGPT,希望使用在线搜索结果作为答案来源,只是尚未与ChatGPT进行整合。
ChatGPT并不是要替代搜索引擎,而是要在其中集成搜索引擎。
二是将ChatGPT与知识图谱结合。
知识图谱本质上就是揭示这些实体之间关系的语义网络。
它由节点和边组成,节点对应的就是实体或属性,而边则对应实体之间的关系。
知识图谱此前作为搜索引擎的重要技术,其知识的构建往往是抽取式的,包含一系列知识冲突检测、消解过程,知识的每个构建环境都能溯源,而ChatGPT常常出现事实谬误的问题,利用知识图谱的技术和方法,可以增强ChatGPT的知识推理能力,并使知识可溯源,增强知识的可解释性,使ChatGPT的问题可以得到很大程度的缓解。
除此之外,ChatGPT还能提升知识获取的能力,因此这两项技术能够相互迭代、共同促进。
三是让ChatGPT与多模态技术结合。
OpenAI在多模态技术上的积累已经非常丰富,OpenAI开发的DALL·E和CLIP都已经是非常成熟的多模态模型,而其语音识别模型Whisper的能力也已发布并已达到人类水准。
已经推出的GPT-4模型就已包含图文视频等多模态。
四是还应让ChatGPT与具身智能结合。
具身智能又称人形人工智能,通常具备人类的外形,并能通过传感器和人工智能算法模拟人类的运动、语言、表情和思维等能力,在应用方面,可以用来提供客服、保姆等便捷服务。
关键是在技术上,具身智能还可以与环境交互,真正让模型在现实中学习,投入现实世界,这是人工智能与人类“目标对齐”的重要技术路径。
OpenAI在2022年6月推出的VPT模型是这个方向的范例之一。
五是还需在ChatGPT中引入负责任人工智能技术。
ChatGPT在拒绝回答自己不懂或其他敏感话题等方面已经进行了大量训练。
结合prompt加密、联邦学习等技术,可以进一步保护用户隐私,扩展业务范围。
目前ChatGPT的商业应用场景是非常广泛的,只要能够有效地克服以上提到的制约因素,它在众多行业都可能会产生变革性的影响,特别是在客户服务、教育、家庭陪护等领域可能会率先落地。
未来,ChatGPT可能会跟这种图像图形的人工智能生成内容的模型相结合,可以使从文字表述到图片生成的人工智能创作辅助工具进行更多应用。
或者是能够接受其使用成本的一些领域可能会率先使用,ChatGPT可能会构建一个新的技术生态,但目前所学习的还是互联网上公开的知识,可能还不能解决具体行业、企业一些个性化的问题,所以需要企业在相关的纵深行业、垂直细分行业进行二次训练,这可能产生很高的二次训练成本。
因此,可能需要很多优秀的公司不断地优化,能够推出一些更贴近客户需求和痛点的解决方案的产品。
例如,作为这种虚拟人的公司,可以针对某个行业中的企业单独形成一些垂直化的解决方案,利用ChatGPT技术进行专业私有化知识的迭代,使它具备解决实际问题的能力,这可能是ChatGPT后面的一个应用方向。
在结合以上技术后,ChatGPT的应用场景可以得到更大扩展。
三 ChatGPT的竞争力分析
为应对ChatGPT的挑战,全球科技巨头纷纷下场角力,谷歌、微软和亚马逊等都在力推自己的人工智能平台,一时间智能领域“狼烟四起”。
面对竞争激烈的人工智能角斗场,ChatGPT胜算几何?
本部分我们将从ChatGPT的竞争对手、核心优势、功能局限性几个方面对ChatGPT的竞争力进行分析。
(一)ChatGPT的重要竞争对手
ChatGPT相关产业有望得到持续加速发展。
和大多数的科技成果一样,能够吸引最多开发者和现实世界应用程序的人工智能平台通常会成为赢家。
而ChatGPT的竞争对手首推最强竞品——Claude。
说到Claude,就不得不提到它的开发团队——Anthropic。因不满老东家成为微软附庸,11名OpenAI前员工怒而出走,成立了名为Anthropic的新公司。
在强大的团队和技术支撑下,创立之初,Anthropic就得到了不少硅谷科技大佬的青睐,并获得了1.24亿美元的资金支持。
投资者阵容主要是来自硅谷的明星企业家,包括Facebook联合创始人达斯汀·莫斯科维茨(Dustin Moskovitz)、学术和信息科技首席执行官詹姆斯·麦克莱夫(James T.McClave)、Skype联合创始人贾恩·塔林(Jaan Tallinn)和谷歌前高管埃里克·施密特(Eric Schmidt)等。
在谷歌投资之前,Anthropic筹集了超过7亿美元的资金。
“硅谷立场”网站报道称,谷歌之所以选择Anthropic,是因为它的主要研究人员曾是OpenAI的成员。
谷歌和Anthropic合作是追赶微软在快速增长的人工智能市场中的领先地位的策略之一。
相关报道显示,包括达里奥·阿莫迪(Dario Amodei)在内的Anthropic团队中的大部分成员,都曾参与过GPT-2、GPT-3模型的研发工作。
2022年12月,Anthropic团队在arXiv上发布了一篇论文,直接对标OpenAI的GPT-3模型。这家硅谷新星公司目前估值50亿美元,如今带着ChatGPT最强竞品——Claude聊天机器人杀回战场。
2023年1月,Anthropic已经公布正在测试中的新型聊天机器人Claude,目的就是与ChatGPT争锋。
拿到内部试用权的网友在简单对比后惊叹,看起来Claude的效果要比ChatGPT好得多。
作为一个人工智能对话助手,Claude自称基于前沿自然语言处理和人工智能安全技术打造,使目标成为一个安全的、接近人类价值观且合乎道德规范的人工智能系统。
达里奥·阿莫迪表示,Claude恪守人工智能的道德准则,“我们最初把Claude作为人工智能安全性的试验平台,用于探究如何让人工智能系统变得有用、诚实和无害”。
Claude在工作原理上和ChatGPT十分相似,分为监督学习和强化学习两个阶段,Anthropic将这项技术称为原发人工智能,主要是靠强化学习来训练偏好模型,并进行后续微调。
在监督学习阶段,Claude首先会对初始模型进行取样,进而根据模型结果继续产生自我修订,并根据修订效果对模型进行微调。
在强化学习阶段,Claude会在监督学习结果的基础上继续对微调模型进行取样,基于Anthropic打造人工智能偏好数据集训练的偏好模型,作为奖励信号进行强化学习训练。
Claude采用的原发人工智能方法与ChatGPT采用的人类反馈强化学习(Reinforcement Learning with Human Feedback, RLHF)最大的区别在于,Claude是基于偏好模型而非人工反馈来进行训练的,这种方法又被称为人工智能反馈强化学习(Reinforcement Learning from AI Feedback, RLAIF)。
并且根据Anthropic团队的说法,Claude可以回忆8000个标记(Token)里的信息,这比OpenAI现公开的任何一个模型都多。
与此同时,谷歌推出了Bard人工服务,同样被视为ChatGPT的强劲对手。
2021年5月,谷歌推出了大语言模型LaMDA。2022年初,其官方论文介绍,LaMDA模型使用多达137B个参数训练,展示了接近人类水平的对话质量。
2023年2月7日凌晨,谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)宣布,推出一款名为Bard的实验性对话人工智能服务,提供类似ChatGPT、由LaMDA模型支持的对话式人工智能服务。
从官方公布的图片来看,Bard有着和ChatGPT类似的对话框,但和ChatGPT不同的是,Bard可以简化复杂的主题,比如通过简单的描述向9岁的孩子解释宇宙起源或人工智能算法。
此外,由于Bard虽然是基于LaMDA模型运行,但由于当前用的是需要的计算能力更少、更轻量的版本,所以能够扩展到更多的用户,获得更多的反馈。
Bard先向部分开发者开放,未来还将和更多公众见面。
谷歌首席执行官亲自发布公开信,Bard被列为“code red”优先级项目,由此可见,谷歌作为行业老大终于和ChatGPT正面交锋了。
除谷歌外,亚马逊也加入战场。亚马逊早前推出的AWS Lex是一项包含自然语言理解功能的服务,与ChatGPT十分相似。
亚马逊Lex是一种完全托管式人工智能服务,具有高级自然语言模型,可用于在应用程序中设计、构建、测试和部署对话界面。
目前,Lex支持包括虚拟呼叫中心代理、信息检索和企业生产力应用程序等各种各样的用例,它基于亚马逊的核心技术Alexa之上,开发人员创建的技能本质上是应用程序组件,之后可以将这些技能组合在一起,以构建更复杂的聊天机器人界面。
亚马逊Lex建立在和亚马逊Alexa相同的机器学习技术基础上,利用亚马逊Lex拥有的算法功能,可以通过集成开发应用程序建立对话及处理语音和文本。
对于亚马逊云计算服务AWS来说,Lex可以面向广大的客户基群开放,可进一步扩大系统规模。
此外,利用亚马逊云计算服务AWS提供的人工智能式托管服务,更多的企业可能会试用Lex和构建应用程序,会由更多的软件开发企业利用亚马逊Lex构建和部署语音识别和自然语言应用程序,开发和构建具规模的系统。
亚马逊云计算服务AWS如果利用Lex取得成功,那么未来可能会有更多人工智能应用引擎中置入Lex。
开发人员可利用亚马逊Lex构建对话应用程序,对语音或文本输入进行解析,而这些对话应用程序可以部署在智能移动设备或Facebook Messenger和Slack等聊天机器人中。
对于消费者来说,Lex也可以用于开发更多购物网站,例如,利用Lex可开发有集成电子商务应用程序的门户网站。
由此可见,对于个人和企业,亚马逊Lex都有广阔的用户市场。亚马逊为iOS和Android设备均提供Lex软件开发套件以及Java、JavaScript、Python、.NET、Ruby on Rails、PHP、Go和C++等网络应用程序。
亚马逊云计算服务AWS于2023年2月21日发布了与人工智能创业公司Hugging Face的合作,Hugging Face将为ChatGPT提供开放源码的竞争对手,并为Bloom搭建一个开放源码的语言模型,这是各大技术公司联手打造的新一步。
Hugging Face首席执行官克莱门特·德兰格(Clement Delangue)表示,新一代Bloom是一款开放源码的人工智能,其规模和功能都能与OpenAI开发的ChatGPT模式相抗衡。
与此同时,国内互联网大佬也在ChatGPT之后纷纷下场。
国内很多科技大厂纷纷透露与ChatGPT竞争的布局,原美团联合创始人王慧文宣布个人出资,打造中国版OpenAl,百度已于3月16日正式推出类ChatGPT应用“文心一言”,京东云旗下言犀人工智能应用平台推出产业版ChatGPT——ChatJD,阿里巴巴达摩院正在研发类ChatGPT的对话机器人,腾讯正有序推进相关方向的专项研究,小米在ChatGPT领域有丰富落地场景,未来将加大相关领域人力和资源投入,科大讯飞的类ChatGPT技术将于2023年5月落地,率先用于人工智能学习机。

图1-5 2023年3月16日,百度举办发布会,正式发布旗下预训练生成式大语言模型产品“文心一言”
图片来源:“文心一言”官网
总的来说,ChatGPT的诞生让与之相关的应用开发也随之日渐成熟,为相关领域各行业的创新带来了巨大的想象空间。
我国未来是否会诞生下一个如同ChatGPT般现象级应用产品,非常值得期待。
目前跟ChatGPT相似的人工智能模型开发和聊天机器人功能实现都还处于早期技术探索阶段,多数企业还难以确定哪些工具和实现方式是其开发和运营的最佳方式。
究竟什么样的人工智能机器人会在未来建立,目前还不确定。
但我们现在处于一个长期的实验阶段,不少技术和产品都会在发展中被逐渐淘汰,渐渐地我们将会看到自己想要的那种人工智能产品最终“占领高地”。
(二)ChatGPT的核心优势
ChatGPT在对话过程中会记忆先前使用者的对话讯息,用于后续对话中完成上下文理解,这就使ChatGPT和大家在生活中用到的各类“人工智障”式智能音箱不同,它可以回答某些假设性的问题。
同时,ChatGPT可实现连续对话,用户使用ChatGPT的对话交互体验感可得到极大地提升。
ChatGPT性能和用户体验感的大大提高,主要在于其引入了新技术——基于人类反馈的强化学习(RLHF)。
自人工智能诞生之日起,人们就致力于研究如何让人工智能模型的产出和人类的常识、认知、需求、价值观保持一致,人类反馈强化学习技术的最大进步就在于解决了人工智能生成模型的这一核心问题。
利用人类反馈强化学习模型,ChatGPT可以实现AIGC技术进展,促进利用人工智能进行内容创作、提升内容生产的效率与丰富度。
ChatGPT具有低成本,不需要大量的运行空间和计算机资源的优势,可以让用户获得更多更有效的服务,实现快速聊天,节省客户的时间,提高服务效率。
因此,目前看来,与前期其他人工智能机器人相比,ChatGPT突出的优点在于,它可以主动承认自身错误。若用户指出其错误,模型会听取意见并优化答案;可以质疑不正确的问题。
例如,被询问“哥伦布2015年来到美国的情景”的问题时,机器人会说明哥伦布不属于这一时代并调整输出结果;
可以承认自身的无知,承认对专业技术的不了解;
支持连续多轮对话;
具有一定预测模型,可以实现准确的自动聊天服务推荐,根据用户的实际环境、聊天技巧和需求来完成精准的推荐;
可以自动聊天,也可以辅助实时服务,根据用户的不同需求进行智能的“服务”;
可以与现有的聊天技术集成,具有很高的适应性,不需要其他软件或者插件;可以很快地将ChatGPT集成到现有软件中;
可以模拟用户,实现与用户进行交互,为用户提供友好的服务;
还可以被动地吸取、理解用户的信息,实现自我学习,提高服务效率
;可以对系统进行统一的监控,确保系统的高效运行,提高服务质量。
(三)ChatGPT目前有何局限
只要用户输入问题,ChatGPT就能给予回答,这是否意味着不用再拿关键词去问谷歌或百度这类搜索引擎,我们就能从ChatGPT那里立即获得想要的答案呢?
实际上,尽管ChatGPT表现出出色的上下文对话能力甚至编程能力,可以说是目前为止人工智能中具有比较先进水平的产品,完成了大众对人机聊天机器人从“人工智障”到“有趣”的印象改观,但是我们也要看到,ChatGPT技术仍然有一些局限性,并没有大家想象的那么先进,它的进步空间还是非常大的。
由于ChatGPT的推出非常急切,因此它自身存在很多的不足。ChatGPT在OpenAI的研发团队警告过用户,该款模型存在一些问题,而经过发布后数月之内全球网民的反复使用,用户们也确实发现了ChatGPT存在的先天不足。
首先,由于ChatGPT是一个大型语言模型,它只能基于背后的大型语言模型的训练数据集来回答用户提出的问题,而他的训练数据集并不具备网络搜索功能,其最近数据更新的时间截止于2021年,对于2021年后至今的任何事件,ChatGPT无法给出准确的答案。
例如,它不知道2022年世界杯的情况,也不会像苹果的Siri那样回答今天天气如何、或帮你搜索信息。
此外,ChatGPT回答的准确度是不可信任的,它在很多领域可以“创造答案”,但当用户寻求正确答案时,ChatGPT也有可能给出有误导的回答。
例如,当用户想利用ChatGPT获取专业的准确信息(如写代码,查药方等)时,ChatGPT因其训练数据库的限制,再加上ChatGPT优秀的逻辑引申能力,语言组织相对其他的“人工智障”对话机器人更有条理,很容易开始“一本正经地胡说八道”,让人无法分清ChatGPT的回答是真实的还是虚构的。
例如,让ChatGPT做一道小学应用题,尽管它可以写出一长串计算过程,但最后答案是错误的。因为ChatGPT并非100%稳妥可靠的,所以用户使用ChatGPT时需要具有鉴别回答质量与准确性的专业能力。
由于准确性问题,代码交流网站StackOverflow已经禁止用户在其网站上引用ChatGPT生成的代码,也就意味着还是需要大量的测试。
ChatGPT“一本正经地胡说八道”的问题,主要原因在于其模型的训练方法存在漏洞:
因为问答场景是开放性的,因此ChatGPT问答更重要的是每一步回答的选择,而训练好的模型在回答问题时,ChatGPT采用的是答案打分机制,对于各种可能的答案进行打分排序,判断无理还是有理的结果都可以是灰色的,这就造成了模型构造的错误结果被混入。
例如,(排名更靠前的)A句比(排名靠后的)B句好不等于A句里没有犯常识或事实错误。这需要人工智能进一步细分。
当然,这个问题并不是没有解决的办法,只是要解决这个问题需要做很多基础性的工作,例如,进一步丰富训练数据库、优化训练模型等。
其次,ChatGPT回答的准确性也会受到提问者的影响。
由于截至目前ChatGPT的训练数据量比较少,无法处理复杂冗长或者特别专业的语言结构,难以应对复杂的对话场景,尤其是对于来自金融、自然科学或医学等非常专业领域的问题,如果没有进行足够的语料“喂食”,ChatGPT可能无法生成适当的回答。
最后,与其他人工智能产品一样,ChatGPT是建立在庞大的训练数据库基础上的,在应用时仍然需要大算力的服务器支持。
ChatGPT的训练时间也比较长,需要一定的大量计算资源,在使用时需要耗费非常大量的算力(芯片)来支持其训练和部署。
因此,ChatGPT存在明显的运行实时性难题,在应对一些比较复杂的对话场景时就会宕机。
不仅运行实时性存在问题,而且ChatGPT的运行成本也是相当惊人的。
由于目前使用时需要惊人数量的计算资源才能运行和训练,ChatGPT运行需耗费的成本是普通用户无法承受的,数十亿个参数的模型面向真实搜索引擎的数以亿计的用户请求,如采取目前通行的免费策略,任何企业都难以承受这一成本。
因此,ChatGPT未来的发展完善还需要解决算力、语料库等多方面的问题,使用更高性价比的算力平台,为普通个人用户和企业用户提供更轻量型的模型。

