一、ChatGPT 简介:
2022 年 11 月 30 日,OpenAI 推出全新的对话式通用人工智能工具—ChatGPT。ChatGPT 表现出了非常惊艳的语言理解、生成、知识推理能力,它可以很好地理解用户意图,做到有效的多轮沟通,并且回答内容完整、重点清晰、有概括、有逻辑、有条理。ChatGPT 上线后,5 天活跃用户数高达100万,2个月活跃用户数已达 1个亿,成为历史上增长最快的消费者应用程序。除了被广大用户追捧外,ChatGPT 还受到了各国政府、企业界、学术界的广泛关注,使人们看到了解决自然语言处理这一认知智能核心问题的一条可能的路径,并被认为向通用人工智能迈出了坚实的一步,将对搜索引擎构成巨大的挑战,甚至将取代很多人的工作,更将颠覆很多领域和行业。
ChatGPT 到底解决了什么本质科学问题,才能变得如此强大并受到广泛的关注呢?我们认为,ChatGPT 是继数据库和搜索引擎之后的全新一代的 “知识表示和调用方式”。
知识在计算机内的表示是人工智能的核心问题。如图所示,早期,知识以结构化的方式存储在数据库中,人类需要掌握机器语言(如 SQL),才能调用这些知识;后来,随着互联网的诞生,更多文本、图片、视频等非结构化知识存储在互联网中,人类通过关键词的方式调用搜索引擎获取知识;现在,知识以参数的形式存储在大模型中(从 2018 年开始),ChatGPT主 要解决了用自然语言直接调用这些知识的问题,这也是人类获取知识最自然的方式。
二、ChatGPT 相关技术:
OpenAI 在 2018 年 6 月发布的 GPT 包含 1.2 亿参数,在 2019 年 2 月发布的 GPT-2 包含 15 亿参数,在 2020 年 5 月发布的 GPT-3 包含 1750 亿参数。与相应参数量一同增长的还有公司逐年积淀下来的恐怖的数据量。可以说大规模的参数与海量的训练数据为 GPT 系列模型赋能,使其可以存储海量的知识、理解人类的自然语言并且有着良好的表达能力。
除了参数上的增长变化之外,GPT 模型家族的发展从 GPT-3 开始分成了两个技术路径并行发展,一个路径是以 Codex 为代表的代码预训练技术,另一个路径是以 InstructGPT 为代表的文本指令(Instruction)预训练技术。但这两个技术路径不是始终并行发展的,而是到了一定阶段后(具体时间不详)进入了融合式预训练的过程,并通过指令学(Instruction Tuning)、有监督精调(Supervised Fine-tuning)以及基于人类反馈的强化学习(Reinforcement Learning with Human Feedback,RLHF)等技术实现了以自然语言对话为接口的 ChatGPT 模型。RLHF 这一概念最早是在2008年 TAMER:Training an Agent Manually via Evaluative Reinforcement一文中被提及的。在传统的强化学习框架下代理 (Agent) 提供动作给环境,环境输出奖励和状态给代理,而在TAMER 框架下,引入人类标注人员作为系统的额外奖励。该文章中指出引入人类进行评价的主要目的是加快模型收敛速度,降低训练成本,优化收敛方向。具体实现上,人类标注人员扮演用户和代理进行对话,产生对话样本并对回复进行排名打分,将更好的结果反馈给模型,让模型从两种反馈模式
——人类评价奖励和环境奖励中学习策略,对模型进行持续迭代式微调。这一框架的提出成为后续基于 RLHF 相关工作的理论基础。
三、ChatGPT 优势与劣势:
ChatGPT 优势:
1. 相较于普通聊天机器人:ChatGPT 的发布形式是一款聊天机器人,类似于市场上其他聊天机器人(微软小冰、百度度秘等),也是直接对其下指令即可与人类自然交互,简单直接。但相较之下,ChatGPT 的回答更准确,答案更流畅,能进行更细致的推理,能完成更多的任务。
2.相较于其它大规模语言模型:相较于其它的大规模语言模型,ChatGPT使用了更多的多轮对话数据进行指令微调,这使其拥有了建模对话历史的能力,能持续和用户交互。同时因为现实世界语言数据的偏见性,大规模语言模型基于这些数据预训练可能会生成有害的回复。ChatGPT 在指令微调阶段通过基于人类反馈的强化学习调整模型的输出偏好,使其能输出更符合人类预期的结果(即能进行翔实的回应、公平的回应、拒绝不当问题、拒绝知识范围外的问题),一定程度上缓解了安全性和偏见问题,使其更加耐用;同时其能利用真实的用户反馈不断进行 AI 正循环,持续增强自身和人类的这种对齐能力,输出更安全的回复。
ChatGPT 劣势:
1.大规模语言模型自身的局限:身为大规模语言模型,ChatGPT 难免有
着 LLM 的通用局限,具体表现在以下几个方面:
1.1可信性无法保证:ChatGPT 的回复可能是在一本正经地胡说八道,语句通畅貌似合理,但其实完全大相径庭,目前模型还不能提供合理的证据进行可信性的验证;
1.2时效性差:ChatGPT 无法实时地融入新知识,其知识范围局限于基础大规模语言模型使用的预训练数据时间之前,可回答的知识范围有明显的边界;
1.3成本高昂:ChatGPT 基础大模型训练成本高、部署困难、每次调用花费不菲、还可能有延迟问题,对工程能力有很高的要求;
1.4在特定的专业领域上表现欠佳:大规模语言模型的训练数据是通用数据,没有领域专业数据,比如针对特定领域的专业术语翻译做的并不好;
1.5语言模型每次的生成结果是 beam search 或者采样的产物,每次都会有细微的不同。同样地,ChatGPT 对输入敏感,对于某个指令可能回答不正确,但稍微替换几个词表达同样的意思重新提问,又可以回答正确,目前还不够稳定。
2.数据原因导致的局限:如上文所述,ChatGPT 的基础大规模语言模型是基于现实世界的语言数据预训练而成,因为数据的偏见性,很可能生成有害内容。虽然 ChatGPT 已采用 RLHF 的方式大大缓解了这一问题,然而通过一些诱导,有害内容仍有可能出现。此外,ChatGPT 为 OpenAI 部署,用户数据都为 OpenAI 所掌握,长期大规模使用可能存在一定的数据泄漏风险。
四、ChatGPT 的应用前景:
1.在人工智能行业的应用前景及影响ChatGPT 的发布及其取得的巨大成功对人工智能行业形成了强烈的冲击,人们发现之前许多悬而未解的问题在 ChatGPT 身上迎刃而解(包括事
实型问答、文本摘要事实一致性、篇章级机器翻译的性别问题等),ChatGPT引起了巨大的恐慌。然而从另一个角度看,我们也可以把 ChatGPT 当成是一个工具来帮助我们的开发、优化我们的模型、丰富我们的应用场景,比如:
1.1 代码开发:利用 ChatGPT 辅助开发代码,提高开发效率,包括代码补全、自然语言指令生成代码、代码翻译、bug 修复等;
1.2 ChatGPT 和具体任务相结合:ChatGPT 的生成结果在许多任务上相比微调小模型都有很明显的可取之处(比如文本摘要的事实一致性,篇章级机器翻译的性别问题),在微调小模型的基础上结合这些ChatGPT 的长处,可能可以在避免训练部署下显著提升小模型的效果;
1.3 同时基于 ChatGPT 指令微调激发的零样本能力,对于只有少数标注或者没有标注数据的任务以及需要分布外泛化的任务,我们既可以直接应用 ChatGPT,也可以把 ChatGPT 当作冷启动收集相关语料的工具,丰富我们的应用场景。
2 在其他行业的应用前景及影响:
2.1 搜索引擎:自 ChatGPT 发布以来,各大科技巨头都投入了极大的关注度,最著名的新闻莫过于谷歌担心 ChatGPT 会打破搜索引擎的使用方式和市场格局而拉响的红色警报。为此各大科技巨头纷纷行动起来,谷歌开始内测自己的类 ChatGPT 产品 Bard,百度三月份将面向公众开放文心一言,微软更是宣布 ChatGPT 为必应提供技术支持,推出新必应。ChatGPT 和搜索引擎的结合似乎已经不可避免,也许不会马上取代搜索引擎,但基于搜索引擎为 ChatGPT 提供生成结果证据展示以及利用检索的新知识扩展 ChatGPT 的回答边界已经是可以预见并正在进行的结合方向。
2.2 泛娱乐行业:ChatGPT 对于文娱行业则更多带来的是机遇。无论是基于 ChatGPT 创建更智能的游戏虚拟人和玩家交流提升体验,还是利用虚拟数字人进行虚拟主播直播互动,ChatGPT 都为类似的数字人提供了更智能的“大脑”,使行业充满想象空间。除此之外,在心理健康抚慰、闲聊家庭陪护等方面,类似的数字人也大有拳脚可展。
2.3 自媒体行业:同样大大受益的还有自媒体行业。美国的新闻聚合网站BuzzFeed 宣布和 OpenAI 合作,未来将使用 ChatGPT 帮助创作内容。ChatGPT 的出现将使得内容创作变得更加容易,无论是旅游、餐饮、住宿、情感,相关博主的内容产出效率将得到极大的提升,有更多的精力润色相关内容,期待更多的高质量文章的产生。
2.4 教育行业:ChatGPT 在教育行业可能是彻头彻尾的“大魔王”:调查显示 89% 的学生利用 ChatGPT 完成家庭作业,世界宗教课全班第一的论文竟然是用 ChatGPT 所写。这迫使多所学校全面禁用 ChatGPT,无论是在作业、考试或者论文当中,一经发现即认定为作弊。然而从另一方面来看,这可能也会促使针对人工智能相关法律法规的完善,加速 AI 社会化的发展。
2.5 其他专业领域:针对其它专业领域,ChatGPT 的具体影响不大。因为限于 ChatGPT 训练数据的限制,ChatGPT 无法对专业领域的专业知识进行细致的分析,生成的回答专业度不足且可信性难以保证,至多只能作为参考,很难实现替代。比如因为 ChatGPT 未获取 IDC、
Gartner 等机构的数据使用授权,其关于半导体产业的市场分析中很少涉及量化的数据信息。
此外,ChatGPT 可以帮助个人使用者在日常工作中写邮件、演讲稿、文案和报告,提高其工作效率。同时基于微软计划将 ChatGPT 整合进 Word、PowerPoint 等办公软件,个人使用者也可以从中受益,提高办公效率。
五、ChatGPT 相关算法:
基于Transformer 的预训练语言模型ChatGPT 强大的基础模型采用 Transformer 架构,Transformer是一种基于自注意力机制的深度神经网络模型,可以高效并行地处理序列数据。
原始的 Transformer 模型包含两个关键组件:编码器和解码器。编码器用于将输入序列映射到一组中间表示,解码器则将中间表示转换为目标序列。编码器和解码器都由多层的注意力模块和前馈神经网络模块组成。其中自注意力模块可以学习序列中不同位置之间的依赖关系,即在处理每个位置的信息时,模型会考虑序列中其他所有位置上的信息,这种机制使得 Transformer模型能够有效地处理长距离依赖关系。在原始 Transformer 模型基础上,相继衍生出了三类预训练语言模型:编码预训练语言模型、解码预训练语言模型和编解码预训练语言模型。
思维链(Chain of Thought,COT):
基于人类反馈的强化学习(Reinforcement Learning with Human Feedback,RLHF)
奖励模型训练 该阶段旨在获取拟合人类偏好的奖励模型。奖励模型以提示和回复作为输入,计算标量奖励值作为输出。奖励模型的训练过程通过拟合人类对于不同回复的倾向性实现。具体而言,首先基于在人类撰写数据上精调的模型,针对同一提示采样多条不同回复。然后,将回复两两组合构成一条奖励模型训练样本,由人类给出倾向性标签。最终,奖励模型通过每条样本中两个回复的奖励值之差计算倾向性概率拟合人类标签,进而完成奖励模型的训练。
生成策略优化 给定习得的奖励模型,ChatGPT/InstructGPT 的参数将被视为一种策略,在强化学习的框架下进行训练。首先,当前策略根据输入的查询采样回复。然后,奖励模型针对回复的质量计算奖励,反馈回当前策略用以更新。值得注意的是,为防止上述过程的过度优化,损失函数同时引入了词级别的 KL 惩罚项。此外,为了避免在公开 NLP 数据集上的性能退化,策略更新过程兼顾了预训练损失。
三大模型测评结果综合对比:

