ChatGPT原理是什么?
2022-12-09 709
详情
报告
跨境服务
文章
ChatGPT在效果强大的GPT-3.5大规模语言模型(LLM,Large Language Model)基础上,引入“人工标注数据+强化学习”(RLHF,Reinforcement Learning from Human Feedback ,这里的人工反馈其实就是人工标注数据)。
主要分为以下三个阶段:
01.冷启动阶段的监督策略模型
GPT3.5本身虽然很强,但是它难以理解人类不同类型指令中蕴含的意图,也很难判断生成的内容是否是高质量。因此,会先从测试用户提交的prompt(指令或者问题)中随机抽取一批,让专业的标注人员给出指定prompt的高质量答案,然后用这些人工标注好的数据来Fine-tune即微调GPT-3.5模型。
在这个过程中,GPT-3.5初步具备了理解人类prompt中所包含的意图,且可以根据这个意图给出相对高质量回答的能力。
02.训练回报模型
第二阶段主要是通过人工标注训练数据,来训练回报模型。
具体来说,使用第一阶段Fine-tune后的冷启动模型,对于每个prompt生成多个不同的回答。标注人员根据不同的标准(比如相关性、富含信息性、有害信息等)综合考虑将答案根据质量由高到低进行排序,以此作为训练数据,通过pair-wise learning to rank模式来训练回报模型。对于学好的RM模型来说,输入<prompt,answer>,输出结果的质量得分,得分越高说明产生的回答质量越高。
03.强化学习来增强预训练模型
本阶段不需要人工标注数据,而是利用上一阶段学好的RM模型的打分结果来更新预训练模型参数。目的是训练LLM产生高分回答,也是产生符合RM标准的高质量回答。
第二阶段和第三阶段能够相互促进。第二阶段通过人工标注数据来增强RM模型的能力,第三阶段经过增强的RM模型对新prompt产生的回答打分会更准确。而且利用强化学习鼓励LLM模型学习新的高质量内容,起到了利用伪标签扩充高质量训练数据的作用,LLM模型能够得到进一步增强。这是为什么ChatGPT不断升级可以持续增强的原因。
参考来源:https://m.thepaper.cn/quickApp_jump.jsp?contid=21058604
关联词条
活动
服务
百科
问答
文章
社群
跨境企业

