大数跨境
0
0

OpenAI最新研究:减轻ChatGPT幻觉、更好地对齐,要靠一步一步“过程监督”

OpenAI最新研究:减轻ChatGPT幻觉、更好地对齐,要靠一步一步“过程监督” AMiner AI
2023-06-01
0
导读:奖励模型指错,解题模型达到新高度。

转载自公众号丨学术头条

https://mp.weixin.qq.com/s/0uHuvzFj04ErFI-VkeEDOQ


近年来,大型语言模型在进行复杂、多步推理方面取得了很多进展。然而,即使是当前最先进的模型仍然会产生逻辑错误,这通常被称为幻觉(hallucinations),而减少幻觉是构建对齐的通用人工智能(AGI)的关键一步。

6 月 1 日,OpenAI 在一项最新研究中提出了一种减轻 ChatGPT 幻觉、实现更好对齐的新方法——通过“过程监督”来提高 ChatGPT 等 AI 大模型的数学推理能力。

更详细一点,“过程监督”通过奖励每个正确的推理步骤,而不仅仅是奖励正确的最终答案(即“结果监督”),在解决数学问题方面达到了最先进水平。

据介绍,除了得到高于结果监督的性能表现外,过程监督或许也有助于解决对齐难题(它直接训练模型产生一个被人类认可的思维链)。

相对于结果监督,过程监督在对齐方面存在几个优势。

例如,过程监督直接奖励按照对齐的思维链进行推理的模型,因为每个步骤都接受了精确的监督。

另外,过程监督更有可能产生可解释的推理,因为它鼓励模型遵循经过人类批准的过程。相比之下,结果监督可能会奖励一个不对齐的过程,并且一般更难审查。

具体到实际问题,OpenAI 的研究人员使用 MATH 测试集中的问题来评估过程监督和结果监督奖励模型。对于每个问题,他们生成了多个解决方案,然后选择每个奖励模型排名最高的解决方案。图中显示了所选解决方案达到正确最终答案的百分比,作为所考虑的解决方案数量的函数。

结果表明,过程监督的奖励模型不仅在整体上表现更好,而且随着考虑每个问题的解决方案数量增加,性能优势也在扩大。这表明过程监督的奖励模型更加可靠。

目前,OpenAI 的研究人员尚不清楚这些结果能否应用在数学领域之外,但他们认为,未来探索过程监督在其他领域中的影响的研究将至关重要。

论文链接:https://www.aminer.cn/pub/64781108b650407c48cfd9ba/


点击“阅读原文”,跳转至论文详情页!

【声明】内容源于网络
0
0
AMiner AI
AI帮你理解科学
内容 419
粉丝 0
AMiner AI AI帮你理解科学
总阅读207
粉丝0
内容419