导读
Jan Leike
OpenAI 超级对齐团队负责人,研究方向为强化学习,大语言模型的对齐engineering,通用人工智能等。2016 年加入谷歌 DeepMind 团队从事人类反馈强化学习(RLHF)相关研究,现领导 OpenAI 对齐团队,旨在设计高性能、可扩展、通用的、符合人类意图的机器学习算法,使用人类反馈训练人工智能,训练人工智能系统协助人类评估,训练人工智能系统进行对齐研究。
什么是可扩展监督
利用随机对照实验衡量可扩展监督的效果
实验结果
如何信任模型编写的代码?
下一个问题是,我们如何相信模型编写的代码?
众所周知,GPT-4 在编写代码方面表现不错,至少如果它是相对简单的代码,或者它使用了一堆您可能不熟悉但在互联网上非常流行的库。因此,它对于此类任务实际上非常有用。未来的模型在代码编写方面可能会更加出色,人们会想用模型编写大量代码。
Q&A

