

大型语言模型(LLM) 本质上是自动完成功能的增强版,智能手机使用该功能来预测用户正在输入的单词的其余部分。ChatGPT可能是最著名的 LLM 聊天机器人,它通过了法学院和商学院的考试,成功回答了软件编码工作的面试问题,编写了房地产清单,并开发了广告内容。
但大语言模型经常会犯错误。例如,6 月份的一项研究发现,ChatGPT 在生成功能代码方面具有极其广泛的成功率——成功率从微不足道的 0.66% 到 89% 不等——具体取决于任务的难度、编程语言和其他因素。

研究人员探索了几个 LLM 系列:来自OpenAI的 10 个GPT模型、来自Meta 的10 个LLaMA模型和来自 BigScience 计划的 12 个BLOOM模型。在每个系列中,最新的模型是最大的。研究人员从三个关键维度关注 LLM 的可靠性。
科学家们调查的其中一个方法是,大模型在人们认为简单和困难的任务上的表现如何。例如,相对简单的任务是将 24,427 和 7,120 相加,而非常困难的任务是将 1,893,603,010,323,501,638,430 和 98,832,380,858,765,261,900 相加。
与人类认为简单的任务相比,大模型在人类认为具有挑战性的任务上的准确率通常较低,这并不出乎意料。然而, AI 系统即使在简单的任务上也并非 100% 准确。“我们发现,没有安全的操作条件可以让用户识别出可以信任这些大模型,”周说。
此外,新研究还发现,与之前的 LLM 相比,最新模型在高难度任务上的表现有所提高,但在低难度任务上却没有提高。这可能是因为 LLM 开发人员专注于越来越难的基准,而不是简单和困难的基准。“我们的结果揭示了开发人员实际上在优化什么,”周说。
最后,研究人员检查了大模型学生所面临的任务或“提示”是否会影响他们的表现。他们发现,最近的大模型学生仍然对提示的表达方式高度敏感——例如,在加法提示中使用“plus”而不是“+”。

此外,研究还发现,人工监督无法弥补所有这些问题。例如,人们认识到一些任务非常困难,但仍然经常期望 LLM 是正确的,即使他们被允许说“我不确定”正确性。研究人员表示,这种倾向表明对模型过于自信。
“人们越来越信任那些大部分能提供正确信息,但也会混入一些看似合理但错误的信息而导致真正问题的系统,”Cheke 说道。“这尤其成问题,因为人们越来越依赖这些系统来回答复杂的问题,而他们无法发现错误的答案。”
尽管有这些发现,周教授警告不要将大模型视为无用的工具。“它们在许多应用中仍然非常有用——例如,在用户可以容忍错误的任务中,”他说。“不会飞的汽车并不不可靠,因为没有人指望汽车会飞。早期的大模型就是这样的——人们对它们没有太多的期望。但在过去几年里,随着大模型变得越来越强大,人们开始依赖它们,也许太过依赖了。”
周也不认为这种不可靠性是一个无法解决的问题。他说,如果新发现在下一代大模型课程中得到解释,我们可能会开始看到更多的大模型课程被采用,而对大语言模型课程的怀疑也会减少。但在研究人员找到解决方案之前,他计划提高人们对过度依赖大模型课程和依靠人类监督大模型课程的危险性的认识。
免责声明:
本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系。所有信息仅供参考和分享,不构成任何投资建议。加密货币市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。
关注我,一起探索元宇宙!
2024-10-05
2024-10-09
2024-10-10



