大数跨境
0
0

【人工智能】为什么你不能信任聊天机器人——现在比以往任何时候都更不能信任

【人工智能】为什么你不能信任聊天机器人——现在比以往任何时候都更不能信任 七元宇宙
2024-10-13
2
导读:即使语言模型规模扩大,它们在简单任务上仍然不可靠

即使语言模型规模扩大,它们在简单任务上仍然不可靠

ChatGPT等 AI 聊天机器人和其他由大型语言模型驱动的应用程序得到了广泛应用,但其可靠性却非常低劣。一个普遍的假设是,扩大驱动这些应用程序的模型将提高其可靠性——例如,通过增加它们训练的数据量或它们用于处理信息的参数数量。然而,一项新研究表明,这些语言模型的较新和较大版本实际上变得更加不可靠,而不是更不可靠。

大型语言模型(LLM) 本质上是自动完成功能的增强版,智能手机使用该功能来预测用户正在输入的单词的其余部分。ChatGPT可能是最著名的 LLM 聊天机器人,它通过了法学院和商学院的考试,成功回答了软件编码工作的面试问题,编写了房地产清单,并开发了广告内容。

但大语言模型经常会犯错误。例如,6 月份的一项研究发现,ChatGPT 在生成功能代码方面具有极其广泛的成功率——成功率从微不足道的 0.66% 到 89% 不等——具体取决于任务的难度、编程语言和其他因素。

研究团队探索了多种策略来提高 LLM 的可靠性。这些策略包括增加模型的训练数据量或计算能力,以及使用人工反馈来微调模型并改进其输出。随着时间的推移,LLM 的性能总体上有所提高。例如,早期的 LLM 无法完成“20 + 183”这样的简单加法。现在 LLM 可以成功执行涉及 50 多位数字的加法。
然而,上周发表在《自然》杂志上的新研究发现,“最新的大语言模型课程可能看起来令人印象深刻,能够解决一些非常复杂的任务,但它们在各个方面都不可靠,”西班牙瓦伦西亚理工大学的研究助理、这项研究的合著者周乐欣说。更重要的是,他说,“趋势似乎并没有显示出明显的改善,而是相反。”

可靠性的下降部分归因于一些变化,这些变化使得较新的模型不太可能说它们不知道答案,或者给出无法回答问题的答复。相反,较新的模型更有可能自信地生成错误答案。



大模型在简单和困难任务中的表现如何



研究人员探索了几个 LLM 系列:来自OpenAI的 10 个GPT模型、来自Meta 的10 个LLaMA模型和来自 BigScience 计划的 12 个BLOOM模型。在每个系列中,最新的模型是最大的。研究人员从三个关键维度关注 LLM 的可靠性。

科学家们调查的其中一个方法是,大模型在人们认为简单和困难的任务上的表现如何。例如,相对简单的任务是将 24,427 和 7,120 相加,而非常困难的任务是将 1,893,603,010,323,501,638,430 和 98,832,380,858,765,261,900 相加。

与人类认为简单的任务相比,大模型在人类认为具有挑战性的任务上的准确率通常较低,这并不出乎意料。然而, AI 系统即使在简单的任务上也并非 100% 准确。“我们发现,没有安全的操作条件可以让用户识别出可以信任这些大模型,”周说。

此外,新研究还发现,与之前的 LLM 相比,最新模型在高难度任务上的表现有所提高,但在低难度任务上却没有提高。这可能是因为 LLM 开发人员专注于越来越难的基准,而不是简单和困难的基准。“我们的结果揭示了开发人员实际上在优化什么,”周说。



聊天机器人无法应对不确定性



周教授团队研究的 LLM 表现的第二个方面是模型回避回答用户问题的倾向。研究人员发现,近期的 LLM 毕业生在回答问题时不太谨慎——他们更有可能直接回答并自信地提供错误答案。此外,尽管人们倾向于避免回答超出自己能力范围的问题,但近期的 LLM 毕业生在任务难度增加时并没有回避提供答案。
周说,这种轻率可能源于“希望让语言模型尝试表达一些看似有意义的东西”,即使模型处于不确定的领域。他补充说,这让人类承担了发现大模型输出中错误的负担。

最后,研究人员检查了大模型学生所面临的任务或“提示”是否会影响他们的表现。他们发现,最近的大模型学生仍然对提示的表达方式高度敏感——例如,在加法提示中使用“plus”而不是“+”。



聊天机器人如何扰乱人类的期望



英国剑桥大学实验心理学教授露西·切克(Lucy Cheke) 负责测量 AI 模型中的认知能力,她表示,这些发现凸显了大模型 (LLM) 并未表现出符合人类期望的可靠性模式。

“如果某人是数学老师,也就是说,能够解答难题的人,那么他们就一定擅长数学,因此我可以认为他们是解答简单数学问题的可靠人选,”没有参与这项新研究的 Cheke 说道。“同样,如果这个人能够正确回答‘2,354 + 234’,那么我大概可以相信他们对‘2,354 加 234’的回答。但这两种假设都不适用于这些更大的模型。”

此外,研究还发现,人工监督无法弥补所有这些问题。例如,人们认识到一些任务非常困难,但仍然经常期望 LLM 是正确的,即使他们被允许说“我不确定”正确性。研究人员表示,这种倾向表明对模型过于自信。

“人们越来越信任那些大部分能提供正确信息,但也会混入一些看似合理但错误的信息而导致真正问题的系统,”Cheke 说道。“这尤其成问题,因为人们越来越依赖这些系统来回答复杂的问题,而他们无法发现错误的答案。”

尽管有这些发现,周教授警告不要将大模型视为无用的工具。“它们在许多应用中仍然非常有用——例如,在用户可以容忍错误的任务中,”他说。“不会飞的汽车并不不可靠,因为没有人指望汽车会飞。早期的大模型就是这样的——人们对它们没有太多的期望。但在过去几年里,随着大模型变得越来越强大,人们开始依赖它们,也许太过依赖了。”

周也不认为这种不可靠性是一个无法解决的问题。他说,如果新发现在下一代大模型课程中得到解释,我们可能会开始看到更多的大模型课程被采用,而对大语言模型课程的怀疑也会减少。但在研究人员找到解决方案之前,他计划提高人们对过度依赖大模型课程和依靠人类监督大模型课程的危险性的认识。


免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系。所有信息仅供参考和分享,不构成任何投资建议。加密货币市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。

注我,一起探索元宇宙!

关注七元Web3,获取更多Web3、加密领域的相关知识
6种低于5美元的廉价山寨币,到2026年将2000$变成200万$

2024-10-05

2024年10月最值得押注的加密货币

2024-10-09

2024年最佳免费比特币挖矿方法

2024-10-10

【声明】内容源于网络
0
0
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
内容 3217
粉丝 0
七元宇宙 AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
总阅读415
粉丝0
内容3.2k