

【人工智能】大型语言模型：大到不能倒？

七元宇宙

2024-10-17

导读：LLM 可以满足广泛的需求，提供最大的可选性，并在公司刚起步时帮助证明 AI 的商业案例。然后，随着组织专注于最具战略性的用例，他们可以优化模型以创建更小、更谨慎、更具成本效益的语言模型，以满足他们的

OpenAI最近创造了历史，获得了 66 亿美元的投资，用于扩大其大型语言模型——增加其规模、数据量和计算资源。与此同时，Anthropic 的首席执行官表示，他的公司已经开发了价值 10 亿美元的模型，价值 1000 亿美元的模型即将面世。

但随着支出的膨胀，《自然》杂志发表的新研究表明，法学硕士学位实际上可能会随着支出的增长而变得不那么可靠。

瓦伦西亚理工大学的研究人员认为，问题的关键在于，人们认为，随着 LLM通过使用微调和过滤等策略变得更加强大和更加一致，从用户的角度来看，它们也会变得更加可靠。或者换句话说：人们可能会错误地认为，随着模型变得更加强大，它们的错误将遵循一种可预测的模式，人类可以理解并调整他们的查询。

然而，研究人员发现，人类认为的困难与法学硕士认为的困难并不一定相同。研究人员使用 OpenAI 的 ChatGPT、Meta 的 Llama 和 BigScience 的 BLOOM 的新旧模型，通过涉及加法、词汇、地理知识以及基础和高级科学问题的任务测试了核心数字、科学和知识技能。

总体而言，研究发现，较新、规模较大的语言模型在人类认为难度较高的任务上表现更好，但在人类认为简单的任务上仍远非完美，导致没有操作条件可以相信这些模型是完美的。而且由于较新的 LLM 主要在高难度实例上进行改进，这加剧了人类认为困难的任务与 LLM 成功之间的差距。

我们不应该问法学硕士是否越大越好，而应该问“你能快速核实模型吗？”IBM 的首席发明家 Bishwaranjan Bhattacharjee 说。然而，问题在于人类不善于发现模型的错误，并且经常将错误的模型输出误判为正确的，即使可以选择说“我不确定”。

“新法学硕士的错误率大幅上升，因为他们现在很少回避回答超出自己能力范围的问题，”论文合著者 Lexin Zhou 表示。“更大的问题是，这些新法学硕士总是会给出错误的答案。”使用法学硕士完成自己不具备深厚专业知识的领域的任务的人可能会误以为法学硕士是可靠的，因为他们无法轻易发现错误。这些发现表明，人类还不足以成为这些模型的可靠监督者。

LLM 生命周期

考虑到 LLM 的局限性和费用，一些专家认为，企业将先从更大的模型开始，然后再选择更定制、更适合用途的模型。LLM 可以满足广泛的需求，提供最大的可选性，并在公司刚起步时帮助证明 AI 的商业案例。然后，随着组织专注于最具战略性的用例，他们可以优化模型以创建更小、更谨慎、更具成本效益的语言模型，以满足他们的特定需求。