虚构事实的担忧：大型语言模型的新知识处理能力- 大数跨境

首页

虚构事实的担忧：大型语言模型的新知识处理能力

AMiner AI

2024-05-17

导读：快速了解大模型科研动态！

想把握最新的科技进展和研究成果，却发现自己的阅读速度根本赶不上文献产出的速度？

别担心，AMiner AI会帮助你高效检索和阅读文献！

AMiner AI，一款集发现论文、分析论文、理解论文、写作论文于一体的科研小助手。它会帮助你更加游刃有余地穿梭在学术海洋中，让科研变得更加有趣和高效！

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。

今日精选了5篇LLM领域的优秀论文，为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息，如果感兴趣可扫码查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

1. A Survey on RAG Meets LLMs: Towards Retrieval-Augmented Large Language Models

✦

这篇论文的摘要讨论了检索增强型大型语言模型（RA-LLMs）的研究现状。作为人工智能领域的一项先进技术，检索增强型生成（RAG）方法能够提供可靠和最新的外部知识，这对于许多任务来说是非常方便的。特别是在人工智能生成内容（AIGC）时代，RAG强大的检索能力在提供额外知识方面，使得检索增强型生成能够协助现有生成AI产生高质量的输出。最近，大型语言模型（LLMs）在语言理解和生成方面展示了革命性的能力，但仍面临诸如虚构和过时内部知识等固有限制。鉴于RAG在提供最新和有帮助的辅助信息方面的强大能力，RA-LLM通过利用外部权威知识库，而不是仅仅依赖模型的内部知识，来增强LLM的生成质量。在这篇论文中，作者全面回顾了RA-LLM现有的研究文献，涉及三个主要技术视角：架构、训练策略和应用。首先，作者简要介绍了LLM的基础知识和最新进展。然后，为了说明RAG对LLMs的实际意义，作者根据应用领域对主流相关研究进行了分类，详细说明了每个领域的挑战以及RA-LLM相应的应对能力。最后，为了提供更深刻的见解，作者讨论了当前的局限性，并提出了未来研究的一些有前景的方向。

链接：https://www.aminer.cn/pub/6641743701d2a3fbfce99171/?f=wx阅读原文

2. Linearizing Large Language Models

✦

✦✦

本文提出了一种名为Scalable UPtraining for Recurrent Attention (SUPRA)的方法，该方法可以在有限的计算资源下，将现有的大型预训练变换器（transformer）模型转换为循环神经网络（RNNs）。这种转换方式既利用了变换器模型强大的预训练数据和性能，又避免了训练大型线性变换器所需的昂贵计算成本。尽管这种方法在标准基准测试中取得了有竞争力的性能，但作者发现，即使是最大的线性模型，在持续上下文学习和长上下文建模方面仍存在不足。

链接：https://www.aminer.cn/pub/6641743e01d2a3fbfce9993e/?f=wx阅读原文

3. vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention

✦

本文提出了一种新的内存管理方法vAttention，旨在为基于大型语言模型（LLM）的服务系统高效利用GPU内存，以支持高吞吐量推理。传统的系统提前为关键值缓存（KV-cache）预留内存，这导致了由于内部碎片化而浪费的容量。受操作系统基础虚拟内存系统的启发，vLLM提出了PagedAttention方法，以实现KV-cache的动态内存分配，消除了碎片化，支持了大批量的LLM服务。然而，PagedAttention需要改变KV-cache在连续虚拟内存中的布局，为支持分页，必须重写关注内核，并在服务框架中实现内存管理器，从而导致了软件复杂性、可移植性问题、重复性和效率问题。与PagedAttention不同，本文的vAttention方法保持了KV-cache在连续虚拟内存中的布局，并利用了现有的低级系统支持的需求分页，以实现按需的物理内存分配。这样，vAttention就减轻了关注内核开发人员需要显式支持分页的负担，避免了在服务框架中重新实现内存管理。研究结果表明，vAttention能够无需更改各种关注内核的实现，即可实现无缝的动态内存管理，并且处理输入提示的速度比vLLM快1.97倍，比PagedAttention变体的FlashAttention和FlashInfer快3.92倍和1.45倍。

链接：https://www.aminer.cn/pub/663adcea01d2a3fbfca0a1c5/?f=wx阅读原文

4. Vidur: A Large-Scale Simulation Framework For LLM Inference

✦

本文介绍了一种名为Vidur的大型、高保真、易于扩展的模拟框架，用于大型语言模型（LLM）推理性能的优化。当前，优化LLM的部署成本很高，因为它需要实验性地将应用程序工作负载与LLM实现运行，同时探索由系统参数（如并行化策略、批处理技术和调度策略）形成的广阔配置空间。Vidur通过实验性分析和预测建模的组合来模拟LLM操作的性能，并估计了诸如延迟和吞吐量等感兴趣的几个指标，以评估不同工作负载的端到端推理性能。文章验证了Vidur的准确性，并显示其在整个范围内估计推理延迟的误差小于9%。进一步，文章还介绍了Vidur-Search，这是一个配置搜索工具，可以帮助优化LLM的部署。Vidur-Search利用Vidur自动识别最经济有效的部署配置，以满足应用程序性能约束。例如，Vidur-Search在一个CPU机器上用一小时找到了LLaMA2-70B的最佳部署配置，而基于部署的探索则需要42,000个GPU小时，成本为21.8万美元。

链接：https://www.aminer.cn/pub/663d7fe101d2a3fbfc4764ae/?f=wx阅读原文

5. Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

✦

✦✦

✦

这篇论文探讨了在通过监督微调（fine-tuning）大型语言模型时，引入新知识是否会促使模型产生虚构事实（hallucinations）的问题。微调过程中，模型会遇到在预训练阶段未曾获取的事实性信息。有人猜测这会教导模型生成与既有知识不符的虚构事实。作者们通过设计一个针对闭卷问答（closed-book QA）的受控实验设置来研究这一问题，实验中变化了微调示例中引入新知识的比例。研究结果表明，大型语言模型在微调过程中很难习得新的事实性知识，引入新知识的微调示例学习速度远低于与模型知识一致的示例。但作者们也发现，一旦含有新知识的示例被习得，它们会线性增加模型产生虚构事实的倾向。综合来看，这些结果突出了通过微调引入新事实性知识的风险，支持了这样的观点：大型语言模型主要通过预训练习得事实性知识，而微调则教会它们更有效地使用这些知识。