
想把握最新的科技进展和研究成果,却发现自己的阅读速度根本赶不上文献产出的速度?
别担心,AMiner AI会帮助你高效检索和阅读文献!
AMiner AI,一款集发现论文、分析论文、理解论文、写作论文于一体的科研小助手。它会帮助你更加游刃有余地穿梭在学术海洋中,让科研变得更加有趣和高效!
大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
今日精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可扫码查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
这篇论文的摘要讨论了检索增强型大型语言模型(RA-LLMs)的研究现状。作为人工智能领域的一项先进技术,检索增强型生成(RAG)方法能够提供可靠和最新的外部知识,这对于许多任务来说是非常方便的。特别是在人工智能生成内容(AIGC)时代,RAG强大的检索能力在提供额外知识方面,使得检索增强型生成能够协助现有生成AI产生高质量的输出。最近,大型语言模型(LLMs)在语言理解和生成方面展示了革命性的能力,但仍面临诸如虚构和过时内部知识等固有限制。鉴于RAG在提供最新和有帮助的辅助信息方面的强大能力,RA-LLM通过利用外部权威知识库,而不是仅仅依赖模型的内部知识,来增强LLM的生成质量。在这篇论文中,作者全面回顾了RA-LLM现有的研究文献,涉及三个主要技术视角:架构、训练策略和应用。首先,作者简要介绍了LLM的基础知识和最新进展。然后,为了说明RAG对LLMs的实际意义,作者根据应用领域对主流相关研究进行了分类,详细说明了每个领域的挑战以及RA-LLM相应的应对能力。最后,为了提供更深刻的见解,作者讨论了当前的局限性,并提出了未来研究的一些有前景的方向。

链接:https://www.aminer.cn/pub/6641743701d2a3fbfce99171/?f=wx阅读原文
本文提出了一种名为Scalable UPtraining for Recurrent Attention (SUPRA)的方法,该方法可以在有限的计算资源下,将现有的大型预训练变换器(transformer)模型转换为循环神经网络(RNNs)。这种转换方式既利用了变换器模型强大的预训练数据和性能,又避免了训练大型线性变换器所需的昂贵计算成本。尽管这种方法在标准基准测试中取得了有竞争力的性能,但作者发现,即使是最大的线性模型,在持续上下文学习和长上下文建模方面仍存在不足。

链接:https://www.aminer.cn/pub/6641743e01d2a3fbfce9993e/?f=wx阅读原文
本文提出了一种新的内存管理方法vAttention,旨在为基于大型语言模型(LLM)的服务系统高效利用GPU内存,以支持高吞吐量推理。传统的系统提前为关键值缓存(KV-cache)预留内存,这导致了由于内部碎片化而浪费的容量。受操作系统基础虚拟内存系统的启发,vLLM提出了PagedAttention方法,以实现KV-cache的动态内存分配,消除了碎片化,支持了大批量的LLM服务。然而,PagedAttention需要改变KV-cache在连续虚拟内存中的布局,为支持分页,必须重写关注内核,并在服务框架中实现内存管理器,从而导致了软件复杂性、可移植性问题、重复性和效率问题。与PagedAttention不同,本文的vAttention方法保持了KV-cache在连续虚拟内存中的布局,并利用了现有的低级系统支持的需求分页,以实现按需的物理内存分配。这样,vAttention就减轻了关注内核开发人员需要显式支持分页的负担,避免了在服务框架中重新实现内存管理。研究结果表明,vAttention能够无需更改各种关注内核的实现,即可实现无缝的动态内存管理,并且处理输入提示的速度比vLLM快1.97倍,比PagedAttention变体的FlashAttention和FlashInfer快3.92倍和1.45倍。
链接:https://www.aminer.cn/pub/663adcea01d2a3fbfca0a1c5/?f=wx阅读原文
本文介绍了一种名为Vidur的大型、高保真、易于扩展的模拟框架,用于大型语言模型(LLM)推理性能的优化。当前,优化LLM的部署成本很高,因为它需要实验性地将应用程序工作负载与LLM实现运行,同时探索由系统参数(如并行化策略、批处理技术和调度策略)形成的广阔配置空间。Vidur通过实验性分析和预测建模的组合来模拟LLM操作的性能,并估计了诸如延迟和吞吐量等感兴趣的几个指标,以评估不同工作负载的端到端推理性能。文章验证了Vidur的准确性,并显示其在整个范围内估计推理延迟的误差小于9%。进一步,文章还介绍了Vidur-Search,这是一个配置搜索工具,可以帮助优化LLM的部署。Vidur-Search利用Vidur自动识别最经济有效的部署配置,以满足应用程序性能约束。例如,Vidur-Search在一个CPU机器上用一小时找到了LLaMA2-70B的最佳部署配置,而基于部署的探索则需要42,000个GPU小时,成本为21.8万美元。

链接:https://www.aminer.cn/pub/663d7fe101d2a3fbfc4764ae/?f=wx阅读原文
这篇论文探讨了在通过监督微调(fine-tuning)大型语言模型时,引入新知识是否会促使模型产生虚构事实(hallucinations)的问题。微调过程中,模型会遇到在预训练阶段未曾获取的事实性信息。有人猜测这会教导模型生成与既有知识不符的虚构事实。作者们通过设计一个针对闭卷问答(closed-book QA)的受控实验设置来研究这一问题,实验中变化了微调示例中引入新知识的比例。研究结果表明,大型语言模型在微调过程中很难习得新的事实性知识,引入新知识的微调示例学习速度远低于与模型知识一致的示例。但作者们也发现,一旦含有新知识的示例被习得,它们会线性增加模型产生虚构事实的倾向。综合来看,这些结果突出了通过微调引入新事实性知识的风险,支持了这样的观点:大型语言模型主要通过预训练习得事实性知识,而微调则教会它们更有效地使用这些知识。

如何订阅每日新论文?
打开AMiner首页,点击管理订阅,选择所在领域的关键词、学者和机构即可。

此外,可以选择将订阅内容发送至邮箱或微信。输入邮箱或扫描二维码授权登录,即可接收个性化的科研信息。


