
大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
本周精选了10篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、作者、AMiner AI综述等信息,如果感兴趣可扫码查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
这篇论文介绍了一种名为CodeFusion的预训练扩散模型,用于代码生成。现有的自动回归代码生成模型在生成代码时存在一个限制,即不能轻易地重新考虑之前生成的令牌。CodeFusion通过迭代去噪一个基于编码自然语言的条件程序,从而解决了这一问题。作者在Bash、Python和Microsoft Excel条件格式化(CF)规则的自然语言到代码生成任务上评估了CodeFusion。实验结果表明,CodeFusion(7500万参数)在 top-1 精度上与最先进的自动回归系统(3.5亿-1750亿参数)相当,并且在top-3和top-5精度上由于其更好的多样性与质量平衡而优于它们。

链接:https://www.aminer.cn/pub/653f11c2939a5f40828885eb/?f=wx阅读原文
这篇论文介绍了FlashDecoding++,一个支持主流大型语言模型(LLM)和硬件后端的高性能LLM推理引擎。在加速LLM推理过程中,仍存在以下未解决挑战:1)同步部分softmax更新;2)平坦GEMM计算的利用不足;3)由于静态数据流导致的性能损失。为解决这些挑战,FlashDecoding++创新性地提出了:1)异步softmax与统一最大值;2)使用双缓冲的平坦GEMM优化;3)利用硬件资源自适应的启发式数据流。FlashDecoding++通过这些优化方法,在NVIDIA和AMD GPU上相较于Hugging Face实现可达到4.86倍和2.18倍的加速,同时在主流LLM上相较于最先进的LLM推理引擎可实现1.37倍的平均加速。

链接:https://www.aminer.cn/pub/6544571e939a5f4082e79417/?f=wx阅读原文
这篇论文介绍了一种名为RoboGen的生成式机器人代理,该代理通过生成模拟来大规模自动学习各种机器人技能。RoboGen利用基础和生成模型的最新进展,并倡导一种生成式方案,使用这些模型自动生成多样化的任务、场景和训练监督,从而在最小的人力监督下扩展机器人技能学习。该方法使机器人代理具有自我引导的提议-生成-学习循环,首先提议有趣的任务和技能进行开发,然后通过在相关对象和资产中填充适当的时空配置来生成相应的模拟环境。之后,代理将提议的高层次任务分解为子任务,选择最优学习方法(强化学习、运动规划或轨迹优化),生成所需的训练监督,并学习策略以获得提议的技能。我们的工作试图提取大量模型中嵌入的广泛而多样的知识,并将其转移到机器人领域。我们的完全生成式管道可以被多次查询,产生与多样任务和环境相关的无尽技能演示。

链接:https://www.aminer.cn/pub/6544571e939a5f4082e794ca/?f=wx阅读原文
这篇论文介绍了一项名为LLaVA-Interactive的研究原型,它是一个用于多模态人机交互的系统。该系统能够通过接收多模态用户输入并生成多模态响应,与人类用户进行多轮对话。重要的是,LLaVA-Interactive不仅限于语言提示,而是通过启用视觉提示来在交互中对齐人类意图。LLaVA-Interactive的开发非常高效,因为它结合了三个预构建的AI模型的多模态技能,而无需进行额外的模型训练:LLaVA的视觉聊天、SEEM的图像分割,以及GLIGEN的图像生成和编辑。通过展示一系列应用场景,论文展示了LLaVA-Interactive的潜力,并激发了未来关于多模态交互系统的研究。

链接:https://www.aminer.cn/pub/65430613939a5f40829d362e/?f=wx阅读原文
这篇论文介绍了Distil-Whisper: 通过大规模伪标记进行稳健的知识蒸馏。随着预训练语音识别模型规模的增大,在低延迟或资源受限的环境中运行这些大型模型变得越来越具有挑战性。在本文中,作者利用伪标记来组装一个大规模的开源数据集,并使用该数据集将Whisper模型蒸馏成一个较小的变体,称为Distil-Whisper。通过简单的词错误率(WER)启发式方法,仅选择最高质量的伪标签进行训练。Distil-Whisper模型的速度是原模型的5.8倍,参数数量减少了51%,同时在零散射转移设置下,对分布外测试数据的WER小于1%。Distil-Whisper保持了Whisper模型对困难声学条件的鲁棒性,同时在长格式音频上不容易产生幻想错误。Distil-Whisper被设计成与Whisper配对进行推测解码,速度提高2倍,同时数学上保证与原模型的输出相同。为了促进这一领域的研究,作者公开发布了训练代码、推理代码和模型。

链接:https://www.aminer.cn/pub/65430613939a5f40829d35a0/?f=wx阅读原文
这篇论文介绍了CapsFusion框架,提出了一种新的方法来处理大规模图像-文本数据中的问题,以提高多模态预训练数据的质量和可扩展性。当前的多模态模型在零散方式下表现出惊人的泛化能力,这要归功于大规模基于网络的图像-文本对。然而,这些数据存在过多的噪声。最近的研究使用由字幕生成模型合成的替代字幕,并取得了显著的基准性能。然而,我们的实验发现,使用合成字幕训练的模型存在可扩展性不足和世界知识损失问题,这些问题在它们的初始基准成功中被大大忽视了。通过仔细检查,我们确定根源在于现有合成字幕中的过度简化的语言结构和缺乏知识细节。为了提供更高质量和更可扩展的多模态预训练数据,我们提出了CapsFusion框架,该框架利用大型语言模型来整合和精炼网络图像-文本对和合成字幕中的信息。大量实验表明,CapsFusion字幕在模型性能、样本效率、世界知识深度和可扩展性方面都显著优于现有字幕。这些优势使得CapsFusion成为未来LMM训练的可行选择。

链接:https://www.aminer.cn/pub/6541a941939a5f40824eec8b/?f=wx阅读原文
这篇论文探讨了在大型语言模型(LLM)训练中使用 FP8 低比特数据格式以实现高效训练的可能性。作者发现,在 LLM 训练中,大多数变量(如梯度和学习器状态)可以使用低精度数据格式,而无需牺牲模型准确性或更改超参数。具体来说,作者提出了一个新的 FP8 自动混合精度框架,用于训练 LLM。该框架提供了三个 FP8 利用级别,以简化和优化 LLM 的混合精度分布式并行训练。实验结果表明,在使用 H100 GPU 平台的 GPT-175B 模型训练中,所提出的 FP8 混合精度训练框架不仅实现了显著的 42% 实际内存使用减少,而且比广泛采用的 BF16 框架(即 Megatron-LM)运行快 64%,超过 Nvidia Transformer Engine 17%。这大大降低了大型基础模型的训练成本。此外,所提出的 FP8 混合精度训练方法是通用的,可以无缝应用于其他任务,如 LLM 指令调整和强化学习与人类反馈,节省微调费用。该论文的 FP8 低精度训练框架开源地址为 {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}。

链接:https://www.aminer.cn/pub/653f11c2939a5f408288886e/?f=wx阅读原文
这篇论文介绍了Atom,一种低位量化方法,用于提高大规模语言模型(LLMs)在内容生成、智能聊天机器人和情感分析等应用中的服务效率和准确性。当前,为了提高批量请求的处理速度并充分利用GPU资源,LLM量化技术被广泛采用。然而,普遍的量化方案(如8位权重激活量化)无法充分利用现代GPU的性能,例如4位整数操作器,导致性能不理想。
为了解决这个问题,作者提出了Atom,一种低位量化方法,能够在几乎不损失准确性的情况下实现高吞吐量提升。通过使用低位操作器和低位量化,Atom显著提高了服务吞吐量,并通过应用一种新颖的混合精度和细粒度量化过程来实现高准确性。作者在服务环境中评估了Atom在4位权重激活量化设置上的表现,结果显示,与FP16和INT8量化相比,Atom将端到端的吞吐量提高了最多7.73倍,同时保持了相同的延迟目标。

链接:https://www.aminer.cn/pub/6541f34a939a5f4082ce2115/?f=wx阅读原文
这篇论文介绍了一种名为Skywork-13B的双语基础模型,该模型是基于3.2万亿个来自英汉文本的标记进行训练的。这是迄今为止公开发布的大型语言模型中,规模相当且训练最充分的双语基础模型。文章引入了一种两阶段训练方法,分别针对通用训练和特定领域的增强训练。研究表明,该模型不仅在流行的基准测试中表现优异,而且在多样领域中的中文语言建模方面达到了最先进的水平。此外,文章提出了一种新颖的泄漏检测方法,表明测试数据污染是一个紧迫的问题,值得LLM社区进一步研究。为了推动未来的研究,作者还发布了Skywork-13B,以及训练过程中获得的中间阶段检查点。同时,作者也发布了一部分SkyPile语料库,这是一组超过1500亿个网页文本标记,是迄今为止最大的高质量开放中文预训练语料库。作者希望Skywork-13B和开放的语料库能成为有价值的开源资源,使更多人能够接触到高质量的语言模型。

链接:https://www.aminer.cn/pub/6541f34a939a5f4082ce234b/?f=wx阅读原文
这篇论文对大型语言模型(LLMs)的评估进行了全面的调查。LLMs在各种任务中展示了显著的能力,并已引起广泛关注,被应用于许多下游应用中。然而,LLMs也存在潜在风险,可能遭受私人数据泄露或产生不适当、有害或误导性的内容。此外,LLMs的快速发展引发了关于可能出现没有足够保障的超级智能系统的担忧。为了有效地利用LLM的能力,同时确保它们的安全和有益发展,对LLMs进行严格的全面评估至关重要。
本文试图提供对LLMs评估的全景视角。我们将LLMs的评估分为三个主要类别:知识与能力评估、对齐评估和安全评估。除了对这三个方面的评估方法和基准的全面审查外,我们还收集了关于LLMs在专业领域表现的评价汇编,并讨论了涵盖LLM在能力、对齐、安全和适用性方面的评估的综合评估平台的构建。
我们希望这篇全面概述能够激发对LLMs评估的进一步研究兴趣,最终使评估成为引导LLMs负责任发展的基石。我们期望这将为LLMs的演变指明方向,使其在最大程度地增加社会受益的同时,最小化潜在风险。相关论文的精选列表已在https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers 上公开发布。

链接:https://www.aminer.cn/pub/6541aa02939a5f4082504ad1/?f=wx阅读原文
如何使用AMiner AI?
使用AMiner AI的方法很简单,打开AMiner首页,从页面顶部导航栏或者右下角便可进入AMiner AI页面。

在AMiner AI页面中,可以选择基于单篇文献进行对话和基于全库(个人文献库)对话,可选择上传本地PDF或者直接在AMiner上检索文献。


