实时追踪科研动态丨微软、MetaAI、CMU大学等机构9.19精选新论文- 大数跨境

首页

实时追踪科研动态丨微软、MetaAI、CMU大学等机构9.19精选新论文

AMiner AI

2023-09-19

导读：作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。然而，传统的检索和阅读方式已

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。然而，传统的检索和阅读方式已经无法满足科研人的需求。

AMiner AI，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：https://www.aminer.cn/chat/g/explain

2023年9月19日精选新论文列表：

1.An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models 阅读原文

论文解决了关于使用大型多模态模型（LMM）的可扩展性的问题。之前的研究都是使用参数规模为13B或更小的模型进行的，而本文通过将LLaVA模型扩展到33B和65B/70B规模，并对图像分辨率、数据混合和参数高效训练方法（如LoRA/QLoRA）进行实证研究，分享了在真实世界任务中的多模态和语言能力的发现。研究发现，扩大模型规模可以一致提高模型性能并改善语言能力，而LoRA/QLoRA调优LMM的性能与全模型微调相当。此外，研究还强调了提高图像分辨率和混合多模态语言数据以改善LMM性能的重要性，有时视觉指导调优可以改善LMM的纯语言能力。希望这项研究能够使更大规模的最先进LMM研究更容易获取，从而为未来的研究建立更强的基线。代码和检查点将公开发布。

https://www.aminer.cn/pub/650905523fda6d7f06cd71ac

2.LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models 阅读原文

论文指出了现有方法在布局生成中存在的问题，即主要将布局生成视为数值优化任务，忽视了布局的语义信息，例如每个布局元素之间的关系。为了解决这个问题，作者提出了LayoutNUWA模型，将布局生成视为代码生成任务，以增强语义信息并利用大型语言模型的隐藏布局专业知识。通过三个相互连接的模块（代码初始化模块，代码完成模块和代码渲染模块），作者提出了Code Instruct Tuning（CIT）方法，实现了高度可解释和透明的布局生成过程，将代码直接映射到可视化布局。该方法在多个数据集上取得了显著的最先进性能（甚至超过50％的改进）。

https://www.aminer.cn/pub/650904f23fda6d7f06cd525e

3.Contrastive Decoding Improves Reasoning in Large Language Models 阅读原文

这篇论文介绍了一种名为Contrastive Decoding的文本生成方法，该方法在各种推理任务上相比贪婪解码方法有显著的提升。Contrastive Decoding通过搜索字符串，使得其在强模型和弱模型之间的可能性差异最大化，从而改善了长文本生成的质量。研究表明，Contrastive Decoding在HellaSwag常识推理基准测试中使LLaMA-65B优于LLaMA 2、GPT-3.5和PaLM 2-L，在GSM8K数学问题推理基准测试中优于LLaMA 2、GPT-3.5和PaLM-540B，并在其他任务上也有改进。分析表明，Contrastive Decoding通过防止一些抽象推理错误和避免在思维链中复制输入的部分等简单模式，改进了现有方法。总之，Contrastive Decoding在长文本生成和推理任务上优于nucleus sampling和贪婪解码，使其成为从语言模型生成文本的一个强大通用方法。

https://www.aminer.cn/pub/650904db3fda6d7f06cd48d1

4.MindAgent: Emergent Gaming Interaction 阅读原文

作者提出了一种名为MindAgent的新型基础设施，用于评估规划和协调游戏交互的新兴能力。该基础设施利用现有的游戏框架，在以下方面进行了改进：i)要求多智能体系统的协调者进行理解；ii)通过未经调优的适当指令与人类玩家合作；iii)在少量输入和反馈中建立上下文学习。此外，作者还引入了一个名为CUISINEWORLD的新游戏场景和相关的基准，以评估多智能体协作效率并监督多个智能体同时进行游戏。他们使用全新的自动化度量指标CoS进行了全面的评估。最后，他们的基础设施可以部署到现实世界的游戏场景中，并在现有的更广泛的Minecraft游戏领域进行适应。希望通过对LLMs和通用调度和协调的新基础设施的研究结果，能够揭示从大型语料库中学习此类技能的方法。

https://www.aminer.cn/pub/650904f23fda6d7f06cd5432/

5.CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages 阅读原文

这篇文章说明了对于大型语言模型（LLMs），尤其是最新的最先进模型而言，其训练数据通常缺乏透明度。由于缺乏透明度，研究人员难以了解和解决LLMs中存在的幻觉和偏见问题，从而阻碍了复制努力和社区进一步发展。在多语言学习场景中，这些挑战变得尤为突出，因为现有的多语言文本数据集通常收集和清洗不足。因此，目前缺乏开源且可立即使用的数据集，可以有效地训练多语言LLMs。为了解决这个问题，研究人员推出了CulturaX，一个包含167种语言、63万亿个标记的大型多语言数据集，专为LLM的开发而设计。该数据集经过严格的多个阶段的细致清洗和去重，以确保模型训练的最佳质量。CulturaX已完全向公众发布，可供研究人员在多语言LLM的研究和进展中使用。

https://www.aminer.cn/pub/650904db3fda6d7f06cd49f3

6.A Distributed Data-Parallel PyTorch Implementation of the Distributed Shampoo Optimizer for Training Neural Networks At-Scale 阅读原文

文章主要讨论了一个名为Shampoo的在线随机优化算法，属于AdaGrad系列方法。它构建了一个块对角预处理器，其中每个块由神经网络每个参数的粗略Kronecker乘积逼近的完整矩阵AdaGrad组成。作者提供了算法的完整描述，并介绍了他们在PyTorch中实现的性能优化，以在大规模深度网络上进行快速多GPU分布式数据并行训练。他们的实现通过PyTorch的DTensor数据结构分配与每个参数块相关的内存和计算，并在每次迭代时对计算的搜索方向执行AllGather原语，这使得性能得到了显著提升。与标准的基于对角缩放的自适应梯度方法相比，每步墙钟时间最多仅降低了10%。作者通过对训练ImageNet ResNet50的消融研究对他们的实现进行了验证，展示了Shampoo相对于标准训练配方在最小超参数调整下的优越性。该文章主要解决了在大规模深度网络训练中使用Shampoo优化算法的性能问题，并展示了Shampoo相对于标准训练方法的优越性。

https://www.aminer.cn/pub/65026d513fda6d7f06474a5c

7.Stack-and-Delay: a new codebook pattern for music generation 阅读原文

在基于语言建模的音乐生成中，使用层次化的令牌堆栈序列来表示生成的波形，可以根据代码本模式进行自回归或并行解码。将代码本扁平化表示是最高质量的解码策略，但速度非常慢。为了解决这个问题，提出了一种新颖的堆栈延迟解码策略，可以改进扁平模式解码，使生成速度比普通扁平解码快四倍。这使得推理时间接近延迟解码策略，并且允许在小批量大小的GPU上进行更快的推理。在与延迟模式相同的推理效率预算下，我们表明所提出的方法在客观评估中表现更好，几乎达到了与扁平模式相同的质量水平。主观评估结果证实，相同的文本提示下，使用新模型生成的样本稍微更常被人们偏好。

https://www.aminer.cn/pub/650904db3fda6d7f06cd4795

8.Adapting Large Language Models via Reading Comprehension 阅读原文

文章讨论了大型语言模型如何通过阅读理解进行适应，揭示了在特定领域语料库上的持续预训练如何影响大型语言模型。研究发现，在原始语料库上训练可以使模型具备领域知识，但严重损害了其回答问题的提示能力。受到人类通过阅读理解实践后提高回答问题能力的启示，研究提出了一种将原始语料库转化为阅读理解文本的简单方法。每个原始文本都通过与其内容相关的一系列任务进行丰富。我们的方法适用于任何预训练语料库，具有高度可扩展性，并在生物医学、金融和法律三个不同领域的各种任务中持续提高性能。值得注意的是，我们的7B语言模型在竞争性能上与更大规模的领域专用模型（如BloombergGPT-50B）相媲美。此外，我们证明领域特定的阅读理解文本甚至可以提高模型在一般基准测试上的性能，显示了在更多领域开发通用模型的潜力。文章提供了模型、代码和数据的可访问性链接。

https://www.aminer.cn/pub/650904f23fda6d7f06cd5276

9.Augmenting text for spoken language understanding with Large Language Models 阅读原文

论文说明了在口语语言理解中，训练强大的模型需要昂贵的语音-转录-语义解析数据，而使用不匹配的文本数据来增强文本是一个挑战。论文通过比较使用现有文本语料库的不匹配文本如何生成语音表示以及如何使用大型语言模型生成不匹配文本来解决这个挑战。在实验证明，使用现有和新领域的不匹配文本可以明显提高性能，而使用生成的文本进行口语语义解析还可以进一步改善性能。

https://www.aminer.cn/pub/650904db3fda6d7f06cd49e9

10.S3-DST: Structured Open-Domain Dialogue Segmentation and State Tracking in the Era of LLMs 阅读原文

在LLM（Large Language Model）基础的聊天系统中，传统的对话状态追踪（DST）问题在开放域对话中面临的许多复杂性。这些复杂性包括上下文交互的增加复杂性、涵盖各种主题的扩展对话会话以及更频繁的上下文转换。为了处理这些由LLM基础的聊天系统引起的复杂性，作者提出了在开放域对话系统中进行联合对话分割和状态追踪的方法。作者假设零-shot设置适用于真正的开放域对话系统，并提出了S3-DST，一种结构化提示技术，利用了作者设计的一种改进长上下文追踪的新型基准机制Pre-Analytical Recollection。为了证明我们提出的联合分割和状态追踪方法的有效性，作者在一份专有的匿名开放域对话数据集和公开可用的DST和分割数据集上评估了S3-DST。在所有数据集和设置中，S3-DST始终优于现有技术，展示了它在下一代LLM基础聊天系统中的潜力和鲁棒性。

https://www.aminer.cn/pub/650904db3fda6d7f06cd47ad/

11.Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference Using Sorted Fine-Tuning (SoFT) 阅读原文

该研究指出了大型语言模型 (LLM) 在自然语言处理 (NLP) 中的广泛应用面临的昂贵成本问题。虽然这些模型在理解和生成类似人类的文本方面表现出色，但它们的大规模使用成本较高。因此，研究者提出了一种名为Sorted Fine-Tuning (SoFT) 的方法，通过排序微调的方式将大型语言模型转化为动态推断模型，无需预训练，并且在相同成本下仅替换标准的监督微调 (SFT)。该方法提高了模型的效率，消除了在推断过程中针对不同场景使用多个模型的需求。研究者还展示了通过这种方法，可以开发中间层的Transformer以生成目标输出。这些子模型仍是原始模型的整体组成部分，降低了存储需求和不同计算/延迟预算之间的转换成本。通过在Stanford Alpaca数据集上对LLaMa 2 13B进行调优，并与常规微调和PandaLM基准中的提前退出进行比较，研究者展示了Sorted Fine-Tuning能够在保持或超过性能的同时将模型速度提高一倍。因此，该研究解决了大型语言模型普及应用中的效率和成本问题。

https://www.aminer.cn/pub/650904db3fda6d7f06cd4839

我们在AMiner网站首页添加了“每日精选新论文”专题，可以点击「订阅」和「加入知识库」，获取全部论文信息！

阅读原文，查看所有精选新论文！

【声明】内容源于网络

AMiner AI

AI帮你理解科学

内容 212

粉丝 0

AMiner AI AI帮你理解科学

总阅读0

粉丝0

内容212