

这篇论文介绍了一项名为LLaVA-Interactive的研究原型,它是一个用于多模态人机交互的系统。该系统能够通过接收多模态用户输入并生成多模态响应,与人类用户进行多轮对话。重要的是,LLaVA-Interactive不仅限于语言提示,而是通过启用视觉提示来在交互中对齐人类意图。LLaVA-Interactive的开发非常高效,因为它结合了三个预构建的AI模型的多模态技能,而无需进行额外的模型训练:LLaVA的视觉聊天、SEEM的图像分割,以及GLIGEN的图像生成和编辑。通过展示一系列应用场景,论文展示了LLaVA-Interactive的潜力,并激发了未来关于多模态交互系统的研究。
https://www.aminer.cn/pub/65430613939a5f40829d362e/?f=wx
2.De-Diffusion Makes Text a Strong Cross-Modal Interface阅读原文
这篇论文展示了一种利用文本作为强大的跨模态接口的方法。与以往通过深度嵌入来连接图像和语言作为接口表示的方法不同,该方法将图像表示为文本,从而利用自然语言的解释性和灵活性。通过使用预训练的文本到图像扩散模型进行解码的自动编码器,该方法将输入图像转换为文本,然后将其输入到固定的文本到图像扩散解码器中进行重构,这个过程被称为去扩散。实验验证了去扩散文本表示图像的精确性和全面性,使其可以被现成的文本到图像工具和大型语言模型(LLMs)广泛应用于多种多模态任务。例如,单个去扩散模型可以泛化并提供可转移的提示,以适应不同的文本到图像工具,同时在仅用少量示例提示大型语言模型的基础上,实现了开放视觉语言任务的新的最先进水平。
https://www.aminer.cn/pub/65430613939a5f40829d365e/?f=wx
3.ChipNeMo: Domain-Adapted LLMs for Chip Design阅读原文
这篇论文介绍了ChipNeMo项目,旨在探讨大型语言模型(LLMs)在芯片设计工业应用中的作用。与直接部署现成的商业或开源LLM不同,作者采用了以下领域自适应技术:自定义标记器、领域自适应持续预训练、有监督的精调(SFT)以及领域自适应检索模型。作者在三个选定的LLM芯片设计应用上评估了这些方法:工程助手聊天机器人、EDA脚本生成和错误摘要和分析。结果表明,这些领域自适应技术使三个评估应用中的LLM性能明显优于通用基础模型,同时在各种设计任务上实现了高达5倍的模型大小减少和类似或更好的性能。研究结果还表明,当前的结果与理想结果之间仍有改进的空间。作者认为,对领域自适应LLM方法进一步的研究将有助于在未来缩小这一差距。
https://www.aminer.cn/pub/65430613939a5f40829d34a0/?f=wx
4.Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling阅读原文
这篇论文介绍了Distil-Whisper: 通过大规模伪标记进行稳健的知识蒸馏。随着预训练语音识别模型规模的增大,在低延迟或资源受限的环境中运行这些大型模型变得越来越具有挑战性。在本文中,作者利用伪标记来组装一个大规模的开源数据集,并使用该数据集将Whisper模型蒸馏成一个较小的变体,称为Distil-Whisper。通过简单的词错误率(WER)启发式方法,仅选择最高质量的伪标签进行训练。Distil-Whisper模型的速度是原模型的5.8倍,参数数量减少了51%,同时在零散射转移设置下,对分布外测试数据的WER小于1%。Distil-Whisper保持了Whisper模型对困难声学条件的鲁棒性,同时在长格式音频上不容易产生幻想错误。Distil-Whisper被设计成与Whisper配对进行推测解码,速度提高2倍,同时数学上保证与原模型的输出相同。为了促进这一领域的研究,作者公开发布了训练代码、推理代码和模型。
https://www.aminer.cn/pub/65430613939a5f40829d35a0/?f=wx
5.The Generative AI Paradox: "What It Can Create, It May Not Understand"阅读原文
这篇论文探讨了生成式人工智能(Generative AI)的悖论:“它可以创造,但却可能无法理解”。论文指出,最近生成式人工智能的快速发展引发了全球范围内的关注,人们既感到兴奋,又担忧可能超越人类的人工智能。然而,这些模型在理解方面仍然存在基本错误,这是甚至连非专家人类都不会犯的错误。这让我们面临一个看似悖论的问题:我们如何协调看似超越人类的能力和错误的存在?
作者认为,这种紧张关系反映了当今生成模型与人类智能之间的配置差异。具体来说,他们提出了生成式人工智能悖论假设:生成模型经过直接训练以重现专家级别的输出,获得了与生成能力无关的——因此可能超过——理解相同类型输出的能力。这与人类不同,对于人类来说,基本理解几乎总是先于生成专家级别输出的能力。
作者通过对照实验分析了生成模型中的生成与理解,包括语言和图像两种模态。结果表明,尽管模型在生成方面可以超越人类,但在理解方面始终未能达到人类水平,同时生成与理解表现之间的相关性较弱,对抗性输入下的脆弱性也较高。这些发现支持了生成能力可能不取决于理解能力的假设,并呼吁在解释人工智能时要谨慎使用类比人类智能的方式。
https://www.aminer.cn/pub/65430613939a5f40829d342b/?f=wx
6.Grounding Visual Illusions in Language: Do Vision-Language Models Perceive Illusions Like Humans?阅读原文
这篇论文探讨了视觉错觉在语言中的基础问题:视觉语言模型(VLM)是否像人类一样感知错觉?视觉语言模型通过大量由人类捕捉的数据进行训练,以模拟我们理解世界的方式。然而,人类对现实的感知并不总是与物理世界相符,这引发了一个关键问题:视觉语言模型是否具有与人类相似的错觉,或者它们是否忠实于现实?为了解决这个问题,作者构建了一个包含五种类型视觉错觉的数据集,并制定了四个任务来检查最先进的视觉语言模型中的视觉错觉。研究结果表明,尽管总体对齐度较低,但大型模型更接近人类感知,更容易受到视觉错觉的影响。作者的数据集和初步发现将促进对人类和机器中视觉错觉的更好理解,并为未来计算模型提供了一个跳板,以便在感知和交流共享的视觉世界中更好地对齐人类和机器。代码和数据可在此处获得:https://github.com/vl-illusion/dataset。
https://www.aminer.cn/pub/65430613939a5f40829d341f/?f=wx
7.AMSP: Super-Scaling LLM Training via Advanced Model States Partitioning阅读原文
这篇论文介绍了一种名为AMSP(高级模型状态划分)的训练大型语言模型(LLM)的新框架。现有的LLM在各种下游任务中表现出色,而在训练这些模型时,越来越多的趋势是在相对较小的模型尺寸下处理更多的标记并在更大的训练规模上进行训练。虽然零冗余优化器(ZeRO)在传统的训练环境中非常有效,但当面对这种新兴范式时,它面临着扩展挑战。因此,作者提出了一种新颖的LLM训练框架AMSP,它对模型状态进行了颗粒度划分,包括参数($P$)、梯度($G$)和优化器状态($OS$)。具体来说,AMSP(1)构建了一个统一的划分空间,使$P$、$G$和$OS$能够独立地进行划分策略;(2) 融入了一个具有感知规模的划分器来自主搜索最优划分策略;(3) 设计了一个专门的通信优化器,以确保有效地管理由不同的划分策略产生的数据放置差异。作者的评估结果显示,AMSP在1024个GPU上的扩展效率最高可达90.3%。
https://www.aminer.cn/pub/65430613939a5f40829d34f2/?f=wx
8.Controllable Music Production with Diffusion Models and Guidance Gradients阅读原文
这篇论文研究了如何使用扩散模型和采样时间指导来解决音乐制作中的各种现实任务。在44.1kHz立体音频的条件下,我们考虑了音乐音频的延续、修复和再生、两首不同音乐曲目之间平滑过渡的创建,以及将所需风格特征转移到现有音频片段的过程。我们通过在一个简单的框架中应用采样时间的指导,同时支持重建和分类损失,或两者的任意组合,来实现这一目标。这种方法确保生成的音频可以匹配其周围环境,或者符合任何合适的预训练分类器或嵌入模型指定的类分布或潜在表示。
https://www.aminer.cn/pub/65430613939a5f40829d3659/?f=wx
9.ChatCoder: Chat-based Refine Requirement Improves LLMs' Code Generation阅读原文
如何使用AMiner AI?
使用AMiner AI的方法很简单,打开AMiner首页,从页面顶部导航栏或者右下角便可进入AMiner AI页面。

在AMiner AI页面中,可以选择基于单篇文献进行对话和基于全库(个人文献库)对话,可选择上传本地PDF或者直接在AMiner上检索文献。

