

1.Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection 阅读原文
论文介绍了一种名为 Self-RAG 的新框架,通过自我反思来提高语言模型的质量和真实性。现有的大型语言模型 (LLMs) 通常由于仅依赖于它们参数化的知识而产生包含事实错误的响应。检索增强生成 (RAG) 是一种临时方法,通过检索相关知识来增强 LLMs,从而减少这种问题。然而,不论检索是否必要,不分检索到的段落是否相关,一概检索并包含固定数量的检索到的段落,会降低 LLM 的灵活性,或导致生成无帮助的响应。Self-RAG 框架通过检索和自我反思来增强 LLM 的质量和平事实性。该框架训练一个单一的任意 LLM,根据需要自适应地检索段落,并使用特殊标记(称为反思标记)生成和反思检索到的段落及其自身的生成。生成反思标记使得 LLM 在推理阶段可控,从而使其行为适应多样化的任务要求。实验结果表明,Self-RAG(7B 和 13B 参数)在多样化的任务上显著优于最先进的 LLMs 和检索增强模型。具体而言,Self-RAG 在开放领域问答、推理和事实验证任务上优于 ChatGPT 和检索增强的 Llama2-chat,并且相对于这些模型,它在提高长篇生成的准确性和引文准确性方面取得了显著的进步。
https://www.aminer.cn/pub/65309159939a5f4082843d1b?f=wb
2.Progressive3D: Progressively Local Editing for Text-to-3D Content Creation with Complex Semantic Prompts 阅读原文
论文介绍了一种名为 Progressive3D 的通用框架,用于生成具有复杂语义提示的文本到 3D 内容。现有的文本到 3D 生成方法由于图像扩散模型和优化策略的进步,能够实现令人印象深刻的 3D 内容生成能力。然而,这些方法在处理复杂语义提示(描述多个相互作用的对象并具有不同属性)时,往往难以生成正确的 3D 内容。Progressive3D 框架将整个生成过程分解为一系列局部渐进式编辑步骤,以创建精确的 3D 内容,并仅在用户定义的区域提示决定的区域中约束内容更改。此外,我们提出了一种重叠语义组件抑制技术,以鼓励优化过程更多地关注提示之间的语义差异。实验结果表明,Progressive3D 框架能够为具有复杂语义的提示生成精确的 3D 内容,并适用于各种由不同 3D 表示驱动的文本到 3D 方法。
https://www.aminer.cn/pub/65309159939a5f4082843e31?f=wb
3.MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models 阅读原文
论文介绍了一种名为 MusicAgent 的 AI 代理,用于音乐理解和生成。它涵盖了许多音乐处理任务,如生成任务(例如音色合成)和理解任务(例如音乐分类)。由于音乐数据表示和模型适用性在各种任务之间存在巨大差异,因此对于开发人员和爱好者来说,掌握所有这些任务以满足他们在音乐处理中的需求非常困难。因此,有必要建立一个系统来组织和整合这些任务,从而帮助实践者自动分析他们的需求并调用合适的工具作为解决方案来满足他们的要求。受到大型语言模型(LLMs)在任务自动化方面取得最新成功的影响,我们开发了一个名为 MusicAgent 的系统,该系统整合了许多音乐相关工具和自主工作流以解决用户需求。具体来说,我们建立了 1)工具集,从各种来源收集工具,包括 Hugging Face、GitHub 和 Web API 等。2)一个由 LLM(例如 ChatGPT)赋能的自主工作流,以组织这些工具并自动将用户请求分解为多个子任务并调用相应的音乐工具。该系统的主要目标是让用户摆脱 AI-音乐工具的复杂性,让他们专注于创意方面。通过赋予用户轻松组合工具的自由,该系统提供了无缝且丰富的音乐体验。
https://www.aminer.cn/pub/65309159939a5f4082843ede?f=wb
4.Multi-view Contrastive Learning for Entity Typing over Knowledge Graphs 阅读原文
这篇论文介绍了一种名为 Multi-view Contrastive Learning for knowledge graph Entity Typing (MCLET) 的新方法,用于在知识图中推断实体的可能类型。现有的知识图实体类型推断方法主要关注如何将实体周围的邻居和类型编码到其表示中,但忽略了类型可以聚类在一起提供的语义知识。MCLET 由三个模块组成:i) 多视角生成与编码器模块,用于从实体-- 类型、实体-- 聚类和聚类-- 类型视图编码结构化信息;ii) 跨视角对比学习模块,鼓励不同视图合作改进实体和类型的视图特定表示;iii) 实体类型预测模块,将多头注意力和专家混合策略相结合以推断缺失的实体类型。实验结果表明,MCLET 相对于最先进的方法的性能非常强大。
https://www.aminer.cn/pub/65309159939a5f4082843f13?f=wb
5.A Comprehensive Survey on Vector Database: Storage and Retrieval Technique, Challenge 阅读原文
这篇论文对向量数据库进行了全面的调查,包括存储和检索技术以及挑战。向量数据库用于存储传统数据库管理系统无法描述的高维数据。尽管关于现有或新型向量数据库架构的文章并不多,但向量数据库背后的近似最近邻搜索问题已经研究了很长时间,可以在文献中找到很多相关的算法文章。本文试图全面回顾相关算法,为读者提供一个关于这个繁荣的研究领域的全面了解。我们的框架基于解决 ANNS 问题的方法对这些研究进行了分类,分别是基于哈希、树、图和量化方法的。然后,我们概述了向量数据库目前面临的挑战。最后,我们勾画了如何将向量数据库与大型语言模型相结合,从而提供新的可能性。
https://www.aminer.cn/pub/65309159939a5f4082843ddf?f=wb
6.Masked Pretraining for Multi-Agent Decision Making 阅读原文
论文探讨了在多代理决策中使用掩蔽预训练的问题。最近,在决策制定方面,构建具有零射击能力的单一专家智能体已经取得了显著进展。然而,将这种能力扩展到多代理场景中会带来挑战。目前大多数工作在零射击能力方面都存在困难,这是多代理设置特有的两个挑战:集中预训练与分散执行之间的不匹配,以及代理数量和动作空间的变化,这使得在不同下游任务中创建通用表示变得困难。为了克服这些挑战,我们提出了一个用于多代理决策的掩蔽预训练框架 (MaskMA)。这个基于变形器架构的模型采用了一种基于掩蔽的协作学习策略,适合于部分观察的分散执行。此外,MaskMA 通过将动作空间划分为自我信息相关动作和其他实体相关动作,整合了一个可通用的动作表示。这种灵活性允许 MaskMA 处理具有不同代理数量的任務,因此具有不同的动作空间。在 SMAC 上的大量实验表明,通过分散执行,MaskMA 在一个模型预训练的 11 个训练地图上,可以在 60 个未见过的测试地图上实现令人印象深刻的 77.8% 零射击胜率,同时还在其他类型的下游任务 (如各种策略协作和临时团队游戏) 中表现出色。
https://www.aminer.cn/pub/65309159939a5f4082843e70?f=wb
我们在AMiner网站首页添加了“每日精选新论文”专题,可以点击「订阅」和「加入知识库」,获取全部论文信息!

阅读原文,查看所有精选新论文!

