大数跨境
0
0

实时追踪科研动态丨8.4精选新论文,附ChatPaper综述

实时追踪科研动态丨8.4精选新论文,附ChatPaper综述 AMiner AI
2023-08-04
2
导读:ChatPaper,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。

作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。然而,传统的检索和阅读方式已经无法满足科研人的需求。
ChatPaper,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。

结合前沿动态订阅功能,精选arXiv当日热门新论文,形成论文综述,让大家更加快速了解前沿动态。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达ChatPaper页面:https://www.aminer.cn/chat/g/explain
2023年8月4日精选新论文列表:

1.Learning to Model the World with Language 阅读原文

https://www.aminer.cn/pub/64cc77b33fda6d7f06aebc4f/

ChatPaper综述:传统的智能体只通过奖励来学习执行简单的语言指令,而该研究旨在构建能够利用多样的语言来传达通用知识、描述世界状态、提供交互反馈等的智能体。作者认为语言可以帮助智能体预测未来,即预测观察到的内容、世界的行为以及哪些情况会得到奖励。因此,该研究将语言理解与未来预测统一起来作为强大的自监督学习目标。作者提出了一种名为Dynalang的智能体,它学习一个多模态的世界模型,预测未来的文本和图像表示,并通过想象的模型走向学习行动。与传统的智能体只使用语言预测行动不同,Dynalang通过使用过去的语言预测未来的语言、视频和奖励来获得丰富的语言理解能力。除了从环境中的在线交互中学习外,Dynalang还可以在没有行动或奖励的情况下在文本、视频或两者都有的数据集上进行预训练。从在格子世界中使用语言提示到导航逼真的家居扫描,Dynalang利用多样化的语言类型来提高任务性能,包括环境描述、游戏规则和指示等。因此,该研究主要是解决如何建立语言理解与未来预测相结合的智能体的问题。

2.Multimodal Neurons in Pretrained Text-Only Transformers  阅读原文

https://www.aminer.cn/pub/64cc77b33fda6d7f06aebd0a/

ChatPaper综述:论文研究了语言模型在跨模态任务中将在一种模态中学习到的表示推广到其他模态的能力。研究者们使用了一种被冻结的文本转换器,并通过自监督的视觉编码器和在图像到文本任务上学习的单一线性投影来增强视觉功能。投影层的输出不能直接解码成描述图像内容的语言,而是发现模态之间的转换发生在转换器的更深层次。研究者们引入了一种识别将视觉表示转换成对应文本的“多模态神经元”的程序,并解码它们注入模型的剩余流的概念。在一系列实验中,他们展示了多模态神经元在输入中对特定的视觉概念进行操作,并对图像字幕生成有系统性的因果影响。

3.MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies阅读原文

https://www.aminer.cn/pub/64cc77b33fda6d7f06aebd0d/

ChatPaper综述:在音乐生成中存在一些独特的挑战,包括音乐数据的有限可用性以及与版权和剽窃相关的敏感问题。为了解决这些问题,作者构建了一个名为MusicLDM的最先进的文本生成音乐模型,该模型利用了稳定扩散和AudioLDM架构,并通过在音乐数据样本集上重新训练对比性语言-音频预训练模型(CLAP)和Hifi-GAN声码器来实现。然后,为了解决训练数据的限制并避免剽窃,作者使用一个节拍跟踪模型,并提出了两种不同的混合策略进行数据增强:节拍同步音频混合和节拍同步潜在混合,分别通过直接重新组合训练音频或通过潜在嵌入空间重新组合来鼓励模型插值训练样本之间,并在训练数据的凸包内生成新的音乐,使生成的音乐更加多样化,同时仍然忠实于相应的风格。除了常见的评估指标外,作者还设计了几个基于CLAP评分的新评估指标,以证明他们提出的MusicLDM和节拍同步混合策略改善了生成音乐的质量和新颖性,以及输入文本和生成音乐之间的对应关系。

4.Scaling Relationship on Learning Mathematical Reasoning with Large Language Models阅读原文

https://www.aminer.cn/pub/64cc77ba3fda6d7f06aec6a3/

ChatPaper综述:论文探讨了使用大型语言模型(LLMs)进行数学推理的挑战,以及它与LLM容量的扩展关系。作者研究了预训练损失、监督数据量和增强数据量对监督LLM的推理性能的影响。他们发现,预训练损失是模型性能的更好指标,而不是模型参数数量。作者应用不同数量的监督数据进行监督微调(SFT),并在实证研究中发现数据量和模型性能之间存在对数线性关系,并且发现更好的模型在扩大的监督数据集上改进的程度更小。为了增加更多的数据样本以提高模型性能,作者提出了拒绝采样微调(RFT)方法。RFT使用监督模型生成和收集正确推理路径作为增强微调数据集。作者发现,具有更多不同推理路径的增强样本对LLMs的数学推理性能改进更大。他们还发现,RFT对性能较低的LLMs带来的改进更大。此外,他们结合了多个模型的拒绝样本,使LLaMA-7B的准确率达到49.3%,显著优于35.9%的监督微调准确率。

5.Ambient Adventures: Teaching ChatGPT on Developing Complex Stories阅读原文

https://www.aminer.cn/pub/64cc77ba3fda6d7f06aec646/

ChatPaper综述:研究旨在使用大型语言模型 (LLM) 的故事生成功能,以人工编写的提示获取用于虚拟游戏的故事。这些生成的故事将被简化并映射成行动序列,以引导机器人在虚拟游戏中进行互动。为了评估机器人是否能成功完成虚拟游戏,研究还设计了一个文本冒险游戏,将一栋房子模拟成机器人的游戏场所。因此,该研究主要涉及到如何通过语言模型和游戏来教授机器人开发复杂故事的能力。

6.OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models 阅读原文

https://www.aminer.cn/pub/64cc77b33fda6d7f06aebc46/

ChatPaper综述:研究旨在使用大型语言模型 (LLM) 的故事生成功能,以人工编写的提示获取用于虚拟游戏的故事。这些生成的故事将被简化并映射成行动序列,以引导机器人在虚拟游戏中进行互动。为了评估机器人是否能成功完成虚拟游戏,研究还设计了一个文本冒险游戏,将一栋房子模拟成机器人的游戏场所。因此,该研究主要涉及到如何通过语言模型和游戏来教授机器人开发复杂故事的能力。

7.The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World阅读原文

https://www.aminer.cn/pub/64cc77ba3fda6d7f06aec6f4/

ChatPaper综述:介绍了All-Seeing项目,该项目旨在进行广阔的视觉识别和理解研究,以识别和理解开放世界中的所有事物。作者使用了一个可扩展的数据引擎,结合人类反馈和高效模型,创建了一个新的数据集(AS-1B),该数据集标注了超过10亿个带有语义标签、问答对和详细说明的区域。该数据集涵盖了现实世界中350万个常见和罕见概念,并拥有1322亿个描述这些概念及其属性的标记。利用这个新数据集,作者开发了All-Seeing模型(ASM),一个统一的框架,用于全景视觉识别和理解。该模型通过开放式的语言提示和位置进行训练,使其能够在各种视觉和语言任务中具有卓越的零-shot性能,包括区域文本检索、区域识别、字幕生成和问答。作者希望这个项目可以为视觉-语言人工通用智能研究提供基础。

8.DETR Doesn't Need Multi-Scale or Locality Design 阅读原文

https://www.aminer.cn/pub/64cc77ba3fda6d7f06aec6f1/

ChatPaper综述:论文说明了在目标检测中,之前的一些基于DETR的检测器引入了多尺度和局部性的架构偏置,而本文提出的改进版本的DETR检测器保持了“简单”的特性,使用单一尺度的特征图和全局跨注意力计算,不需要特定的局部性约束。作者展示了在“简单”设计中使用两种简单的技术可以弥补缺乏多尺度特征图和局部性约束的问题。第一种技术是在跨注意力公式中添加一个盒子到像素相对位置偏置(BoxRPB)项,该项可以很好地引导每个查询关注相应的目标区域,并提供编码的灵活性。第二种技术是基于掩码图像建模(MIM)的主干预训练,它有助于学习具有细粒度定位能力的表示,并且对于纠正对多尺度特征图的依赖至关重要。通过结合这些技术和最近的训练和问题形成的进展,改进的“简单”DETR相对于原始DETR检测器表现出了显著的改进。通过利用Object365数据集进行预训练,它使用Swin-L主干网络实现了63.9 mAP的准确性,与依赖于多尺度特征图和基于区域的特征提取的最先进检测器相比具有很高的竞争力。

9.Scientific discovery in the age of artificial intelligence阅读原文

https://www.aminer.cn/pub/64cb4fb63fda6d7f06fecb8b/

ChatPaper综述:文章主要讨论了人工智能在科学发现中的应用,并强调了在过去十年中取得的突破。人工智能系统可以帮助科学家生成假设、设计实验、收集和解释大数据集,并获得传统科学方法无法实现的洞见。文章讨论了一些重要的进展,如自监督学习和几何深度学习,以及生成性人工智能方法。它们可以通过分析不同的数据模态,包括图像和序列,创造设计,如小分子药物和蛋白质。然而,文章也指出了尽管这些进展,科学发现仍然面临的核心问题,如数据质量和管理不佳。需要开发更好的算法方法来解决这些问题,这些问题跨越了各个科学领域,并需要在人工智能创新中成为重点关注领域。



如何使用ChatPaper?

使用ChatPaper的方法很简单,打开AMiner首页,从页面顶部导航栏或者右下角便可进入ChatPaper页面。

在ChatPaper页面中,可以选择基于单篇文献进行对话和基于全库(个人文献库)对话,可选择上传本地PDF或者直接在AMiner上检索文献。

如果您有任何问题或建议,欢迎随时联系我们。
阅读原文,直达ChatPaper!

【声明】内容源于网络
0
0
AMiner AI
AI帮你理解科学
内容 212
粉丝 0
AMiner AI AI帮你理解科学
总阅读0
粉丝0
内容212