大数跨境
0
0

实时追踪科研动态丨7.3精选新论文,附ChatPaper综述

实时追踪科研动态丨7.3精选新论文,附ChatPaper综述 AMiner AI
2023-07-03
1
导读:好消息,AMiner 近期上线了ChatPaper对话功能!现在,在AMiner上就能直接免费使用ChatP

好消息,AMiner 近期上线了ChatPaper对话功能!现在,在AMiner上就能直接免费使用ChatPaper对话功能啦。

ChatPaper是一款集检索、阅读、知识问答于一体的对话式私有知识库,它可以作为你的科研助手,随时随地的回答你的疑问。

结合前沿动态订阅功能,精选arXiv当日热门新论文,形成论文综述,让大家更加快速了解前沿动态。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达ChatPaper页面:https://www.aminer.cn/chat/g/

1.ArrayBot: Reinforcement Learning for Generalizable Distributed Manipulation through Touch 论文详情页

链接:https://www.aminer.cn/pub/649e52c5d68f896efae487b3/

ChatPaper综述:本文介绍了 ArrayBot 系统,它是一个利用触觉进行分布式控制的机器人系统。系统由一个 16 x 16 的垂直滑动支柱数组组成,并集成了触觉传感器,可以同时支持、感知和操纵桌面物体。为了实现可泛化的分布式控制,本文利用强化学习算法自动发现控制策略。针对大量冗余动作的问题,本文提出了在频率域中考虑低频率动作的建议,并重新塑造了动作空间。通过这种方式,本文训练了 RL 代理,能够通过触觉观察来移动各种物体。令人惊奇的是,我们发现发现的 Policy 不仅可以在模拟器中泛化到未看到的物体形状,还可以在物理机器人上自然地迁移。利用部署的 Policy,本文展示了许多实际分布式控制任务,展示了 RL 在 ArrayBot 上的巨大潜力。

2.Generate Anything Anywhere in Any Scene 论文详情页

链接:https://www.aminer.cn/pub/649e52c5d68f896efae488e1/

ChatPaper综述:这篇论文介绍了一种能够生成任意场景、任意地点和任意物体的文本到图像扩散模型。然而,该领域仍然存在一些挑战,例如创建可控制的个人化对象生成模型。为了解决这些挑战,该论文提出了一种简单而高效的数据增强训练策略,该策略指导扩散模型专注于对象身份。通过插入预训练的可控制扩散模型中的可插拔适配层,该模型获得了控制每个生成个人化对象的位置和大小的能力。在推理期间,该论文提出了一种区域指导采样技术,以保持生成图像的质量和精度。该方法在个人化对象方面实现了与性能卓越的模型相当的精度,从而生成了可靠、灵活和可控制的文本到图像扩散模型,可以用于各种应用,例如艺术、娱乐和广告设计。

3.One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization 论文详情页

链接:https://www.aminer.cn/pub/649e52c5d68f896efae487fc/

ChatPaper综述:这篇论文提出了一种新方法,可以在单个馈通过程中将任何输入图像转换为 3D 网格。该方法使用 view-conditioned 2D 扩散模型 Zero123 生成多个视角的图像,并将其提升到 3D 空间。由于传统重建方法难以处理不一致的多视角预测,因此该方法基于 SDF 的可扩展神经表面重建方法构建了 3D 重建模块,并提出了一些关键训练策略,以支持 360 度网格重建。与现有方法不同,该方法无需昂贵的优化,因此能够在比现有方法更快地重建 3D 形状的同时,产生更好的几何形状,更一致的 3D 结果,并且更贴近输入图像。该方法还在实验中将自身与现有方法进行比较,并在无论是合成数据还是真实图像方面都表现出更好的性能。此外,该方法还能够无缝支持文本到 3D 的任务,可以通过集成现有的文本到图像扩散模型来实现。

4.DreamDiffusion: Generating High-Quality Images from Brain EEG Signals 论文详情页

链接:https://www.aminer.cn/pub/649e52c5d68f896efae48802/

ChatPaper综述:这篇论文介绍了一种新方法,可以利用脑电图 (EEG) 信号直接生成高质量的图像,而不需要将想法转换为文本。该方法利用预训练的文本到图像模型,并使用时间掩码信号建模来预训练 EEG 编码器,以获得有效和鲁棒的 EEG 表示。此外,方法还利用 CLIP 图像编码器来提供额外的监督,以更好地对齐 EEG、文本和图像嵌入,同时利用有限的 EEG-图像对。总的来说,提出的方法克服了使用 EEG 信号生成图像的挑战,如噪声、信息有限和个人差异,并取得了良好的结果。量化和定性结果表明,该方法的有效性,是迈向便携和低成本“想法到图像”的重要一步,具有潜在的神经科学和计算机视觉应用。

5.OBELISC: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents 论文详情页

链接:https://www.aminer.cn/pub/649e52bfd68f896efae47f7f/

ChatPaper综述:这篇论文介绍了一个名为 OBELISC 的开放 web-scale 过滤图像文本文档数据集。该数据集包括从 Common Crawl 中抽取的 141 百万个网页、353 百万个关联图像和 115 百亿个文本字符。我们描述了数据集的生成过程,展示了全面的过滤规则,并对该数据集的内容进行了分析。为了展示 OBELISC 的可行性,我们在该数据集上训练了一个包含 80 百亿参数的视语言模型,并取得了在各种多模态基准上竞争表现优异的成绩。我们还发布了用于重现数据集的代码,并与数据集一同发布。

6.Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors 论文详情页

链接:https://www.aminer.cn/pub/649e52c5d68f896efae488e3/

ChatPaper综述:这篇论文研究了生成人工智能在编程教育中的应用,比较了 ChatGPT、GPT-4 和人类教师在不同编程教育场景中的表现。结果表明,GPT-4 在大多数场景中都远远优于 ChatGPT,并且几乎与人类教师的表现相同。同时,研究还指出 GPT-4 在个别场景中仍然存在困难,为开发更好的生成人工智能模型提供了激动人心的未来方向。

7.LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding 论文详情页

链接:https://www.aminer.cn/pub/649e52c5d68f896efae488b2/

ChatPaper综述:这篇论文探讨了如何使用视觉指令来增强大型语言模型 (LLM) 对文本丰富的图像的理解能力。传统的视觉指令 Tuning 方法主要关注图像的视觉特征,而忽略了文本特征。而本工作将文本丰富的图像 (如电影海报、书籍封面等) 作为输入,通过使用公开可用的 OCR 工具对图像进行文本提取,并使用 GPT-4 生成对话,从而生成 16000 个包含问答对的对话。将收集的数据与以前的多模态指令跟随数据相结合,我们的模型 LLaVAR 在文本 VQA 数据集上的性能得到了显著提高 (最高 20% 的准确率提高),并在科学 QA 数据集上达到了 91.42% 的准确率。通过 GPT-4 基于视觉指令的评价,也证明了我们的模型在自然图像和文本丰富的图像上的性能提高。通过定性分析,LLaVAR 表现出了对人类交互能力的积极反应,如推理、写作和详细阐述等能力,基于最新的结合了文本和图像的在线内容。

8.Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors 论文详情页

链接:https://www.aminer.cn/pub/64a24721d68f896efaa52b9f/

ChatPaper综述:该论文提出了一种名为 Magic123 的两种阶段粗到细的方法,用于从单个未定位的野外图像生成高质量、纹理丰富的 3D 网格。在第一阶段,我们优化了神经辐射场,以生成粗几何。在第二阶段,我们使用内存高效的同构网格表示,以生成高分辨率网格,并赋予视觉上吸引人的纹理。在两个阶段中,通过使用 2D 和 3D 扩散先验来指导观察视图和新颖视图的学习。我们引入了一个 2D 和 3D 先验之间的权衡参数来控制生成几何的探险 (更富有想象力) 和利用 (更精确)。此外,我们还使用了文本逆化和单目深度正则化,以鼓励跨视图一致性和防止退化解决方案。Magic123 在广泛的实验中对以前的图像到 3D 技术实现了显著的改进。

9.Stay on topic with Classifier-Free Guidance 论文详情页

链接:https://www.aminer.cn/pub/64a24721d68f896efaa52b79/

ChatPaper综述:这篇论文介绍了一种名为“Classifier-Free Guidance (CFG)”的 lightweight 技术,用于在文本到图像生成中鼓励生成与提示保持一致。在这项工作中,作者表明 CFG 可以广泛应用于纯语言建模中的各种任务,如问答、推理、代码生成和机器翻译,并实现了 LAMBADA 排行榜上最好的结果。作者还表明 CFG 可以与 Chain-of-Thought 和 Self-Consistency 等其他 inference-time 方法一起使用,在困难的任务中取得进一步的进步。此外,作者还展示了 CFG 可以增加在形式驱动和内容驱动的提示下助手的忠实性和连贯性。在人类评估中,作者表明 75% 的用户更喜欢使用 CFG 的 GPT4All 模型胜过基线。

10.ChatGPT for Robotics: Design Principles and Model Abilities 论文详情页

链接:https://www.aminer.cn/pub/64a24721d68f896efaa52a84/

ChatPaper综述:这篇论文描述了使用 OpenAI 的 ChatGPT 进行机器人应用程序的实验研究。论文提出了一种结合 prompt engineering 设计和高级别函数库的策略,使 ChatGPT 能够适应不同的机器人任务、模拟器和界面。研究重点评估了不同 prompt engineering 技术和对话策略对机器人任务执行的有效性。我们还探索了 ChatGPT 自由式对话、XML 标签解析和代码合成的能力,以及使用任务特定的 prompting 函数和对话循环进行闭环推理。我们的研究涵盖了机器人领域的各种任务,从基本的逻辑思维、几何学和数学推理到复杂的领域,如无人机导航、操纵和实体机器人。我们表明 ChatGPT 可以有效地解决这些任务,同时允许用户主要通过自然语言指令与其交互。此外,我们还介绍了一个开源研究工具 PromptCraft,其中包含一个平台,使研究人员可以共同上传和投票适用于机器人应用程序的良好 prompting 方案,以及一个包含 ChatGPT 集成的机器人模拟器,使用户更容易开始使用 ChatGPT 进行机器人应用程序。

11.Preference Ranking Optimization for Human Alignment 论文详情页

链接:https://www.aminer.cn/pub/64a2471bd68f896efaa52455/

ChatPaper综述:这篇论文讨论了如何让大型语言模型 (LLM) 更符合人类价值观,以确保 AI 系统的安全和可靠。传统的基于人类反馈的强化学习方法 (RLHF) 已经被用于实现这种对齐,这种方法结合了一个奖励模型,通常基于 Bradley-Terry paired comparison,并与强化学习算法如 Proximal Policy Optimization(PPO) 相结合来优化 LLM 响应。然而,RLHF 具有复杂性,不稳定性以及对超参数的敏感性。因此,本文提出了一种新的方法 Preference Ranking Optimization(PRO),以替代 PPO,直接对齐 LLM 与 Bradley-Terry 对比。PRO 扩展了 pairwise Bradley-Terry 对比以适应任何长度的偏好排名。通过迭代比较生成响应的概率,PRO 指示 LLM 优先考虑最好的响应,同时逐步排名剩余的响应。这样,PRO 有效地将人类对齐转化为对齐 LLM 生成的$n$个响应的概率排名与人类对这些响应的偏好排名。实验表明,PRO 比现有的对齐算法表现更好,与 ChatGPT 和人类响应进行了比较,并通过自动、奖励、GPT-4 和人类评估进行了验证。此外,我们展示了更长、更多样化和高质量的偏好排名序列可以持续提高人类对齐的性能。


— 如何使用ChatPaper? —

使用Chatpaper的方法很简单,打开AMiner首页,从页面顶部导航栏或者右下角便可进入ChatPaper页面。

在ChatPaper页面中,可以选择基于单篇文献进行对话和基于全库(个人文献库)对话,可选择上传本地PDF或者直接在AMiner上检索文献。

如果您有任何问题或建议,欢迎随时联系我们。
阅读原文,直达ChatPaper!

【声明】内容源于网络
0
0
AMiner AI
AI帮你理解科学
内容 419
粉丝 0
AMiner AI AI帮你理解科学
总阅读207
粉丝0
内容419