大数跨境
0
0

实时追踪科研动态丨6.14精选新论文,附ChatPaper综述

实时追踪科研动态丨6.14精选新论文,附ChatPaper综述 AMiner AI
2023-06-14
2
导读:每日更新arXiv热门论文!

作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。然而,传统的检索和阅读方式已经无法满足科研人的需求。
ChatPaper,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。

结合前沿动态订阅功能,精选arXiv当日热门新论文,形成论文综述,让大家更加快速了解前沿动态。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达ChatPaper页面:https://www.aminer.cn/chat/g/
2023年6月14日精选新论文列表:

1. One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning 论文详情页 

链接:https://www.aminer.cn/pub/64893b17d68f896efa982779

ChatPaper综述:该论文提出了一种名为Generalized LoRA(GLoRA)的方法,用于通用参数效率微调任务。该方法基于Low-Rank Adaptation(LoRA)并使用一个通用的提示模块来优化预训练模型权重和调整中间激活状态,提供更多灵活性和能力,适用于各种任务和数据集。此外,GLoRA通过采用可扩展、模块化、逐层结构搜索的方式来实现高效的参数适应,学习每个层的适配器。通过统一的数学公式,GLoRA具有强大的迁移学习、少样本学习和领域泛化能力,可以通过权重和激活状态的额外维度来适应新的任务。全面的实验表明,GLoRA在各种数据集上的自然、专业和结构化基准测试中均优于以往的所有方法,达到更高的准确性,且具有更少的参数和计算。此外,他们的结构重新参数化设计确保GLoRA不会产生额外的推理成本,使其成为资源受限应用的实用解决方案。论文中还提供了GLoRA的代码链接。

2. WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences 论文详情页

链接:https://www.aminer.cn/pub/64893b17d68f896efa9826b7

ChatPaper综述:本文介绍了一种名为WebGLM的基于通用语言模型(GLM)的增强型问答系统,旨在通过利用网络搜索和检索能力来增强大型语言模型(LLM),同时具有实际部署的高效性。为了达到这个目的,作者通过增强LLM的检索器、引导生成器和人类偏好感知评分器来开发WebGLM,并提出了评估Web增强型问答系统的系统性标准。通过人类评估和数量消融研究,作者证明了WebGLM相对于现有系统的优势,其优化的10亿参数GLM表现优于类似尺寸的WebGPT(13B),甚至与WebGPT(175B)相当。

3. Image Captioners Are Scalable Vision Learners Too 论文详情页

链接:https://www.aminer.cn/pub/64893b17d68f896efa9826d3

ChatPaper综述:这篇文章证明了原本被认为相对较弱的图像字幕生成可以作为一种有效的预训练策略,其产生的视觉编码器在分类任务上具竞争性,在视觉和语言任务上则超越了对比预训练编码器,同时在考虑模型架构和规模以及预训练数据的影响方面表现出了相同或更好的可伸缩性。

4. Instant Multi-View Head Capture through Learnable Registration 论文详情页

链接:https://www.aminer.cn/pub/6464b06dd68f896efa35b232

ChatPaper综述:本文介绍了一种名为TEMPEH的方法,实现了从多个视角的图像直接推断出3D头部模型,在相对于现有方法更快速、更简便的同时,保持了高精度的重建结果。作者将3D头部数据集的多视角重建和非刚性配准的两个步骤合并为一个,并引入一个新的几何损失函数来同时训练头部数据集的多个3D扫描,并通过学习得到头部配准参数。这一方法在3D头部推断方面取得了显著的技术进步,可用于高效捕捉大规模多人、多样性表情的头部数据集。

5. Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation 论文详情页

链接:https://www.aminer.cn/pub/64893b17d68f896efa98274e

ChatPaper综述:本文论述了文本驱动的视频转换存在的挑战,并提出了一种新颖的零样本文本驱动视频转换框架,该框架包括两个部分:关键帧转换和完整视频转换。作者通过使用适应性扩散模型生成关键帧,应用了分层交叉帧约束来强制形状、纹理和颜色的一致性,同时通过时间感知的贴片匹配和帧混合将关键帧传播到其他帧。实验结果表明,该框架在渲染高质量和时间上连贯的视频方面比现有方法更有效。

6. AniFaceDrawing: Anime Portrait Exploration during Your Sketching 论文详情页

链接:https://www.aminer.cn/pub/64893b0cd68f896efa978f10

ChatPaper综述:本文主要讨论如何使用人工智能来协助用户在绘画过程中创作动漫肖像画,即将粗略的草图转化成为动漫风格的肖像画。本文提出了一种基于StyleGAN的双阶段训练策略来解决从不完整草图生成高质量动漫肖像画的问题。本文的研究旨在解决通过不完整草图生成高质量动漫肖像画这一困难的条件图像生成问题。通过定量和定性的方法证明了本方法的有效性。

7. Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding 论文详情页

链接:https://www.aminer.cn/pub/64893b17d68f896efa982730

ChatPaper综述:该文介绍了在语音领域中应用大型语言模型时可能遇到的问题并提出了解决方案。具体来说,作者提出了一个联合语音和语言模型,其中使用了Speech2Text适配器将语音映射到文本令牌嵌入空间,以避免语音和语言表征之间的不匹配。此外,作者使用基于CTC的空白过滤来缩短语音序列长度,使其与文本长度相同。作者还提出了一个Speech2Entity检索器来处理罕见实体的错误,将其添加到原始模型输入的前缀中。实验结果表明,这些技术大大提高了对话状态跟踪(DST)性能和自动语音识别(ASR)性能。

8. Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second 论文详情页

链接:https://www.aminer.cn/pub/6464b068d68f896efa35afed

ChatPaper综述:Galactic是一个大规模的模拟和强化学习(RL)框架,用于室内环境中的机器人移动操作。它能够以非常快的速度进行模拟和RL,从而显著减少现有实验的计时训练时间,并释放出前所未有的新实验规模。通过Galactic的使用,可以在短短的16分钟内训练出一个移动拾取技能,并在46小时内使用5B步的经验进行最大规模的重新排列实验,取得了85%的成功率。这些结果与Habitat 2.0相比有显著的提高。

9. Neural Scene Chronology 论文详情页

链接:https://www.aminer.cn/pub/6464af7ad68f896efa352487

ChatPaper综述:本文主要论述了一个名为“Neural Scene Chronology”的方法,旨在从互联网照片中重建一种具有时间变化的3D模型,能够独立控制视点、照明和时间,从而实现真实感渲染。作者认为该问题的核心挑战有两个方面:不同类型的时态变化(如照明和场景本身的变化)混淆在图像中;场景级别的时态变化往往是离散且不连续的。为了解决这些问题,作者提出了一种新的场景表示方法,配备了一种新颖的时间步函数编码方法,可以将离散的场景级别内容变化建模为时间上的分段常数函数。同时,作者还建立了一个新的数据集,并展示了该方法在该数据集上的先进的视图合成效果。

阅读原文,直达ChatPaper!

【声明】内容源于网络
0
0
AMiner AI
AI帮你理解科学
内容 212
粉丝 0
AMiner AI AI帮你理解科学
总阅读0
粉丝0
内容212