

1.RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation论文详情页
链接:https://www.aminer.cn/pub/6492754ad68f896efa88affd/
ChatPaper综述:该文章介绍了一个名为RoboCat的自我提升基础代理,用于机器人操作。通过利用来自不同机器人和任务的异构机器人经验,快速掌握新的技能和实体具有将改变机器人学习的潜力。RoboCat是一个视觉目标条件决策变压器,能够消耗多体现和行动标记的视觉经验。该数据涵盖了模拟和实际机器人手臂的大量运动控制技能以及不同的观察和动作集。作者展示了RoboCat在新任务和机器人上的泛化能力,包括零样本和适应性训练。同时还展示了如何使用已经训练好的模型来生成数据以供后续训练使用,从而为自主改进循环提供基础构建块。作者通过在仿真环境和三个不同的真实机器人实体上进行大规模评估来研究代理的能力,并发现随着训练数据的增长和多样化,RoboCat不仅显示出跨任务转移的迹象,而且在适应新任务时也变得更加高效。
2.MotionGPT: Finetuned LLMs are General-Purpose Motion Generators 论文详情页
链接:https://www.aminer.cn/pub/64927546d68f896efa88a179/
ChatPaper综述:本文介绍了针对数字人需要而出现的生成真实人类动作的技术,但现有的方法只支持单一控制信号模态,限制了它们在真实数字人行业中的应用。为解决这一问题,本文提出了一种Motion General-Purpose generaTor (MotionGPT)方法,可以使用多模式控制信号(如文本和单帧姿态)来生成连续的人类动作。通过将多模式控制信号离散化并将其表达为统一的提示指令来调整大型语言模型(LLMs)的控制参数,实现多模式控制信号下的统一人类运动生成模型。本文认为,这是第一种使用多模态控制信号生成人类动作的方法,希望能为这个新的方向提供启示。
3.Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision 论文详情页
链接:https://www.aminer.cn/pub/6492754ad68f896efa88b00a/
ChatPaper综述:本文介绍了一种新型的去噪扩散概率模型,通过将已知的可微分正向模型集成到去噪扩散过程中,可以学习对永远不直接观测到的信号进行采样。该方法有效地将观测到的生成建模与底层信号的生成建模相结合,使得可以通过条件生成模型来对信号进行训练。在推理过程中,该方法可以从与给定部分观察一致的底下信号的分布中进行采样,对解决许多计算机视觉问题具有良好的应用前景。
4.Point-Cloud Completion with Pretrained Text-to-image Diffusion Models论文详情页
链接:https://www.aminer.cn/pub/6492753bd68f896efa889007/
ChatPaper综述:文章说明了目前点云数据收集中的一个常见问题:数据的不完整性。在现实世界中,由于观察对象的视角限制、遮挡和低分辨率抽样等原因,点云数据通常是不完整的。现有的点云完整性方法依赖于预定义对象的数据集来引导噪声和不完整的点云的完善,但这些方法在测试时对于训练数据集中表示不充分的对象表现很差。因此,文章提出一种使用预训练的文本到图像扩散模型的方法来完善点云数据的表面表示,通过利用给定不完整点云的文本语义,无需昂贵的3D信息收集就可以有效地重建缺少于常见数据集中的对象。
5.Textbooks Are All You Need 论文详情页
链接:https://www.aminer.cn/pub/6492754ad68f896efa88afbd/
ChatPaper综述:这篇文章介绍了一个新的大型编程语言模型phi-1,它比竞争模型具有更小的大小,并使用了来自网络的“教科书质量”数据和由GPT-3.5生成的合成教科书和练习。尽管规模较小,phi-1在人工评估上达到了50.6%的pass@1准确率,并且与phi-1-base和phi-1-small相比具有令人惊讶的新颖性质。
6.RepoFusion: Training Code Models to Understand Your Repository 论文详情页
链接:https://www.aminer.cn/pub/64927546d68f896efa88a1e2/
ChatPaper综述:本文讨论了以往大型语言模型在代码补全方面的不足之处,即模型难以理解代码库中的上下文信息,从而导致代码补全不准确,特别是在处理模型未曾接触的代码库时更加明显。本文介绍了一个基于上下文信息训练代码模型的框架RepoFusion,并通过实验结果表明,使用代码库的上下文信息可以极大地改善代码补全的性能,甚至可以与训练规模更大的模型相比肩。文章最后还介绍了一个数据集和相关代码资源,供研究者使用和参考。
7.Guiding Language Models of Code with Global Context using Monitors 论文详情页
链接:https://www.aminer.cn/pub/64927546d68f896efa88a0e7/
ChatPaper综述:本文阐述了语言代码模型(LMs)在生成代码时,需要足够的上下文来进行工作,但是当需要使用在训练过程中没有见过的模块或库中定义的类型或功能时,LMs缺乏全局上下文意识,容易出现幻觉。为了克服这个问题,最近的研究试图通过检索全局信息来增强本地上下文。本文提出一种使用静态分析的监视器的概念,将开发环境中的全局上下文带到LMs中,并且在整个解码过程中迭代地调用静态分析,提供最相关的建议。本方法可以提高LMs生成与ground truth匹配的标识符,同时提高编译速率和与ground truth的一致性。本文最终通过实验证明了该方法的有效性。
8.BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models 论文详情页
链接:https://www.aminer.cn/pub/64927546d68f896efa88a1c1/
ChatPaper综述:这篇论文介绍了一种方法,通过交互式翻译任务将英语语言生成和指令跟随的能力转移到其他语言,以减少为非英语语言构建基础LLMs和指导调优所需的语言特定培训数据和构建语言特定指令的工作量。作者开发了一种名为BayLing的指令跟随LLM,并在各种任务中进行了广泛评估,结果表明BayLing的性能可与GPT-3.5-turbo相媲美。作者还提供了BayLing的演示,主页,代码和模型。
9.DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models 论文详情页
链接:https://www.aminer.cn/pub/6492754ad68f896efa88aff5/
ChatPaper综述:本文研究了GPT模型的可信度,包括针对GPT-4和GPT-3.5的综合评估,考虑了多个方面,如毒性、刻板印象、对抗鲁棒性、分布外鲁棒性、对对抗演示的鲁棒性、隐私、机器道德和公平性等。作者发现了之前未公开的可信度威胁漏洞,如GPT模型会在生成输出时容易受到误导,产生有害和有偏见的内容,并会泄露私人信息。作者的研究也发现,尽管GPT-4在标准基准测试中通常比GPT-3.5更可信,但在越狱系统或用户提示的情况下更容易受到攻击,这可能是因为GPT-4更加准确地遵循(误导的)指令。本文提供了对GPT模型的全面可信度评估,并揭示了可信度方面的差距。作者公开了他们的基准数据,供大家参考使用。

阅读原文,直达ChatPaper!

