

1.CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy within a $10,000 Budget; An Extra $4,000 Unlocks 81.8% Accuracy 论文详情页
链接:https://www.aminer.cn/pub/649bb0eed68f896efa4dde51/
ChatPaper综述:说明了如何在有限的预算内进行CLIP模型的训练,并通过使用更大的图像/文本编码器和较短的序列长度来实现计算资源的显著降低。作者还介绍了CLIPA-v2模型的两个主要贡献:在微调阶段应用逆比例缩放规律以进一步减少计算需求,以及将实验扩展到更大规模的模型和数据集来验证模型性能。作者的实验结果表明,只需10,000美元的预算,CLIP模型就能达到81.1%的精度,在降低计算成本约39倍的情况下,超过了之前最好的CLIP模型(来自OpenCLIP,精度为80.1%)。此外,再投资4,000美元,就可以将零样本ImageNet准确度提升至81.8%。该文中还提供了代码和模型的链接。
2.Length Generalization in Arithmetic Transformers 论文详情页
链接:https://www.aminer.cn/pub/649bb0eed68f896efa4ddd44/
ChatPaper综述:指出该研究主要探讨了两个挑战:学习基本整数算术和在训练时泛化到比训练集更长的序列。研究发现,相对位置嵌入可以实现对简单任务(如加法)的长度泛化:在训练时对5位数字的模型可以进行15位数字的求和。然而,这种方法在乘法中失败,因此作者提出了\"train set priming\"方法:在训练集中添加一些长度较长(10到50位)的序列。研究表明,通过priming,对5位数字乘以3位数字的模型可以推广到35位乘以3位数字的例子。研究还表明,模型可以被primed以适应不同的泛化长度,并且priming样本量与训练集大小的对数成比例。最后,研究讨论了priming在算术以外领域的潜在应用。
3.PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment论文详情页
链接:https://www.aminer.cn/pub/649bb0eed68f896efa4dde5a/
ChatPaper综述:该论文针对相机姿态估计这个长期存在的计算机视觉问题提出了一种新的解决方法。目前,相机姿态估计常常依赖于传统的方法,如手工制作的关键点匹配、RANSAC和捆绑调整。该论文提出了在概率扩散框架内建模给定输入图像的相机姿态的条件分布,从而重新定义了这个问题。这种新颖的视角具有几个优点。首先,扩散框架的本质与捆绑调整的迭代过程相吻合。其次,该方法允许无缝地集成来自极线几何的几何约束。再次,它在稀疏视图和宽基线等通常困难情景中表现出色。最后,该方法可以为任意数量的图像预测内参和外参。通过在两个真实世界数据集上进行实验证明,我们的方法PoseDiffusion在经典的SfM流水线和学习方法上有显著的改进。最后,观察到我们的方法可以在不进行进一步训练的情况下泛化到不同的数据集。
4.Extending Context Window of Large Language Models via Positional Interpolation 论文详情页
链接:https://www.aminer.cn/pub/649bb0eed68f896efa4dde10/
ChatPaper综述:这个论文介绍了一种名为Position Interpolation(PI)的方法,可以将培训好的大型语言模型(LLM)的上下文窗口大小扩展到最多32768,并且只需要进行最小的微调(在1000步以内)。该方法在需要长上下文的各种任务上展现出了强大的实证结果,包括密码检索、语言建模和从65B的LLaMA 7B进行长文档摘要等。与此同时,通过Position Interpolation扩展的模型在其原始上下文窗口内相对保持了很好的质量。为了实现这个目标,Position Interpolation线性地缩小输入位置索引,以匹配原始上下文窗口的大小,而不是在训练过的上下文长度之外进行推断,这可能导致完全破坏自注意机制的注意力分数过高的灾难性情况。我们的理论研究表明,插值的上界至少比外推的上界小了约600倍,进一步证明了其稳定性。通过Position Interpolation扩展的模型保持了其原始架构,并且可以重用大部分现有的优化和基础设施。
5.Are aligned neural networks adversarially aligned? 论文详情页
链接:https://www.aminer.cn/pub/649bb0eed68f896efa4ddd75/
ChatPaper综述:探讨了大型语言模型在与恶意用户进行对抗性交互时是否能够保持其对齐性。虽然这些模型的目标是回答用户的问题并提供帮助,但它们也应该拒绝可能造成伤害的请求。然而,恶意用户可以构造绕过对齐尝试的输入,导致模型输出被禁止的有害内容。该研究表明,现有的基于自然语言处理的优化攻击方法不足以可靠地攻击对齐的文本模型:即使目前的攻击失败了,我们也可以通过蛮力方法找到对抗性输入。因此,目前攻击的失败不能被视为对齐文本模型在面对对抗性输入时仍然保持对齐的证据。然而,最近的趋势是发展大规模多模态模型,允许用户提供影响所生成文本的图像。研究还展示了这些模型很容易受到攻击,即通过对输入图像进行对抗性扰动可以引导模型产生任意不对齐的行为。因此,可以推测改进的自然语言处理攻击方法可能会对纯文本模型展示出同样的对抗性控制水平。
6.LeanDojo: Theorem Proving with Retrieval-Augmented Language Models论文详情页
链接:https://www.aminer.cn/pub/649bb0eed68f896efa4dde30/
ChatPaper综述:这篇论文指出了机器学习方法在证明定理方面的研究存在的一些困难。现有的方法因为私有代码、数据和大量计算要求而难以重现或者构建在其基础上进行研究。这给机器学习方法用于证明定理带来了很大的障碍。为了解决这些障碍,作者引入了LeanDojo,它是一个开源的Lean playground,包括工具包、数据、模型和基准测试。LeanDojo从Lean中提取数据,并使得与证明环境进行编程交互成为可能。它对证明中的前提进行了细粒度的注释,为前提选择提供了有价值的数据,这是证明定理中的一个关键瓶颈。使用这些数据,作者开发了ReProver(Retrieval-Augmented Prover),这是第一个结合检索的基于大型语言模型的证明器。它的训练成本低廉,仅需一个GPU星期的训练时间。我们的检索器利用LeanDojo的程序分析能力,识别可访问的前提和困难的负例,使得检索变得更加有效。此外,我们还构建了一个新的基准测试,包括从Lean的数学库中提取的96,962个定理和证明。这个基准测试具有挑战性的数据分割,要求证明器能够泛化到依赖于在训练中从未使用过的新颖前提的定理。我们使用这个基准测试进行训练和评估,实验结果表明ReProver相对于非检索基准线和GPT-4是有效的。因此,我们提供了第一组没有任何专有数据集的开源基于大型语言模型的定理证明器,并以宽松的MIT许可证发布,以促进进一步的研究。
7.FunQA: Towards Surprising Video Comprehension论文详情页
链接:https://www.aminer.cn/pub/649bb0dcd68f896efa4dc39f/
ChatPaper综述:主要介绍了一个名为FunQA的视频问答数据集,专门设计用于评估和提升基于反直觉和有趣视频的视频推理深度。与大多数视频问答基准不同,FunQA涵盖了三种以往未探索的类型的惊喜视频:1)HumorQA,2)CreativeQA和3)MagicQA。对于每个子集,作者都建立了严格的问答任务,旨在评估模型在反直觉的时间戳定位、详细的视频描述和围绕反直觉展开推理的能力。作者还提出了更高级的任务,如为视频命名一个合适且生动的标题,并对视频创意进行评分。这个FunQA基准总共包含312K个自由文本问答对,来自4.3K个视频剪辑,总时长为24小时。通过与现有的视频问答模型进行广泛实验,研究人员发现FunQA视频在时空推理、以视觉为中心的推理和自由文本生成方面存在显著的性能差距。
8.Physion++: Evaluating Physical Scene Understanding that Requires Online Inference of Different Physical Properties 论文详情页
链接:https://www.aminer.cn/pub/649bb0eed68f896efa4dde5b/
ChatPaper综述:尽管近年来在物理和视频预测模型方面取得了很大进展,但现有的性能评估标准往往不要求理解对象具有独立的物理属性,或者最多只测试那些直接可观察到的属性(如大小或颜色)。作者提出了一个新的数据集和基准测试——Physion++,在这个人工系统中严格评估了视觉物理预测。在这些场景中,准确的预测依赖于对场景中对象的潜在物理属性的准确估计,例如质量、摩擦、弹性和可变形性。这些属性的值只能通过观察对象与其他对象或流体的运动和相互作用来推断。研究评估了一些当前先进的预测模型的性能,并与人类的预测结果进行了比较。结果发现,通过使用标准训练方法和数据集,并不能使模型自动学习推断潜在属性,而对物体性质和物理状态进行编码的模型往往能够做出更好的预测。然而,所有模型与人类性能之间仍然存在巨大差距,并且所有模型的预测与人类的预测相关性较低,这表明目前没有一种先进的模型能够像人类一样学习进行物理预测。
9.MIMIC: Masked Image Modeling with Image Correspondences 论文详情页
链接:https://www.aminer.cn/pub/649bb0eed68f896efa4ddc09/
ChatPaper综述:作者提出了一种不需要任何注释的数据集筛选机制。他们挖掘了两个数据集,一个是从开源视频数据集中筛选的包含130万组多视角图像对的MIMIC-1M数据集,另一个是从合成的3D环境中筛选的包含310万组多视角图像对的MIMIC-3M数据集。他们使用不同的带有掩蔽图像建模目标的自监督模型进行训练,并展示了以下发现:在多个下游任务中,使用MIMIC-3M训练的表示优于使用注释进行挖掘的表示,包括深度估计、语义分割、表面法线和姿态估计。它们还优于被冻结的表示,并且当下游训练数据有限时,性能仍然较好。更大的数据集(MIMIC-3M)显著提高了性能,这非常有希望,因为他们的筛选方法可以任意扩展以产生更大的数据集。

阅读原文,直达ChatPaper!

