极市导读
上海地区ECCV 2024录用论文46篇,由上海市计算机学会计算机视觉专委会整理。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
1. M3DBench: Towards Omni 3D Assistant with Interleaved Multi-modal Instructions
作者:李铭晟(复旦大学),陈欣(腾讯),张弛(腾讯),陈思锦(复旦大学),朱宏远(新加坡科技研究局),尹富坤(复旦大学),李卓远(复旦大学),俞刚(腾讯),陈涛*(复旦大学)
论文简介: 最近,对三维世界的理解引起了越来越多的关注。然而,现有三维视觉语言数据集和方法通常仅限于特定任务,限制了多场景适用性。为此,我们介绍M3DBench,这是一个专为复杂三维环境设计的多模态指令数据集,包含32万个指令-响应对,支持文本、点击、图像等多模态输入。我们还建立了评估模型在理解这些指令性能的新基准,旨在推动三维领域的MLM研究。
-
Paper链接:
https://arxiv.org/abs/2312.10763
-
Code链接:
https://m3dbench.github.io/
2. Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection
作者:涂远鹏(同济大学),张博深(腾讯优图),刘亮(腾讯优图),李昱希(腾讯优图),张江宁(腾讯优图),王亚彪(腾讯优图),汪铖杰(腾讯优图),赵才荣*(同济大学)
论文简介: 已有方法使用大规模数据集上预训练的模型进行缺陷检测。然而由于训练数据和目标数据之间存在的域差异,这些方法难以准确检测细微瑕疵,同时容易将正确样本误判为异常样本。因此本文提出了一种局部到全局的自监督特征适应方法,包含模态间和模态内的共同微调。广泛的实验结果证明我们的方法可以在多个数据集上取得远超已有方法的性能。
-
Paper链接:
https://arxiv.org/abs/2401.03145
-
Code链接:
https://github.com/yuanpengtu/LSFA
3. Online Video Quality Enhancement with Spatial-Temporal Look-up Tables
作者:曲则帆(同济大学),蒋忻洋(微软亚洲研究院),杨一帆(微软亚洲研究院),李东胜(微软亚洲研究院),赵才荣*(同济大学)
论文简介: 对于视频会议和云游戏等基于在线视频的应用来说,低延迟率至关重要,这使得提高在线场景中的视频质量变得越来越重要。然而,现有的质量增强方法受限于缓慢的推理速度和对未来帧所含时间信息的要求,直接将其部署到在线任务中具有挑战性。在本文中,我们提出了一种新的视频增强方法 STLVQE,专门用于解决在线压缩视频质量增强(Online-VQE)问题。STLVQE 设计了一个新的 VQE 框架,其中包含一个模块共享特征提取器,大大减少了冗余计算,并重新设计了网络的传播、对齐和增强模块。我们还提出了一种时空查找表结构(STL),它能提取视频中的时空信息,同时节省大量计算资源与推理时间。据我们所知,我们是第一个利用 LUT 结构提取视频任务中时序信息的工作。在现有的压缩视频数据集上进行的大量实验表明,我们的 STLVQE 在性能-速度权衡方面取得了令人满意的效果。
-
Paper链接:
hhttps://arxiv.org/abs/2311.13616
4. Unrolled Decomposed Unpaired Learning for Controllable Low-Light Video Enhancement
作者:朱凌玉(香港城市大学),杨文瀚(鹏城实验室),陈宝亮(香港城市大学),诸汉炜(香港城市大学),倪张凯(同济大学),毛琪(中国传媒大学),王诗淇*(香港城市大学)
论文简介: 基于非成对学习的可控低光视频增强是一个具有挑战性的任务,因为视频中的噪声、曝光和对比度相互交织,同时需要时间一致性。为了解决这些问题,本文提出了展开分解非配对网络(UDU-Net),它将优化函数展开到深度网络中,分解为空间和时间相关因子,并进行迭代更新。该方法在照明、噪声抑制和时间一致性等方面取得了出色的性能,优于当前最先进的方法。
5. OpenPSG: Open-set Panoptic Scene Graph Generation via Large Multimodal Models
作者:周子键(伦敦国王学院),朱政(极佳视界),Holger Caesar(代尔夫特理工大学),史淼晶*(同济大学)
论文简介: 全景场景图生成(PSG)旨在对图像中的物体进行分割并识别它们之间的关系,实现对图像的结构化理解。以往的方法主要集中于预定义的物体和关系类别的预测,因此在开放世界场景中的应用受到限制。随着多模态大模型(LMMs)的快速发展,在开放集物体检测和分割方面已取得显著进展,然而,在PSG中的开放集关系预测仍是一个未被探索的领域。在本文中,我们专注于与预训练的开放集全景分割模型集成的开放集关系预测任务,以实现真正的开放集全景场景图生成。为此,我们提出了一种名为OpenPSG的开放集全景场景图生成方法,该方法利用LMMs以自回归方式实现开放集关系预测。我们引入了一个关系查询变换器,用以高效提取物体对的视觉特征并估计它们之间关系的存在性,后者可以通过过滤不相关的对来增强预测效率。最后,我们设计了生成和判断指令,以自回归方式执行PSG中的开放集关系预测。据我们所知,我们是首个提出开放集PSG任务的。广泛的实验表明,我们的方法在开放集关系预测和全景场景图生成方面达到了最先进的性能。
-
Code链接:
hhttps://github.com/franciszzj/OpenPSG
6. Enhanced Sparsification via Stimulative Training
作者:唐圣汲(复旦大学),林炜豪(复旦大学),叶涵诚(上海人工智能实验室),叶鹏(复旦大学),余翀(复旦大学),李抱朴,陈涛*(复旦大学)
论文简介: 基于稀疏化修剪的方法在模型压缩中扮演重要角色。现有方法通常设定稀疏化惩罚项来抑制被丢弃权重的重要性,这被视为抑制型稀疏化范式。然而,这种范式在修剪之前使网络的丢弃部分失活,导致容量损害,进而引发性能下降。为了缓解这一问题,我们首先研究并揭示了新兴激励训练中的相对稀疏效应,然后提出了一种名为STP的结构化修剪框架,基于增强的稀疏化范式,该范式通过自蒸馏来保持被丢弃权重的幅度,并增强保留权重的表达能力。此外,为了找到剪枝网络的最佳架构,我们提出了一个多维架构空间和一个知识蒸馏引导的探索策略。为了减少蒸馏过程中的巨大容量差距,我们提出了子网络变异扩展技术。在各种基准测试中的广泛实验表明了STP的有效性。特别是在不进行微调的情况下,我们的方法在不同预算下始终能够达到优越的性能,尤其是在极具挑战性的修剪场景下,例如在ImageNet上对ResNet-50进行85% FLOPs的减少,同时保持95.11%的Top-1准确率(在76.15%保留了72.43%的准确率)。
-
Paper链接:
https://arxiv.org/pdf/2403.06417
-
Code链接:
https://github.com/tsj-001/STP
7. MotionChain: Conversational Motion Controllers via Multimodal Prompts
作者:江彪(复旦大学),陈欣(腾讯),张弛(腾讯),尹富坤(复旦大学),李卓远(复旦大学),俞刚(腾讯),范佳媛*(复旦大学)
论文简介: 今年来语言模型方面的进展展示了其在进行多轮对话和保持对话上下文方面的熟练程度。然而,这种能力在其他多模态生成模型,特别是在人类运动模型中,尚未得到充分探索。通过在控制连续虚拟人类运动中整合多轮对话,生成的人类运动模型可以为人形机器人、游戏智能体或其他具身系统实现直观的、逐步的人类任务执行过程。在这项工作中,我们提出了MotionChain,一个通过多模态提示生成连续和长期人类运动的对话式人类运动控制器。具体而言,MotionChain包括多模态分词器,这些分词器将文本、图像和运动等各种数据类型转化为离散的标记,并配有一个视觉-运动感知语言模型。通过利用大规模的语言、视觉-语言和视觉-运动数据来辅助与运动相关的生成任务,MotionChain能够理解多轮对话中的每个指令,并根据这些提示生成相应的人类运动。广泛的实验验证了MotionChain的有效性,展示了其在对话式运动生成中的最先进性能,以及在控制和与虚拟人类交互方面更直观的方法。
-
Paper链接:
https://arxiv.org/abs/2404.01700
-
Code链接:
https://github.com/OpenMotionLab/MotionChain
8. Relightable 3D Gaussian: Real-time Point Cloud Relighting with BRDF Decomposition and Ray Tracing
作者:高建(南京大学),顾淳(复旦大学),林尤添(南京大学),朱昊(南京大学),曹汛(南京大学),张力*(复旦大学),姚遥*(南京大学)
论文简介: 本文提出了一种新颖的可微分点基渲染框架,以实现逼真的重打光效果。我们通过将法向量、BRDF参数和入射光关联到3D高斯上,优化重建场景,并利用基于物理的可微分渲染技术分解BRDF和光照。为了实现高效的可见度计算,我们引入了一种创新的基于点的光线追踪方法。实验结果表明,所提出的框架在BRDF估计、新视图合成和重打光效果方面优于现有方法,展示了3D高斯溅射在编辑、光线追踪和重打光方面的巨大潜力。
-
Paper链接:
https://arxiv.org/abs/2311.16043
-
Code链接:
https://github.com/NJU-3DV/Relightable3DGaussian
9. Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving
作者:聂铭(复旦大学),彭任远(复旦大学),王春微(华为诺亚方舟实验室),蔡信岳(华为诺亚方舟实验室),韩建华(华为诺亚方舟实验室),徐航(华为诺亚方舟实验室),张力(复旦大学)
论文简介: 本文提出了一个包含超过600K视频文本对的基准数据集,Reason2Drive,旨在促进复杂驾驶环境中可解释推理的研究。本文显式地将自动驾驶过程描述为感知、预测和推理步骤的顺序组合,并且从各种开源户外驾驶数据集中自动收集问答对。此外,文章引入了一种新的评估指标来评估自动驾驶系统中基于思维链的推理性能,缓解了现有指标(如BLEU和CIDEr)的推理歧义。基于提出的基准,文章进行大量实验来评估各种现有的多模态大模型在自动驾驶领域的可解释推理能力。
-
Paper链接:
https://arxiv.org/pdf/2312.03661v1
-
Code链接:
https://github.com/fudan-zvg/reason2drive
10. WoVoGen: World Volume-aware Diffusion for Controllable Multi-camera Driving Scene Generation
作者:卢嘉晨(复旦大学),黄泽(复旦大学),杨泽宇(复旦大学),张家辉(复旦大学),张力(复旦大学)
论文简介: 生成多摄像头街景视频对增强自动驾驶数据集至关重要。本文提出了世界体积感知多摄像头驾驶场景生成器(WoVoGen),利用四维世界体积作为视频生成的基础。模型通过预想四维时间世界体积和生成多摄像头视频,确保生成的传感器数据保持一致性和连贯性,能够生成高质量街景视频并促进场景编辑任务。
-
Paper链接:
https://arxiv.org/pdf/2312.02934
-
Code链接:
https://github.com/fudan-zvg/WoVoGen
11. HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects
作者:吕鑫涛(上海交通大学),徐良(上海交通大学、宁波东方理工大学),晏轶超(上海交通大学),金鑫(宁波东方理工大学),徐聪晟(上海交通大学),吴舒文(上海交通大学),刘轶凡(上海交通大学),李林橙(网易伏羲实验室),毕梦霄(网易伏羲实验室),曾文军(宁波东方理工大学),杨小康(上海交通大学)
论文简介: 生成人物-物体交互对于促进虚拟数字人真实性有着至关重要的作用。现有的4D人与物体交互数据集通常仅限于人与单个物体的互动,而忽略了日常生活中无处不在的多个物体组合使用;它们也缺少对交互序列的文本描述,使得文本生成动作的任务难以进行。因此,我们提出了HIMO数据集,一个包含人体与多物体交互的全身动捕数据集,并还为其标注了细粒度的文本描述及时间段切分。同时,我们在两个新颖的人物交互合成任务上进行实验,实验结果表明了HIMO数据集的有效性。
-
Code链接:
https://lvxintao.github.io/himo/
12. HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation
作者:官善琰(vivo移动通信有限公司),葛彦昊(vivo移动通信有限公司、同济大学),邰颍*(南京大学),杨健(南京大学),李伟(vivo移动通信有限公司),尤鸣宇*(同济大学)
论文简介: 主体内容驱动生成旨在生成指定主体的个性化图像。本研究提出了一种新的混合提示词反演框架HybridBooth,将直接估计和迭代优化的两类范式结合,以实现基于扩散模型的高效主体驱动生成。本框架首先设计了一种新的提示词反演网络,结合掩码引导的多词文本编码模块和主体特征多粒度特征融合模块,实现快速的主体提示词反演,然后提出一种提出重要性参数微调方法,提升反演精度。极限情况下本框架可基于单张图片以高效方式将任意视觉概念逆化同时兼顾原始模型的通用生成能力。
13. Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector
作者:傅宇倩(ETH Zurich、INSAIT),王昱(复旦大学),潘逸轩(东南大学),怀莲(BOE),裘星宇(复旦大学),上官泽钰(BOE),刘童(BOE),付彦伟(复旦大学),Luc Van Gool(ETH Zurich、INSAIT),蒋星群(BOE)
论文简介: 本文研究了具有挑战性的跨域小样本目标检测任务(CD-FSOD),改任务旨在用跨数据域、少量标注样本的情况下构建目标检测器。尽管如DE-ViT等开放集检测器在传统的小样本目标检测中表现出色,但其在CD-FSOD中的泛化能力仍不明确:1)这些开放集检测方法能否泛化到CD-FSOD?2)如果不能,在面对巨大的领域差异时,如何提升模型性能?基于第一个问题,本文为CD-FSOD任务建立了一个新的基准数据集以评估目标检测方法,并提出三个衡量领域差异的指标:风格(style), 类别差异度(ICV),不可定义边界程度(IB)。本文实验揭示大多数现有方法由于受到风格变化、类别差异度低、边界模糊因素的影响,无法实现跨领域泛化。因此,本文提出了几个新的模块以逐个解决上述问题。首先,本文提出可学习的实例特征将初始固定实例特征与目标类别对齐,增强特征的可分辨性以解决类别差异度低的问题;其次,本文提出实例重加权模块为高质量的实例分配更高的重要性以此缓解目标领域存在边界模糊图像的问题;第三,本文提出领域提示器以引入虚拟的风格对语义特征进行适当干扰,以此提升模型对于不同视觉风格的泛化性。基于以上三个模块以及常用的微调方法,本文在DE-ViT基础之上构建了CD-ViTO检测器,在CD-FSOD的各个数据集上显著改进了基础DE-ViT。
-
Paper链接:
https://arxiv.org/pdf/2402.03094
-
Code链接:
https://github.com/lovelyqian/CDFSOD-benchmark
14. Improving Neural Surface Reconstruction with Feature Priors from Multi-View Images
作者:任新麟(复旦大学),曹辰捷(复旦大学、阿里巴巴达摩院),薛向阳(复旦大学),付彦伟(复旦大学)
论文简介: 本研究通过探索七种预训练视觉任务的多视角特征先验,旨在提高神经表面重建(NSR)性能。结果表明,图像匹配和多视角立体的特征先验优于其他任务,将块级光度一致性扩展到特征级别比像素级方法更有效。这些方法在DTU和EPFL数据集上的表现证明了其在提高NSR结果方面的潜力。
15. VEON: Vocabulary-Enhanced Occupancy Prediction
作者:郑继来(上海交通大学),唐品(上海交通大学),王重道(华为诺亚方舟实验室),王国庆(上海交通大学),任相璇(上海交通大学),冯柏岚(华为诺亚方舟实验室),马超(上海交通大学)
论文简介: VEON聚焦于在自动驾驶场景下,预测三维占用栅格与开放世界语义。文章提出混合深度基础模型MiDaS和语义基础模型CLIP并进行维度提升,从而实现三维占用栅格的预测。为适配自驾场景,方法为MiDaS配备了Zoedepth和LoRA,并将高分辨率的侧适配器HSA附加到CLIP视觉编码器上,还采用类重加权策略优先考虑尾部类别。在Occ3D-nuScenes数据集上,VEON在不使用手动语义标签的前提下,达到了具有竞争力的性能。
16. Space-Correlated Transformer: Jointly Explore the Matching and Motion Clues in 3D Single Object Tracking
作者:谢斐(上海交通大学),聂佳浩(杭州电子科技大学),王重道(华为诺亚方舟实验室),何志伟(杭州电子科技大学),马超(上海交通大学)
论文简介: 激光雷达点云中的3D单目标跟踪(3D SOT)在自动驾驶中发挥着至关重要的作用。当前的方法大多遵循两种范式,即基于孪生匹配的和以运动为中心的。然而,激光雷达点云缺乏足够的外观信息,而以运动为中心的跟踪器则面临复杂的模型结构问题。为了解决这些问题,我们提出了一种新颖且概念简单的跟踪框架,称为SCtrack,该框架联合探索了点云中的匹配和运动线索。SCtrack将点云嵌入到空间结构化特征中,并沿着对齐的空间区域进行空间相关性计算。目标相对运动直接从相关特征中推断出来。我们采用了一种可变大小的空间区域策略,以适应空间相关性计算中不同目标的形状和位置。SCtrack在KITTI、NuScenes和Waymo 数据集上分别实现了先进的性能。
17. OccGen: Generative Multi-modal 3D Occupancy Prediction for Autonomous Driving
作者:王国庆(上海交通大学),王重道(华为诺亚方舟实验室),唐品(上海交通大学),郑继来(上海交通大学),任相璇(上海交通大学),冯柏岚(华为诺亚方舟实验室),马超*(上海交通大学)
论文简介: 现有的3D语义占用预测方法通常将任务视为一次性的3D体素级分割问题,专注于输入和占用图之间的单步映射,这限制了它们逐步细化和完成局部区域的能力。在本文中,我们介绍了OccGen,一个简单但功能强大的3D语义占用预测任务的生成式感知模型。OccGen采用了一种“噪声到占用”的生成范式,通过预测并消除来自随机高斯分布的噪声,逐步推断和细化占用图。OccGen由两个主要部分组成:一个能够处理多模态输入的条件编码器,以及一个应用扩散去噪的逐步细化解码器,使用多模态特征作为条件。这一生成流程的关键洞见是,扩散去噪过程自然能够模拟密集3D占用图的粗到细的细化,因此产生更详细的预测。在几个占用基准上的广泛实验表明,所提出的方法与现有最先进方法相比是有效的。例如,在nuScenes-Occupancy数据集下,OccGen在多模态、仅激光雷达和仅相机设置下分别相对提高了mIoU 9.5%、6.3%和13.3%。此外,作为一个生成式感知模型,OccGen展示了鉴别模型无法实现的期望属性,例如在提供多步预测的同时提供不确定性估计。
-
Paper链接:
https://arxiv.org/abs/2404.15014
-
Code链接:
https://occgen-ad.github.io/
18. PapMOT: Exploring Adversarial Patch Attack against Multiple Object Tracking
作者:龙佳欢(上海交通大学、军事科学院),姜廷松(军事科学院),姚雯(军事科学院),贾率(上海交通大学),张伟嘉(上海交通大学),周炜恩(军事科学院),马超(上海交通大学),陈小前(军事科学院)
论文简介: 在连续视频流中跟踪多个对象对于许多计算机视觉任务至关重要。这需要在连续帧中检测对象并将其身份进行关联。尽管多目标跟踪(MOT)已经取得了显著进展,最近的研究却揭示了现有MOT方法对对抗性攻击的脆弱性。然而,这些攻击大多属于数字攻击,通过在输入图像中注入像素级噪声,因此在物理场景中无效。为了填补这一空白,我们提出了PapMOT,这是一种可以在数字和物理场景中生成物理对抗性补丁的方法。除了攻击检测机制,PapMOT通过优化了一个可打印的补丁,使其能够被检测为新目标,从而误导身份关联过程。此外,我们引入了一种补丁增强策略,进一步降低视频帧之间跟踪结果的时间一致性,从而使得补丁更具攻击性。我们还开发了新的评估指标来衡量MOT在这种攻击下的鲁棒性。通过对多个数据集的广泛评估,我们证明了PapMOT可以成功攻击数字场景中的各种MOT跟踪器架构。同时,通过在现实世界中部署打印的对抗性补丁,我们验证了PapMOT在物理攻击中的有效性。
19. Spatially-Variant Degradation Model for Dataset-free Super-resolution
作者:郭绍杰(华东师范大学),宋昊飞(华东师范大学),李庆利(华东师范大学),王妍*(华东师范大学)
论文简介: 本文提出了一种无数据集盲图像超分辨率的方法。专注于为每个像素设计空间变化的退化模型,而不是为整个图像获取退化核。相比于数据驱动的方法,我们的方法使用极少的可学习参数。每个像素的退化核由少量空间变化原子核组成的可学习字典的线性组合表示,原子退化核的系数矩阵由模糊集合理论推断。我们提出了一种具有定制似然函数和先验项的概率BISR模型,并使用蒙特卡洛EM算法推断每个像素的退化核。与其他最先进的BISR方法相比,我们的方法平均改进了1 dB(2X)。
-
Paper链接:
http://arxiv.org/abs/2407.08252
20. Tendency-driven Mutual Exclusivity for Weakly Supervised Incremental Semantic Segmentation
作者:司翀杰(上海交通大学),王雪辉(上海交通大学),杨小康(上海交通大学),沈为(上海交通大学)
论文简介: 弱监督增量语义分割利用预训练分割模型和图像级标签分割新类别。常用方法是为每个新类别生成种子区域,但像素级标注的缺乏使得新旧类别预测冲突难以解决。我们提出有偏的互斥关系,优先保留旧类别预测,同时生成新类别的伪掩码,并通过双层优化更新模型参数,有效应对增量学习中的灾难性遗忘问题。实验验证了框架的有效性,树立了新基准。
-
Paper链接:
https://arxiv.org/abs/2404.11981
21. Bridging Synthetic and Real Worlds for Pre-training Scene Text Detectors
作者:官同坤(上海交通大学),沈为*(上海交通大学),杨学(上海人工智能实验室),王雪辉(上海交通大学),杨小康(上海交通大学)
论文简介: 我们提出了一种与真实域对齐的预训练范式,可以发挥有标签合成数据和未标注真实数据的互补优势。具体来说,我们为文本图像量身定制了一种基于字形的混合机制 (GlyphMix)。它描绘了合成图像的字符结构,并将它们作为涂鸦式单元嵌入到真实图像中。在不引入真实域漂移的情况下,GlyphMix 可以自由地生成具有来自合成标签的部分标注的真实世界图像,用于预训练。
-
Paper链接:
https://arxiv.org/pdf/2312.05286
-
Code链接:
https://github.com/SJTU-DeepVisionLab/FreeReal
22. PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer
作者:官同坤(上海交通大学),林城雨(上海交通大学),沈为*(上海交通大学),杨小康(上海交通大学)
论文简介: 我们为手写数学表达式识别提出了一个位置森林变换器 (PosFormer)。无需额外的注释,它解决了现有的基于序列自回归的方法隐式学习符号之间的位置和层次关系的问题。具体地,通过将数学表达式建模为一个位置森林结构,每个符号在森林中被分配一个位置标识符来表示其相对空间位置。网络学习预测这些信息,以显式地实现位置感知的符号特征表示学习。
-
Paper链接:
https://arxiv.org/pdf/2407.07764
-
Code链接:
https://github.com/SJTU-DeepVisionLab/PosFormer
23. Towards Open-ended Visual Quality Comparison
作者:吴昊宁(南洋理工大学),诸汉伟(香港城市大学),张子澄(上海交通大学),张尔立(南洋理工大学),陈超锋(南洋理工大学),廖梁(南洋理工大学),李春一(上海交通大学),王安娜(商汤科技),孙文秀(商汤科技),严琼(商汤科技),刘笑宏(上海交通大学),翟广涛(上海交通大学),王诗琪(香港城市大学),林维斯(南洋理工大学)
论文简介: 在这项工作中,我们扩展了新兴的多模态大模型的边界,以将视觉质量比较进一步推进到开放式设置中,这些设置 1)可以回应关于质量比较的开放范围问题;2)可以提供超越直接答案的详细推理。为此,我们提出了Co-Instruct。为了训练这种首创的开源开放式视觉质量比较器,我们收集了Co-Instruct-562K数据集,数据来源包括:(a)LLM合并的单一图像质量描述,(b)GPT-4V对未标记数据的标注。此外,为了更好地评估这一设置,我们提出了MICBench,这是首个针对多模态大模型的多图像比较基准。
-
Paper链接:
https://arxiv.org/pdf/2402.16641
-
Code链接:
https://github.com/Q-Future/Co-Instruct
24. Topo4D: Topology-Preserving Gaussian Splatting for High-Fidelity 4D Head Capture
作者:李炫辰(上海交通大学),程宇豪(上海交通大学),任星宇(上海交通大学),贾灏哲(华为云),徐迪(华为云),朱文瀚(学深智能),晏轶超*(上海交通大学)
论文简介: 本文提出了一种全新的自动动态人脸几何和纹理重建框架Topo4D。该框架简化了传统动态人脸重建流程,能够直接从多视角视频中重建拓扑一致的几何表面和包含毛孔级细节的动态8K纹理贴图。我们提出了高斯网格,将人脸表面表示为拓扑一致的动态三维高斯模型,并通过逐帧执行交替几何和纹理优化实现高质量的几何和纹理学习。实验表明,无论是在网格纹理质量还是时间一致性上,Topo4D都比最先进的人脸重建方法取得了更好的结果。
-
Paper链接:
https://arxiv.org/pdf/2406.00440
-
Code链接:
https://github.com/XuanchenLi/Topo4D
25. Think2Drive: Efficient Reinforcement Learning by Thinking with Latent World Model for Autonomous Driving (in CARLA-v2)
作者:李奇峰(上海交通大学),贾萧松(上海交通大学),王少博(上海交通大学),严骏驰(上海交通大学)
论文简介: 从高速进入城区,自动驾驶车辆面临的与各种行人、车辆间进行各种各样的强交互,对规控算法又有更高的要求。而业界主流仍使用手写规则的方案,然而,各类道路状况、车辆行人导致所有可能的状况是海量的,并且呈长尾分布,直接写规则的方式会导致“字典”越来越厚,新旧规则还可能存在潜在冲突,导致新增规则的难度呈指数级上升。这使得以数据与学习驱动的自动驾驶规控方案正受到越来越多的关注,而基于学习方法中的模仿学习方案“死记硬背”的学习过程,因此高度依赖于对所有可能出现情况的全覆盖,而这一点在现实中是非常难做到的,强化学习又需要需要海量的模拟来进行随机探索而代价昂贵,因此一个高效有力的规控方案是现今的研究痛点。而CARLA Leaderboard作为最流行的自驾闭环仿真评测基准,其针对城区自驾场景的V2版本包含大量的强交互场景,其复杂度导致自22年发布以来一直悬而未决,Think2Drive首次成功打破这一局面,单GPU训练三天即可解锁全部V2场景!
-
Code链接:
https://github.com/Thinklab-SJTU/Bench2Drive
26. NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation
作者:霍婧阳(复旦大学),王艺楷(复旦大学),汪昀(复旦大学),钱学林(复旦大学),李翀(复旦大学),付彦伟*(复旦大学),冯建峰(复旦大学)
论文简介: NeuroPictor是一种基于fMRI信号调制扩散模型生成过程的新方法,旨在优化fMRI到图像的重建。该方法通过多个体预训练和多层次调制,将fMRI信号直接应用于扩散模型的生成过程。NeuroPictor分为三步:fMRI校准编码以减少个体差异,跨个体预训练以学习高低层次条件,单个体细化以适应特定个体。经过在超过60,000对fMRI图像数据中的训练和直接调制扩散模型生成过程,我们的模型在重建fMRI图像的底层细节方面取得了显著的进展。
-
Paper链接:
https://arxiv.org/abs/2403.18211
-
Code链接:
https://jingyanghuo.github.io/neuropictor/
27. MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing
作者:赵浩宇(复旦大学),陆天一(复旦大学),顾佳熙(华为诺亚方舟实验室),张星(复旦大学),郑清萍(浙江大学 ),吴祖煊(复旦大学),徐航(华为诺亚方舟实验室),姜育刚(复旦大学)
论文简介: 扩散模型被广泛应用在视频生成和编辑任务上。然而,如何在一个框架中同时支持这两种任务,是一个具有挑战性但至关重要的课题。此外,在由文本和参考图像同时指导的生成任务中,由于二者之间缺乏高对齐能力,导致生成的视频质量较差。因此,研究团队首次提出了一个统一的、具有多对齐能力的扩散模型MagDiff,以实现特定主题的视频生成以及视频编辑。为了统一生成和编辑任务,研究团队通过利用参考图像中主体区域的掩码,来控制需要生成和编辑的内容,从而实现了文本和生成内容的高度对齐。同时,为了提高文本和图像信息的对齐能力,研究团队提出了基于Dual Cross-attention的自适应特征对齐模块。此外,为了保持参考图像的细粒度信息,研究团队从不同分辨率的参考图像中来得到多尺度特征,实现了参考前景和生成内容的高度对齐。在UCF-101、MSR-VTT、DreamBooth和DAVIS四个数据集上的大量实验验证了MagDiff的优越性。相比于同类型的Image-to-Video生成模型,在UCF-101和MSR-VTT数据上的FVD指标分别提升了76和220。此方法实现了视频生成和编辑任务的统一,有望成为后续研究的基准工作之一。
-
Paper链接:
https://arxiv.org/abs/2311.17338
28. Improving Text-guided Object Inpainting with semantic Pre-inpainting
作者:陈奕夫(复旦大学),陈静雯(智象未来),潘滢炜(智象未来),李业豪(智象未来),姚霆(智象未来),陈智能(复旦大学),梅涛(智象未来)
论文简介: 本文提出的CATdiffusion将经典的单阶段的方法分解为两个部分:先从跨模态语义空间提前修复缺失区域,然后再利用预修复的结果来控制目标生成。此二阶段方法解决了基于文本的图像修复任务面临的修改结果和提示内容不相符以及修改区域和非修改区域不和谐两大问题,具备强大的编辑能力,并且能很好的控制生成。
-
Code链接:
https://github.com/Nnn-s/CATdiffusion
29. Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image
作者:焦鹏昆(复旦大学),赵娜(新加坡科技设计大学),陈静静(复旦大学),姜育刚(复旦大学)
论文简介: 开放词汇3D目标检测因为训练数据的稀缺而面临着巨大的挑战。本文首先利用2D目标检测模型来实现对场景中物体的零样本检测,这为识别新的三维物体提供了初始种子和选择引导。此外,为了将3D特征空间与视觉-语言特征空间对齐,本文引入了一种层次对齐方法,即使用预训练的“视觉-语言”基础模型,在实例、类别和场景级将3D特征空间与“视觉-语言”特征空间对齐。
-
Paper链接:
https://arxiv.org/abs/2407.05256
30. Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models
作者:公超(复旦大学),陈凯(复旦大学),魏志鹏(复旦大学),陈静静(复旦大学),姜育刚(复旦大学)
论文简介: 当前文生图模型面临安全问题,如在恶意攻击下生成风险概念的内容。开源模型如Stable Diffusion的防护措施易被绕过。现有风险概念移除方法不彻底、耗费资源多、对红队攻击不鲁棒、损害生成能力。本文提出了一种高效可靠的概念移除方法(RECE),通过迭代推导和遗忘风险概念,确保彻底删除风险概念并保留生成能力。该方法基于解析解形式,避免梯度下降,仅需三秒即可实现SOTA移除效果。
-
Code链接:
https://github.com/CharlesGong12/RECE
31. DreamMesh: Jointly Manipulating and Texturing Triangle Meshes for Text-to-3D Generation
作者:杨海波(复旦大学),陈杨(智象未来),潘滢炜(智象未来),姚霆(智象未来),陈智能(复旦大学),吴祖煊(复旦大学),姜育刚(复旦大学),梅涛(智象未来)
论文简介: 传统的文本到3D生成方法通常很难得到高质量的三角网格结果。本文首次对三角网格的学习进行了显式建模。将网格学习分为两个阶段:1)通过文本引导的雅克比行列式优化三角网格,获得全局平滑的粗糙网格,并通过交替使用预先训练的2D扩散模型以免调整的方式获得相应的粗糙纹理;2)通过联合优化粗糙网格并细化粗糙纹理贴图,得到了具有丰富纹理细节和高质量几何结构的3D结果。
-
项目链接:
https://dreammesh.github.io
32. Adversarial Prompt Tuning for Vision-Language Models
作者:张家明(北京交通大学),马兴军*(复旦大学),王欣(复旦大学),邱凌瑜(南京航空航天大学),王嘉琦(北京交通大学),姜育刚(复旦大学),桑基韬*(北京交通大学)
论文简介: 近年来,视觉-语言模型展示了强大的能力和广泛的应用前景。然而,这些模型也容易受到对抗图像的干扰。为了应对这一挑战,本文提出了对抗提示微调(Adversarial Prompt Tuning,AdvPT)技术,通过微调可学习的文本提示来提升视觉语言模型的对抗鲁棒性。具体来说,AdvPT利用已训练的CLIP图像编码器生成大量对抗图像,并将其嵌入保存到对抗嵌入库中。随后,通过微调文本向量,重对齐文本嵌入与对抗嵌入,利用文本编码器的内在知识提升模型的识别能力。实验结果表明,AdvPT在多个数据集上显著提升了对抗鲁棒性。
-
Paper链接:
https://arxiv.org/abs/2311.11261
-
Code链接:
https://github.com/jiamingzhang94/Adversarial-Prompt-Tuning
33. SegIC: Unleashing the Emergent Correspondence for In-Context Segmentation
作者:孟令琛(复旦大学),兰石懿(NVIDIA),李恒多(马里兰大学),Jose M. Alvarez(NVIDIA),吴祖煊*(复旦大学),姜育刚(复旦大学)
论文简介: 上下文分割要求模型基于少量带标注的样本对新的样本进行分割,这使模型能快速被应用在新的分割任务中,可显著减少训练和标注成本。然而上下文分割极具挑战,这是因为模型需要通过极少量样本快速学习分割规则而不是直接使用传统分割任务中预定义好的规则。为了解决这个问题,本文充分挖掘了大规模视觉模型中“涌现”的图像匹配能力,进而提出了SegIC以实现高效的上下文分割。具体而言,本文将上下文分割任务解耦成了四个阶段:特征提取、匹配发掘 、上下文指令提取和掩码解码,并发现仅通过训练一个视觉解码器就可以获得十分出色的上下文分割能力。大量实验验证了SegIC的有效性。
-
Paper链接:
https://arxiv.org/abs/2311.14671
-
Code链接:
https://github.com/MengLcool/SEGIC
34. PromptFusion: Decoupling Stability and Plasticity for Continual Learning
作者:陈昊然(复旦大学),吴祖煊(复旦大学),韩欣彤(虎牙),贾梦霖(康奈尔大学),姜育刚(复旦大学)
论文简介: 持续学习由于稳定性和可塑性困境面临重大挑战。传统方法往往过于侧重稳定性,导致模型在处理新任务时性能受限。为了解决这个问题,本文提出了名为PromptFusion的新框架,其包含稳定器和增强器两个模块,以同时实现稳定性和可塑性。为了提高计算效率,本文还引入了PromptFusion-Lite,在保持精度的同时显著减少了计算开销。大量实验验证了该方法的有效性。
-
Paper链接:
https://arxiv.org/pdf/2303.07223
-
Code链接:
https://github.com/HaoranChen/PromptFusion
35. MinD-3D: Reconstruct High-quality 3D objects in Human Brain
作者:高剑雄(复旦大学),傅宇倩(复旦大学),汪昀(复旦大学),钱学林(复旦大学),冯建峰(复旦大学),付彦伟*(复旦大学)
论文简介: 本文提出了学术界首个3D-fMRI数据集fMRI-Shape,该数据集包含14名被试和1624个3D物体(均来自ShapeNet),并定义了从人脑中重建三维物体的全新任务。基于fMRI-Shape,本文提出了首个从人脑解码3D物体的模型MinD-3D,验证了这一任务的可行性。
-
Paper链接:
https://arxiv.org/pdf/2312.07485
-
Code链接:https://github.com/JianxGao/MinD-3D
-
数据集链接:https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape
36. FedRA: A Random Allocation Strategy for Federated Tuning to Unleash the Power of Heterogeneous Clients
作者:苏上超(复旦大学),李斌(复旦大学),薛向阳(复旦大学)
论文简介: 在基础模型的联邦微调中,大量异构客户端由于计算和通信资源各异,无法同时支持完整模型的微调。为应对这一挑战,本文提出了一种新颖的联邦微调算法FedRA。在每轮通信中,FedRA随机生成分配矩阵,对于资源受限的客户端,根据分配矩阵重组原始模型,并使用LoRA进行微调。随后,服务器将LoRA参数聚合到原始模型的相应层中。相比于现有方法,FedRA允许所有客户端都无法支持完整的全局模型。在DomainNet和NICO++数据集上的测试结果表明,FedRA在各种Non-IID设置下都展现出了优越的性能。
37. EAFormer: Scene Text Segmentation with Edge-Aware Transformers
作者:余海洋(复旦大学),傅腾(复旦大学),李斌(复旦大学),薛向阳(复旦大学)
论文简介: 本文提出了一种名为EAFormer的边缘感知Transformer,旨在更准确地分割文本,尤其是文本的边缘部分。与现有文本分割方法不同,提出的方法注重文本边缘的重要性,通过设计文本边缘提取器和边缘引导编码器来实现,并采用基于MLP的解码器预测文本掩码。在常用基准数据集上的大量实验验证了EAFormer的有效性。实验结果表明,与以往方法相比,提出的方法在文本边缘分割方面表现更好。考虑到一些基准测试数据集(如COCO_TS和MLT_S)的标注不够准确,本文重新标注了这些数据集。实验证明,在训练时使用更准确的标注可以显著提升提出方法的性能。
38. UniProcessor: A Text-induced Unified Low-level Image Processor
作者:段慧煜(上海交通大学),闵雄阔(上海交通大学),吴思婧(上海交通大学),沈为(上海交通大学),翟广涛(上海交通大学)
论文简介: 图像处理包括图像恢复、图像增强等,涉及从退化的输入生成高质量的干净图像。基于深度学习的方法在单任务条件下已表现出对各种图像处理任务的卓越性能。然而,它们需要针对不同的退化和级别训练单独的模型,这限制了这些模型的泛化能力并限制了它们在现实世界中的应用。本文提出了一种用于低级视觉任务的文本诱导统一图像处理器,称为UniProcessor,它可以有效地处理各种退化类型和级别,并支持多模态控制。具体来说, UniProcessor使用主题提示对特定于退化的信息进行编码,并使用操作提示处理退化。这些上下文控制功能通过交叉注意注入到UniProcessor主干中以控制处理过程。对于自动主题提示生成,我们进一步通过指令调整技术构建了一个用于通用低级退化感知的视觉语言模型。UniProcessor涵盖了30种降级类型,大量实验表明,UniProcessor无需额外训练或调整即可很好地处理这些降级,并且优于其他竞争方法。此外,借助降级感知上下文控制,UniProcessor 首次展示了单独处理具有多个降级的图像中的单个失真的能力。
39. Prompt Grouping for Rehearsal-Free Continual Learning
作者:龚仁春(华东师范大学),张志忠(华东师范大学),田旭东(华东师范大学),曲延云(厦门大学),汪旻(商汤科技),鲁学权(La Trobe University),唐永强(中国科学院自动化所),谭鑫(华东师范大学),谢源(华东师范大学)
论文简介: 为了解决之前方法无法利用相似任务互补知识的问题,本文引入了“提示敏感度”的概念,用以评估每个提示对于当前学习任务的重要性。根据这个评分,相似任务的提示会被分组,使得组内的任务能够共享。本文还提出了一种校正策略,通过Proxy Loss和Head Correction来增强不同任务之间的特征提取器和分类头的区分能力。我们的方法在多个数据集上显著超过之前方法。
40. LightenDiffusion: Unsupervised Low-Light Image Enhancement with Latent-Retinex Diffusion Models
作者:江海(四川大学、旷视科技),罗骜(西南交通大学、旷视科技),刘笑宏(上海交通大学),韩松臣(四川大学),刘帅成(电子科技大学、旷视科技)
论文简介: 本文提出了基于隐空间-视网膜扩散模型的无监督低光图像增强方法,它将物理上可解释的视网膜理论和扩散模型相结合,通过在大量非成对的真实世界数据上训练以学习不同光照场景下的降质表示,提高扩散模型的泛化能力。
-
Paper链接:
https://arxiv.org/abs/2407.08939
-
Code链接:https://github.com/JianghaiSCU/LightenDiffusion
41. AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering
作者:陈修元(上海交通大学),林苑(ByteDance Research),张雨辰(ByteDance Research),黄维然(上海交通大学)
论文简介: 本文提出的AutoEval-Video是一个用来全面评估大型视觉-语言模型在开放式视频问题回答方面的新颖而具有挑战性的测试集。本测试集构建了横跨9个技能维度的开放式视频问题,包含感知、理解和生成等能力方面的评估,并涵盖40多个不同主题的视频素材。为了高效评估模型对于开放式问题的答案,我们采用了基于大型语言模型(LLM)的评估方法。我们为每个视频-问题对注释了独特的评估规则。为了最大限度地提高这些规则的稳健性,我们开发了一种新颖的对抗性注释机制。使用规则作为提示语,GPT-4能达到大约97.0%的稳定评估准确率,与人类评估者的94.9%-97.5%的准确率相当。此外,我们还评估了多个视觉语言模型在AutoEval-Video上的表现,其中GPT-4V(ision)的表现显著优于其他模型,达到了32.2%的准确率。然而,与人类72.8%的准确率相比,还有很大的提升空间。通过广泛的案例研究,我们总结并发现了视觉语言模型的几个缺点,比如有限的时序和动态理解能力、幻觉现象以及过于泛化的响应等。
-
Paper链接:
https://arxiv.org/abs/2311.14906
-
Code链接:https://github.com/Xiuyuan-Chen/AutoEval-Video
42. Enhancing Cross-Subject fMRI-to-Video Decoding with Global-Local Functional Alignment
作者:李翀(复旦大学),钱学林(复旦大学),汪昀(复旦大学),霍婧阳(复旦大学),薛向阳(复旦大学),付彦伟(复旦大学),冯建峰(复旦大学)
论文简介: 我们采集了一个大规模fMRI-视频配对的数据集,包含来自8个人的约75k样本,是之前基准数据集的约4.5倍。此外本文提出了fMRI全局-局部功能对齐,将不同个体 fMRI 帧对齐到统一脑空间,结合基于Transformer的fMRI编码器和基于扩散模型的视频生成器,解码fMRI生成了语义信息一致的高质量视频,在跨人语义分类任务中实现了84.7%的准确率。
43. Radiative Gaussian Splatting for Efficient X-ray Novel View Synthesis
作者:蔡元昊(约翰霍普金斯大学),梁逸勋(香港科技大学(广州) ),王嘉昊(约翰霍普金斯大学),王昂天(约翰霍普金斯大学),张宇伦*(上海交通大学),杨小康(上海交通大学),周纵苇*(约翰霍普金斯大学),Alan Yuille(约翰霍普金斯大学)
论文简介: 由于X射线比自然光具有更强的穿透力,被广泛应用于透射成像。现有基于NeRF的方法在生成新视角X射线投影时,训练时间长且推理速度慢。本文提出了一种名为X-Gaussian的3D高斯分布框架,用于X射线新视角合成。我们设计了一个排除视角方向影响的辐射高斯点云模型,并开发了CUDA实现的可微分辐射光栅化(DRR)。此外,提出了角度-姿态立方体均匀初始化(ACUI)策略。实验表明,X-Gaussian性能提高6.5dB,训练时间缩短至15%,推理速度提升73倍,并在稀疏视角CT重建中展示了实用价值。
-
Paper链接:
https://arxiv.org/abs/2403.04116
-
Code链接:https://github.com/caiyuanhao1998/X-Gaussian
44. SRPose: Two-view Relative Pose Estimation with Sparse Keypoints
作者:殷睿(横乐医学科技),张宇伦(上海交通大学),潘哲荣(腾讯光子工作室),朱建军(横乐医学科技),王澄(横乐医学科技),贾骉*(横乐医学科技)
论文简介: SRPose第一次使用稀疏特征点的描述子和位置信息作为输入,更精确地估计出相机或物体在两帧之间的相对位姿变换,比传统特征点匹配法更加快速。SRPose采用两视角几何,适用于不同的相机内参和图像大小,为SfM和SLAM提出了新的方向。
-
Paper链接:
https://arxiv.org/abs/2407.08199
-
Code链接:https://github.com/frickyinn/SRPose
45. HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution
作者:张翔(苏黎世联邦理工学院),张宇伦*(上海交通大学),Fisher Yu(苏黎世联邦理工学院)
论文简介: Transformer在计算机视觉任务中表现出色,包括图像超分辨率(SR)。然而,流行的基于Transformer的SR方法通常采用窗口自注意力,计算复杂度随窗口大小呈平方增长,导致窗口固定且接收野有限。本文提出了一种将基于Transformer的SR网络转换为分层Transformer(HiT-SR)的通用策略,通过多尺度特征提升SR性能,同时保持高效设计。我们首先将常用的固定小窗口替换为扩展的分层窗口,以聚合不同尺度的特征并建立长程依赖关系。考虑到大窗口的计算量,我们设计了一种线性复杂度的空间-通道相关方法,有效收集分层窗口的空间和通道信息。大量实验验证了HiT-SR的有效性和效率,我们改进的SwinIR-Light、SwinIR-NG和SRFormer-Light在参数、FLOPs更少,速度更快(∼7倍)的情况下,达到了最新的SR结果。
-
Paper链接:
https://arxiv.org/abs/2407.05878
-
Code链接:https://github.com/XiangZ-0/HiT-SR
46. Hierarchical Separable Video Transformer for Snapshot Compressive Imaging
作者:王平(西湖大学),张宇伦(上海交通大学),王理顺(西湖大学),袁鑫(西湖大学)
论文简介: 最近,深度学习模型在快照压缩成像(SCI)逆问题上取得了显著成功,即从单次观测中重建多个高保真帧。然而,现有研究缺乏对空间掩模和时间混叠的深入理解,通常沿用成功的视频恢复模型(如去噪、去模糊)的设计,限制了整体性能。在本工作中,我们专门设计了一个网络架构和层级可分离视频变压器(HiSViT)作为基础模块,由跨尺度可分离多头自注意力(CSS-MSA)和门控自调制前馈网络(GSM-FFN)组成。CSS-MSA将时空相似性计算分解为空间和时间维度,但在单个注意力层中按可控尺度关注所有时空标记。GSM-FFN通过门控机制和时空可分离卷积为CSS-MSA引入局部性。HiSViT由多个CSS-MSA和GSM-FFN组建,每组关注不同尺度,实现多尺度交互和长距离建模。大量实验表明,我们的模型达到了最先进的性能。

公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

