大数跨境
0
0

【专题】AI领域中的“多模态”相关研究-2025年11月

【专题】AI领域中的“多模态”相关研究-2025年11月 AI新文
2025-11-26
2

由于微信公众号开始试行乱序推送,为了让您在第一时间获取AI新文,请将"AI新文"设为星标。


FreeEdit:基于多模态指令的无遮罩参考图像编辑技术

原标题:FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction

作者:Runze He; Kai Ma; Linjiang Huang; Shaofei Huang; Jialin Gao; Xiaoming Wei

期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence

出版时间:2025/11/24

摘要:引入用户指定的视觉概念进行图像编辑是非常实用的,因为这些概念比基于文本的描述更精确地传达了用户的意图。我们提出FreeEdit,一种实现此类基于参考图像编辑的新方法,该方法可以根据用户友好的语言指令准确地从参考图像中再现视觉概念。我们的方法利用多模态指令编码器来编码语言指令以指导编辑过程。这种隐式的定位编辑区域的方法消除了手动编辑掩码的需要。为了增强参考细节的重建,我们引入了解耦残差参考注意力(Decoupled Residual Refer-Attention (DRRA))模块。此模块旨在以残差方式将细节提取器提取的细粒度参考特征集成到图像编辑过程中而不干扰原始自注意力机制。鉴于现有的数据集不适合参考基于的图像编辑任务,特别是由于难以构建包含参考图像的图像三元组,我们整理了一个高质量的数据集FreeEdit,使用一种新开发的两次重绘方案。FreeEdit 包含编辑前后的图像,详细的编辑指令以及保持编辑对象身份的参考图像,涵盖任务如对象添加、替换和删除。通过在FreeEdit上进行分阶段训练后进行质量调优,FreeEdit实现了通过便捷的语言指令完成高质量的零样本编辑。我们进行了广泛的实验来评估FreeEdit在多种任务类型上的有效性,展示了其优于现有方法的优势。


原文链接



卷积神经网络在多模态序贯推荐中的再思考

原标题:Rethinking Convolutional Neural Network in Multimodal Sequential Recommendation

作者:Zhicheng Zhou;Xiangwu Meng;Yujie Zhang

期刊:ACM Transactions on Information Systems

出版时间:2025/11/21

摘要:多模态数据可以更全面地描述用户兴趣的变化,因此多模态序贯推荐(MSRS)近年来得到了广泛的关注。然而,MSRS面临着两个关键挑战:(1)如何有效地建模用户交互序列中的长期依赖关系;以及(2)如何有效地融合多模态特征。为了解决这些挑战,本文提出了一种新的基于纯卷积神经网络(CNN)的多模态序列推荐体系结构,命名为PCMSRec。PCMSRec包含两个关键创新点:一是利用大核卷积的全局接收场,对多模态用户交互序列的长距离依赖进行建模,突破了现有基于CNN的方法只能捕获局部短距离依赖的限制;其次,通过利用CNN架构的高度灵活性,它通过精心设计的卷积层架构和融合策略来建模项目的多模态特征之间的关系。具体来说,PCMSRec由两个块组成:序列特征块和模式块。序列特征块通过大的核卷积层对用户交互序列中的长相关性进行建模,并结合瓶颈结构提取项目特征。模态块使用多个卷积层来建模多模态特征之间的复杂关系。在五个公共数据集上的实验结果表明,PCMSRec的性能优于现有的方法。


原文链接



用于多模态图像融合的空间频率增强Mamba

原标题:Spatial-Frequency Enhanced Mamba for Multi-Modal Image Fusion

作者:Hui Sun; Long Lv; Pingping Zhang; Tongdan Tang; Feng Tian; Weibing Sun

期刊:IEEE Transactions on Image Processing

出版时间:2025/11/19

摘要:多模态图像融合(MMIF)旨在集成来自不同模态的互补图像信息,以产生信息丰富的图像。以往基于深度学习的MMIF方法通常采用卷积神经网络(CNN)或变换器进行特征提取。然而,由于CNN的有限接收场和变压器的高计算成本,这些方法提供了不令人满意的性能。最近,Mamba展示了一种强大的潜力,可以用线性复杂度建模长期依赖关系,为MMIF提供了一种有前途的解决方案。不幸的是,Mamba缺乏完整的空间和频率感知,这对MMIF非常重要。此外,采用图像重建(IR)作为辅助任务已被证明对MMIF是有益的。然而,一个主要的挑战是如何高效地利用IR。为了解决上述问题,我们提出了一种用于MMIF的空间频率增强Mamba融合(SFMFusion)框架。更具体地说,我们首先提出了一种三分支结构来耦合MMIF和IR,它可以保留源图像中的完整内容。然后,我们提出了空间频率增强的Mamba块(SFMB),它可以在空间和频率域增强Mamba,以进行全面的特征提取。最后,我们提出了动态融合Mamba块(DFMB),它可以部署在不同的分支上进行动态特征融合。大量实验表明,在六个MMIF数据集上,我们的方法比大多数最先进的方法获得了更好的结果。源代码位于https://github.com/SunHui1216/SFMFusion.


原文链接



基于多视图学习的广义多模态讽刺检测

原标题:Towards Generalized Multimodal Sarcasm Detection with Multi-View Learning

作者:Diian Guo; Hao Peng; Cong Cao; Fangfang Yuan; Yanbing Liu; Philip S. Yu

期刊:IEEE/ACM Transactions on Audio, Speech and Language Processing

出版时间:2025/11/17

摘要:多模态讽刺检测(MSD)对于理解复杂的人类通信和构建智能情感计算系统至关重要。然而,现有的MSD方法通常过度依赖伪相关性,导致学习的特征偏离讽刺的真实语义。这种偏差严重损害了当前模型在训练环境之外的泛化能力。提出了一种基于约束的去纠缠多视图不一致性学习框架(ConDi),旨在有效地分离多模态讽刺中的异构特征并与之交互。鉴于多模态嵌入空间通常是异质的,直接融合可以破坏来自不同模态的嵌入的固有结构。为了解决这个问题,我们采用最优传输算法将来自不同模式的嵌入对齐到统一的空间中。随后,我们从三个角度共同学习不一致性:情态解纠缠、全局情感和局部描述。为了实现讽刺特征的弱融合,我们设计了一个基于冲突的融合模块来集成来自这三个视图的特征。实验结果证明了ConDi在多模态讽刺数据集上的优越性,进一步的分析表明,ConDi可以有效地减少对伪相关的依赖。此外,分布外(OOD)实验表明,ConDi具有更好的泛化能力。


原文链接



基于多模态积分的有效有源噪声抵消的动态路径估计和混合滤波方法

原标题:Dynamic Path Estimation and Hybrid Filtering Approaches for Effective Active Noise Cancellation With Multimodal Integration

作者:Fareedha; Vasundhara

期刊:IEEE/ACM Transactions on Audio, Speech and Language Processing

出版时间:2025/11/17

摘要:在动态声学环境中,有源噪声抵消(ANC)系统必须解决适应不断发展的传播路径和有效管理各种噪声特性的双重挑战。本文提出了一种先进的ANC框架,该框架将动态路径估计与多模态算法集成相结合,以提高真实世界条件下的噪声衰减性能。使用扩展卡尔曼滤波器(EKF)对主路径和次路径进行自适应建模,该滤波器根据环境和源的变化动态更新路径系数,确保精确的噪声建模和消除。SpectraANC-2D是一种基于2D CNN的噪声分类器,分析频谱和统计特征,并将噪声分类为平稳(SN)、短期非平稳(STNS)和长期非平稳(LTNS)类型,以处理噪声的变化时间相关性。基于这些分类,系统动态地选择或组合算法,包括用于平稳噪声的滤波x最小均方(FxLMS)算法、SpectraANC-1D,一种用于瞬态噪声抑制的1D CNN,以及ANCForer,一种为处理具有长期相关性的噪声而优化的基于变压器的模型。综合评估证实了所提出的系统在各种场景中具有卓越的降噪能力,在适应性和衰减方面超过了传统方法。通过关键指标(包括功率谱密度(PSD)、降噪水平(NRL)、残余噪声分析和测试精度)验证性能,确认噪声抑制和系统鲁棒性的显著改进。本研究对动态路径自适应和算法融合在推进ANC系统中的协同潜力进行了评估。


原文链接



一种与全监督方法相竞争的无注释视觉多模态命名实体识别方法

原标题:A Visual Annotation-Free Method That Rivals Fully Supervised Methods for Grounded Multimodal Named Entity Recognition

作者:Jia Yang; Jianfei Yu; Zilin Du; Wenya Wang; Li Yang; Rui Xia

期刊:IEEE/ACM Transactions on Audio, Speech and Language Processing

出版时间:2025/11/17

摘要:固定多模态命名实体识别(GMNER)旨在从图像-文本对中提取命名实体及其类型和相应的视觉对象。然而,现有的GMNER方法依赖于昂贵的多模态注释,限制了它们在实际应用中的可扩展性。为了解决这个问题,我们提出了一个可视化的无注释框架,该框架利用纯文本NER数据和零快照实体可视化基础(ZeroEVG)方法。ZeroEVG由三个模块组成:(1)候选对象生成,预选择视觉对象候选;(2)实体-对象匹配,确定实体是否具有视觉存在;(3)实体视觉定位,使用GradCAM的变体来识别可接地实体的边界框。在两个基准数据集上的实验结果表明,我们的视觉无注释框架在完全监督的多模态方法中获得了竞争性的性能,并且在GMNER和EVG任务的相同主干下甚至超过了其中的一些方法。


原文链接



空间知识图引导的多模态综合

原标题:Spatial Knowledge Graph-Guided Multimodal Synthesis

作者:Yida Xue; Zhen Bi; Jinnan Yang; Jungang Lou; Kehai Chen; Min Zhang

期刊:IEEE/ACM Transactions on Audio, Speech and Language Processing

出版时间:2025/11/17

摘要:多模态大语言模型(MLLMs)的最新进展显著增强了它们的能力;然而,他们的空间感知能力仍然存在显著的局限性。为了解决这一挑战,多模态数据合成提供了一种有前途的解决方案。然而,确保合成数据符合空间常识是一项不平凡的任务。我们的方法通过提供用于生成空间相干数据的系统框架来解决这一关键差距。在这项工作中,我们引入了SKG2DATA,这是一种基于知识到数据生成的概念,由空间知识图指导的新型多模态综合方法。SKG2DATA使用自动管道来构建空间知识图(SKG),该图有效地捕获类似人类的空间认知,包括方向和距离关系。然后,这些结构化表示用作集成合成流水线的精确指导,其中扩散模型生成空间一致的图像,而MLLM生成相应的文本描述。SKG的自动构建允许可扩展地生成各种但现实的空间配置,克服了手动数据收集和注释的限制。大量实验表明,由各种类型的空间知识(包括方向和距离)合成的数据显著增强了MLLM的空间感知和推理能力,尽管对其一般能力略有损害。我们希望基于知识的数据合成思想能够促进空间智能的发展


原文链接



基于注意力增强记忆引导网络的多模态工业异常检测

原标题:Multimodal Industrial Anomaly Detection via Attention-Enhanced Memory-Guided Network

作者:Shuaibo Liu; Xiaoli Luan; Yueyang Li

期刊:IEEE Transactions on Multimedia

出版时间:2025/11/14

摘要:异常检测是自动化生产线质量控制的关键技术。目前,基于2D的异常检测方法无法识别产品中的几何结构异常。为了解决这一局限性,本文提出了一种使用3D点云和RGB图像的多模态异常检测模型。为了保证每个模态的单域推理能力,我们设计了一个注意力增强的双记忆库来分别存储局部点云特征和RGB特征。注意机制增强了特征描述符的信息性和可区分性,显著提高了存储器中的数据质量。在推理阶段,双记忆库中的局部点云特征引导RGB特征计算2D模态中的异常分数。这种记忆引导的方法加强了不同形式的信息之间的相关性。此外,为了提高模型的整体分割精度,我们提出了一种基于符号距离值权重图的异常评分方案。综合点云数据在几何结构异常检测中的优势和RGB数据在颜色异常检测中优势,得到最终的异常检测结果。在MVTec 3D-AD和Eyecandies数据集上的大量实验表明,与其他高级方法相比,该方法实现了更高的分割精度。


原文链接



双向变分GAN多模态图像合成的泛化到个性化学习

原标题:Generic-to-Personalised Learning for Multimodal Image Synthesis With Bidirectional Variational GAN

作者:Long Chen; Xirui Dong; Jiangrong Shen; Lu Zhang; Qi Xu; Gang Pan

期刊:IEEE Transactions on Multimedia

出版时间:2025/11/14

摘要:多模态图像合成是从源模态图像中预测目标模态图像的一种方法,在临床诊断领域得到了广泛的关注。单向和双向多模态图像合成方法都已在医学领域进行了探索,然而,单向模型严重依赖于成对图像,而当前的双向模型由于其无监督训练模式通常忽略局部图像细节。在这项工作中,我们提出了一种用于多模态图像合成的双向变分生成对抗网络(BVGAN),该网络仅使用有限数量的成对图像来实现任意两种模式之间的高质量双向转换。首先,BVGAN的发生器采用变分结构(VAS)来调整降噪的潜在空间。这种规则化对潜在空间施加平滑度,使BVGAN能够产生高质量、无噪声的图像。其次,引入一种新的通用到个性化(GTP)学习策略来训练BVGAN,并减少其对大量成对图像的依赖。GTP最初利用无监督学习模型,使用来自普通患者的未配对图像来捕获两种模式之间的全局映射。然后应用监督学习模型来细化单个患者的映射,增强图像细节。最后,GTP学习策略和VAS使BVGAN能够在两个多模态医学数据集上实现最先进的性能:大脑CTMRI和BRATS。


原文链接



具有动态语义提示的自适应多模态视觉跟踪

原标题:Adaptive Multi-Modal Visual Tracking With Dynamic Semantic Prompts

作者:Jiahao Wang; Fang Liu; Licheng Jiao; Hao Wang; Shuo Li; Lingling Li

期刊:IEEE Transactions on Multimedia

出版时间:2025/11/14

摘要:基于RGB的目标跟踪是计算机视觉中的一项基本任务,旨在识别、定位和连续跟踪连续视频帧中的感兴趣对象。尽管传统RGB跟踪器的性能有了显著的进步,但它们仍然面临着在复杂背景、遮挡和快速移动的情况下保持准确性和鲁棒性的挑战。为了应对这些挑战,结合视觉辅助模式得到了极大的关注。除此之外,集成自然语言信息通过提供高级语义上下文、增强健壮性和澄清目标优先级,进一步提高跟踪器性能,提供了额外的优势。本文提出了具有动态语义提示的自适应多模态视觉跟踪(AMVTrack)跟踪器,该跟踪器有效地结合了图像描述,并避免了跟踪过程中的文本依赖性,以提高灵活性和适应性。AMVTrack通过冻结图像编码器、文本编码器和盒头的参数,并仅优化几个可学习的提示参数,显著减少了计算资源消耗。此外,我们还引入了自适应动态语义提示生成器(Adaptive Dynamic Semantic Prompt Generator,ADSPG),该生成器基于视觉特征动态生成语义提示,以及视觉语言融合自适应(visual Language Fusion Adaptation,V-L FA)方法,该方法集成了多模态特征,以确保信息的一致性和互补性。此外,我们对图像编码器进行了划分,以对不同深度和宽度区域的特征重要性之间的关系进行深入研究。实验结果表明,AMVTrack在多个基准数据集上实现了显著的性能改进,证明了其在复杂场景中的有效性和鲁棒性。


原文链接



基于多模态演示的机器人学习深度生成模型综述

原标题:A Survey on Deep Generative Models for Robot Learning From Multimodal Demonstrations

作者:Julen Urain; Ajay Mlekar; Yilun Du; Nur Muhammad ‘Mahi’ Shafiullah; Danfei Xu; Katerina Fragkiadaki

期刊:IEEE Transactions on Robotics

出版时间:2025/11/13

摘要:随着深度生成模型的出现,建议从数据中学习机器人行为模型的领域“从演示中学习”(Learning from Demonstrations)越来越受欢迎。尽管多年来一直以模仿学习、行为克隆或反向强化学习等名义研究该问题,但经典方法依赖于无法很好地捕获复杂数据分布或无法很好扩展到大量演示的模型。近年来,机器人学习社区对使用深度生成模型来捕获大型数据集的复杂性越来越感兴趣。在这项调查中,我们旨在对去年在机器人技术中使用深度生成模型的进展进行统一和全面的回顾。我们提出了社区已经探索的不同类型的模型,例如基于能量的模型、扩散模型、行动价值图或生成性对抗网络。我们还介绍了使用深度生成模型的不同类型的应用,从抓取生成到轨迹生成或成本学习。生成模型最重要的元素之一是分布的泛化。在我们的调查中,我们回顾了社区为改进所学模型的泛化而做出的不同决策。最后,我们强调了研究挑战,并提出了机器人深度生成模型学习的一些未来方向。


原文链接



多模态情感计算中缺失模态问题的情感引导瓶颈扩散

原标题:Affection-guided Bottleneck Diffusion for Missing Modality Issue in Multimodal Affective Computing

作者:Ronghao Lin; Qiaolin He; Ying Zeng; Sijie Mai; Li Huang; Haifeng Hu

期刊:IEEE Transactions on Affective Computing

出版时间:2025/11/12

摘要:多模态情感计算中的模态缺失问题严重阻碍了多模态学习的鲁棒性和性能,特别是在真实世界中。现有方法通常无法充分利用剩余模态,导致缺失模态的噪声重建过程,并产生次优结果。此外,这些方法大多依赖于设计复杂的网络来处理各种缺失场景,这使得它们无法利用为完整的多模态输入训练的原始预训练多模态网络。为了解决这些挑战,我们提出了情感引导瓶颈扩散(ABDiff),这是一种新的方法,利用基于分数的扩散生成编码器来重建潜在空间中缺失的模态,而不修改预先训练的融合模型。通过在缺失模态和剩余模态内部以及之间结合自我和交叉注意机制,ABDiff在生成期间捕获模态特定动力学和跨模态交互。此外,引入情感引导的信息瓶颈来过滤与任务无关的噪声和模态特定的冗余,稳定丢失模态的生成过程。生成的表示与剩余的模态无缝集成到预先训练的融合网络中。在四个公共多模态情感计算数据集上的大量实验表明,ABDiff在完全模态场景和不完全模态场景下都优于以前的方法。代码在https://github.com/RH-Lin/ABDiff中发布。


原文链接



【声明】内容源于网络
0
0
AI新文
AI顶刊顶会新论文一号通,每天推送,助您时刻站在AI研究最前沿。包括:人工智能基础、交叉应用、脑认知与类脑智能、机器学习、模式识别与计算机视觉、自然语言处理、知识工程与数据挖掘、跨媒体与人机交互、智能机器人与系统、智能芯片与计算等。
内容 223
粉丝 0
AI新文 AI顶刊顶会新论文一号通,每天推送,助您时刻站在AI研究最前沿。包括:人工智能基础、交叉应用、脑认知与类脑智能、机器学习、模式识别与计算机视觉、自然语言处理、知识工程与数据挖掘、跨媒体与人机交互、智能机器人与系统、智能芯片与计算等。
总阅读31
粉丝0
内容223