由于微信公众号开始试行乱序推送,为了让您在第一时间获取AI新文,请将"AI新文"设为星标。
基于共识特定重构的多视图锚定子空间聚类
原标题:Multi-view anchor subspace clustering via consensus-specific reconstruction
作者:Xiaojin Ren;Jihua Zhu;Wenbiao Yan;Shunshun Bai;Ren Guan;Bin Chen;Ziyuan Chen;Qinghai Zheng
期刊:Information Fusion
出版时间:2025/11/24
摘要:对于多视图数据,如何有效地从特定于视图的信息中获取共识信息是一个具有挑战性的课题。这是因为视图是由共识信息和数据源特定信息的混合物形成的,使得视图之间的差异增加,并且跨视图信息难以融合。此外,由于应用领域的可变性,多视图集群通常需要处理可变的数据规模,因此如何平衡性能和效率仍然是一个值得关注的问题。为此,我们提出了一种新的基于一致性特定重建的多视图锚定子空间聚类方法(MVASC-CSR),致力于动态融合来自多视图异构数据的一致性信息。具体来说,MVASC-CSR构建了一种嵌入式共识重建方法,以统一单视图提取、多视图融合和子空间学习的过程。此外,MVASC-CSR设计了一种跨层自监督联合学习策略,实现了各级信息重构,从而全面集成了有利于共识目标的异构视图中的信息。在基准数据集上的大量实验验证了该方法的有效性和竞争力。此工作的演示代码可在https://github.com/Q0W8E2R2上获取。
原文链接
弥合差距,而非强加绑定:用于有毒表情包检测的双空间对齐与融合框架
原标题:Bridging the Gap, Not Forcing the Tie: Dual-Space Alignment and Fusion Framework for Toxic Memes Detection
作者:Yulin Lei;Jin Yang;Huijia Liang;Tianrui Li
期刊:Information Fusion
出版时间:2025/11/23
摘要:梗图作为互联网文化的载体,在社交平台上通过图文混排的格式广泛传播。然而,它们同时作为传播攻击性、仇恨性和针对群体的内容的有毒载体,对网络治理提出了紧迫的挑战。有毒迷因的多模态特性不仅增强了它们的隐蔽性和传播性,而且还引入了双重挑战:模态异质性和模态不平衡。我们提出了一种双空间对齐和融合框架(ALFUS)。它首先采用了一种Chain-of-Description引导的数据增强策略来提升语义丰富性。然后我们在互补的特征空间和决策空间之间进行表示和功能对齐。为了在特征空间中保持特定模态的特征,ALFUS模型通过计算模态向量所包围的区域来建模跨模态关系,并通过最小化该区域来强制几何表示对齐。在决策空间中,为了缓解多模态训练固有的不平衡问题,我们引入了一种反事实策略,该策略能够动态地建模每种模态的贡献,从而实现跨模态的功能对齐。我们通过三个多语言有毒表情包数据集来评估所提出的框架的通用性和有效性。实验结果证明了ALFUS在所有数据集上的顶尖性能,强调了其跨语言适应性和多场景鲁棒性。
原文链接
PairHuman:一种用于定制双人生成的高保真摄影数据集
原标题:PairHuman: A High-Fidelity Photographic Dataset for Customized Dual-Person Generation
作者:Ting Pan;Ye Wang;Peiguang Jing;Rui Ma;Zili Yi;Yu Liu
期刊:Information Fusion
出版时间:2025/11/23
摘要:个性化双人肖像定制具有相当大的潜在应用,例如保存情感记忆和促进婚礼摄影规划。然而,缺乏基准数据集阻碍了在双人肖像生成中追求高质量的定制。在本文中,我们提出了PairHuman数据集,这是第一个专门为生成符合高摄影标准的双人肖像而设计的大规模基准数据集。PairHuman数据集包含超过100K个图像,这些图像捕获各种场景、服装和双人交互,以及丰富的元数据,包括详细的图像描述、人员定位、人类关键点和属性标记。我们还介绍了DHumanDiff,它是专门为双人肖像生成而设计的基线,具有增强的面部一致性,并同时平衡个性化人物生成和语义驱动的场景创建。最后,实验结果表明,我们的数据集和方法生成了高度定制的人像,具有根据人类偏好定制的卓越视觉质量。我们的数据集在https://github.com/annaoooo/PairHuman上公开。
原文链接
扰动与恢复:联邦遗忘中高效类别撤销
原标题:Perturb and Restore: Efficient Category Revocation in Federated Unlearning
作者:Ning Pang;Zou Li;Pengcheng Wan;Hongchao Wu;Yuchen Bing;Xiang Zhao
期刊:Information Fusion
出版时间:2025/11/23
摘要:随着边缘设备的兴起,对安全智能服务的需求日益增长。传统的集中式深度学习方法从多个客户端收集数据,引发了严重的隐私担忧。为了规避这一点,联邦学习(FL)能够在不共享原始数据的情况下进行协作模型训练。由于隐私立法现在赋予用户被遗忘权,FL系统必须支持训练数据的选择性遗忘。常见的情况是类别撤销,称为类级别联合遗忘(class-level federated unlearning)。最近的努力要么是针对特定的网络结构设计的,要么依赖于目标数据。因此,在本文中,我们提出PAR,一种通用的零样本类级联邦遗忘方法,不需要访问目标数据。该方法涉及用要遗忘的类别的反样本扰动模型,然后在保留的数据上微调模型以恢复性能。具体来说,在服务器上部署了一个图像生成器,该生成器产生对应于撤回类的假反样本,这些反样本随后被用来干扰模型对那些类的记忆。客户使用这些假反样本更新他们的模型,并且后续的联邦训练恢复了模型在非目标类上的性能。在五个具有不同网络的数据集上进行的大量实验表明,我们的方法相比重新训练基准加速了遗忘时间10-20倍,并优于现有的类级别联邦撤回方法。我们的代码可在https://github.com/lizouss/PAR获取。
原文链接
多模态推荐系统:表示、建模和优化综述
原标题:Multimodal Recommender Systems: A Survey of Representation, Modeling, and Optimization
作者:Lin Pan;Zhiqiang Pan;Fei Cai;Honghui Chen
期刊:Information Fusion
出版时间:2025/11/23
摘要:随着在线信息的激增,推荐系统已成为缓解信息过载和提供个性化内容不可或缺的一部分。传统的协同过滤方法,依赖于用户交互日志,常常在稀疏反馈、新用户冷启动以及长尾商品方面存在困难。为了解决这些限制,最近的研究整合了多模态内容,如文本、图像和音频,它们提供了互补的语义信号。多模态推荐系统(MRSs)利用此类异构数据构建更具表现力的项目表示,并生成高度个性化的推荐。然而,模态异质性在表征学习和融合方面带来了基本的挑战。鉴于这些问题,本次调查提供了对MRS的全面概述,围绕四个方面展开。首先,它回顾了特定模态的表示技术与融合机制,并比较了文本、视觉和声学数据的编码器,对比了静态和动态融合策略。其次,它根据建模范式而不是孤立的组件对现有方法进行分类。生成的分类涵盖了基于图和基于变压器的模型,以及新兴的自监督、因果关系感知和大型语言模型(LLM)增强的方法,并对每个范式提出了研究展望。第三,它分析了影响性能和稳健性的模型优化技术。最后,它概述了高效、可扩展且可靠的MRS的研究方向。通过综合当前进展并突出新兴趋势,本调查旨在阐明研究格局并为未来的方法创新提供前瞻性见解。所有相关材料均可在https://github.com/ppan-lin/MRSs-Survey获取。
原文链接
鲁棒微表情检测的多模态融合:集成时间定位和情绪分类
原标题:Multi-Modal Fusion for Robust Micro-Expression Detection: Integrating Temporal Spotting and Emotion Classification
作者:Jiaonan Zhang;Xinyue Wang;Yiwen Zhang;Tianxu Xu;Zhilin Zhang;Qiang Wang;Zhongqi Pan;Yang Yue
期刊:Information Fusion
出版时间:2025/11/22
摘要:微表情(ME),作为一种短暂的非自愿面部动作,揭示了真实的情绪,由于其细微性、瞬时性和对光照等现实世界变化的敏感性,分析起来颇具挑战性。现有的依赖单模态RGB数据以及两阶段定位和识别管道的方法在处理未经裁剪的视频和受限实验室条件下存在困难。本文提出了一种端到端的时空联合模型以及跨模态数据集来解决这些问题:该模型使用时空注意力和跨注意力同时定位ME边界并从原始长视频中分类情感,高效处理嵌套或重叠的多情感片段,同时避免手动预处理和误差累积;跨模态数据集同步捕获活动红外线、深度和RGB模式以减轻照明效果的影响,其中红外线减少环境干扰,深度保持三维面部变形以补充极端光照下的RGB纹理。核心创新包括多模态ME数据集以及一个端到端框架,使未裁剪视频中的复杂情感动态统一处理成为可能。实验验证了多模态融合和时间注意力机制能够提高定位精度和识别准确性,推动ME分析向心理学、安全和医疗保健领域的稳健实际应用发展。我们的框架的源代码可在https://github.com/Jiaonan-JN/STCAN获得。
原文链接
基于深层卷积状态空间模型的人体活动识别器
原标题:Deep Convolutional State Space Model as Human Activity Recognizer
作者:Li Wang;Can Bu;Minghui Yao;Di Xiong;Shuoyuan Wang;Dongzhou Cheng;Lei Zhang;Hao Wu;Aiguo Song
期刊:Information Fusion
出版时间:2025/11/22
摘要:人体活动识别(HAR)已广泛采用深度学习进行研究,但现有方法仍然面临关键限制。基于CNN-LSTM的模型如DeepConvLSTM及其衍生模型展示了强大的时间建模能力但往往未能充分利用传感器之间的空间依赖关系图神经网络(GNNs)需要大量的标注数据,并且基于注意力的机制引入了较大的计算开销,使得它们在资源受限的人体动作识别(HAR)场景中不太适用。为了解决这些挑战,本文提出了DeepConvSSM,一种轻量级的混合架构,可以有效捕捉时空依赖性,同时保持高效率,可作为通用的人体动作识别骨干网络。该模型基于统一的Meta DeepConv框架构建,包括一个现代DeepConv编码器(MDE),从原始传感器输入生成补丁化嵌入,以及一个新的时空曼巴(STeM)模块,利用状态空间模型(SSM)通过选择性扫描联合建模时间和空间活动动态。在包括Realdisp、Opportunity和Skoda在内的多个基准数据集上的实验表明,DeepConvSSM始终达到最先进的性能,比现有的竞争基线最多提高了2.12%。此外,该模型在监督和自监督设置中都表现良好,即使训练数据有限,表明其作为多样化的HAR应用的稳健且高效的骨干网络的潜力。
原文链接
基于多任务协作学习的RGB-T图像融合与语义分割
原标题:Bridging RGB-T Image Fusion and Semantic Segmentation via Multi-Task Collaborative Learning
作者:Ting Lu;Huiting Wu;Wei Fu;Leyuan Fang;Shutao Li
期刊:Information Fusion
出版时间:2025/11/21
摘要:RGB-T图像融合和语义分割是高度相关的任务,因为两者都旨在探索不同图像中的相关和互补信息,以增强图像的表示和理解。然而,目前的方法主要是单独考虑这两个任务或在顺序流水线中处理它们,忽视了深度连接和多任务互助机制。为了解决这一问题,本文提出了一种多任务协作学习网络(MCLNet)来架起RGB-T图像融合和语义分割的桥梁。简而言之,这项工作主要由语义分割子网(SS子网)和图像融合子网(IF子网)组成,它们被协作训练以在两个任务中产生更好的结果。一方面,语义感知图像融合(SAIF)模块旨在集成高阶语义特征和视觉表示特征,以驱动IF子网形成具有更显著前景对象的融合图像。另一方面,SS子网通过模态感知特征融合(MAFF)模块执行自适应特征融合以激活模态特定的信息区域。这里,在IF子网中学习高级和低级图像融合权重。此外,引入交叉注意特征交互操作,进一步实现多模态特征融合。以这种方式,可以通过视觉/语义信息交互和联合损失函数优化来协同训练两个子网络,从而在视觉上满足融合图像和更准确的分割结果。综合实验结果表明了该MCLNet在同时提高图像分割和融合性能方面的有效性和优越性。代码将在以下位置提供:https://github.com/wht948/MCLNet。
原文链接
PV-MM3D:点-体素并行双流框架结合双注意力区域自适应融合用于多模态三维目标检测
原标题:PV-MM3D: Point-Voxel Parallel Dual-Stream Framework with Dual-Attention Region Adaptive Fusion for Multimodal 3D Object Detection
作者:Baotong Wang;Chenxing Xia;Xiuju Gao;Yuan Yang;Bin Ge;Kuan-Ching Li;Yan Zhang
期刊:Information Fusion
出版时间:2025/11/21
摘要:随着LiDAR在自动驾驶中越来越受欢迎,基于点云的三维物体检测已成为工业界和学术界的热点研究领域。然而,大多数方法受到点云表示和稀疏性的内在挑战的限制,这使得平衡计算效率和准确性变得困难。为了解决这些挑战,本文提出了一种多模态3D物体检测方法,称为PV-MM3D。具体而言,我们设计了一个点-体素并行双流框架,该框架利用独立的基于点和基于体素的双流网络来并行处理虚拟和LiDAR点云。这种设计保留了基于点的方法在捕捉物体复杂的三维结构方面的优势,同时利用了基于体素的方法的计算速度优势。为了提高前景点的采样比例,我们引入了一种动态双采样机制,该机制以可学习的方式动态下采样点云,减少背景点的同时保留关键前景信息。为了保持特征的独立性同时实现跨模态特征交互,我们提出了一种双注意力区域自适应融合模块,该模块利用注意力机制引导网络自适应地调整点-体素多模态特征之间的权重。在KITTI数据集上的实验表明,PV-MM3D在汽车类别中实现了3D检测的mAP为83.99%,BEV检测的mAP为91.31%。代码可在https://github.com/BaotWang/PV-MM3D获取。
原文链接
视听零镜头学习中的自我注意和交叉模式注意
原标题:Self-attention and Cross-modal Attention for Audio-visual Zero-shot Learning
作者:Jing Yang;Xiaoyong Li;Yuankai Wu;Yuling Chen;Xiaoli Ruan;Chengjiang Li;Qing Hou
期刊:Information Fusion
出版时间:2025/11/20
摘要:视听广义零炮学习旨在从视听数据中学习良好的表示,从而能够在测试过程中识别看不见的类。现有的嵌入和生成方法已经取得了重大进展。然而,这些方法并不能完全提取每个模态的内部特征。此外,不同模式之间的信息互动不足。为了解决这些问题,我们提出了一种基于自我注意和跨模态注意的视听零镜头学习方法(SACMA)。具体来说,我们使用自我注意机制来获取单个模态中的信息,使用跨模态交叉注意机制来捕获不同模态之间的关系。为了建立不同模态之间的联系并最小化它们特征之间的差距,我们引入了组合对比损失函数和余弦相似损失函数。我们在三个基准数据集VGGSound GZSL、UCF-GZSL和ActivityNet-GZSL上评估了所提出的方法,并将其与11种最先进的方法进行了比较。代码和数据可在https://github.com/ybyangjing/SACMA上获取。
原文链接
柔性探索:一种基于动态尺度和图最优传输的高光谱图像分类框架
原标题:Flexible Exploration: A Hyperspectral Image Classification Framework Based on Dynamic Scale and Graph Optimal Transport
作者:Hao Feng;Yunhan Sun;Xueyan Hu;Zheng Li;Chi Chen;Boxiao Wang;Yongcheng Wang
期刊:Information Fusion
出版时间:2025/11/20
摘要:高光谱图像(HSI)分类模型通常分析固定大小的斑块或依赖于多尺度方法中的预定义尺度。这种刚性阻止它们自适应地选择最佳视野,该视野因不同的地面对象而异。为了克服这一局限性,本文提出了一种新的HSI分类框架,称为动态尺度和图最优传输(DSGO)。DSGO具有两个协同分支:自适应尺度视觉Transformer(AS-ViT)分支和动态图最优传输(DGOT)分支。在集成多尺度信息的AS-ViT中,可学习尺度选择器(LSS)动态更新每个输入的空间采样范围。DGOT分支通过更新节点及其邻接矩阵来同时学习最优图结构。为了有效地融合这些分支的特征并减少潜在的冲突,DSGO引入了双通道图最优传输模块(DGOM)。受域对齐和图比较理论的启发,DGOM通过优化两个分支的图Laplacian矩阵之间的跨域最优传输距离,促进了渐进和兼容的特征融合。在四个基准HSI数据集(帕维亚大学、休斯顿、萨利纳斯山谷和印度松树)上的广泛实验表明,DSGO实现了最先进的性能,总体精度分别为99.43%、98.50%、99.42%和98.82%,比现有方法提高了约1–2%。未来的工作将探索先进的轻量级策略和结构优化技术,以提高DSGO的效率和可部署性。
原文链接
PAREformer:用于时间序列预测的位置自适应递归增强Transformer
原标题:PAREformer: Positional Adaptive and Recurrent Enhanced Transformer for Time Series Forecasting
作者:Suxin Tong;Jingling Yuan
期刊:Information Fusion
出版时间:2025/11/19
摘要:时间序列预测是许多领域中的一项基本任务,其中精确建模时间动态是至关重要的。虽然变形金刚在序列预测中捕获长程相关性方面很强大,但这些模型与缺乏语义信息的时间序列数据进行斗争,其中捕获和融合位置模式和时间循环信息仍然是一项挑战。为了克服这些挑战,我们提出了位置自适应和递归增强Transformer(PAREformer),这是一种用于多时间信息源自适应融合的新架构。PAREformer引入了两个关键创新:第一个是位置自适应嵌入(PAE)模块,该模块使用季节趋势分解组件动态构建位置自适应表示,以增强周期性建模。第二个是递归增强模块(REM),它通过可并行化的累积和机制来模拟递归动态。该模块有效地捕获伪循环信息,然后通过轻量级门控网络将其与长程相关性集成,取代传统的前馈网络,以提高计算效率。这种双组件设计使PAREformer能够在保持精益架构的同时精确地建模复杂的时序模式。在12个真实世界数据集上的大量实验表明,与性能最好的最新模型相比,PAREformer将平均均方误差(MSE)减少了3.7%,证明了我们提出的信息融合方法的有效性。
原文链接

