由于微信公众号开始试行乱序推送,为了让您在第一时间获取AI新文,请将"AI新文"设为星标。
ErasableMask:一种针对黑盒人脸识别模型的稳健且可擦除的隐私保护方案
原标题:ErasableMask: A Robust and Erasable Privacy Protection Scheme against Black-box Face Recognition Models
作者:Sipeng Shen; Yunming Zhang; Dengpan Ye; Xiuwen Shi; Long Tang; Haoran Duan
期刊:IEEE Transactions on Multimedia
出版时间:2025/12/03
摘要:虽然面部识别(FR)模型在面部验证和识别方面带来了极大的便利,但也给公众带来了重大的隐私风险。现有的面部隐私保护方案通常采用对抗样本来干扰人脸识别模型的验证功能。然而,这些方案通常在对抗黑盒FR模型的迁移性方面较弱,并且永久性地破坏了可识别信息,无法满足诸如法医鉴定和认证等授权操作的要求。为了解决这些限制,我们提出ErasableMask,一种针对黑盒FR模型的稳健且可擦除的隐私保护方案。具体而言,通过重新思考代理FR模型之间的内在关系,ErasableMask 引入了一种新颖的元辅助攻击,该攻击通过在稳定且平衡的优化策略中学习更通用的特征来增强黑盒迁移性。它还提供了一种扰动擦除机制,支持在受保护的面部中擦除语义扰动而不降低图像质量。为了进一步提高性能,ErasableMask 采用了一种课程学习策略来缓解对抗攻击和扰动擦除之间的优化冲突。在CelebA-HQ和FFHQ数据集上进行的大量实验表明,ErasableMask 在迁移性方面达到了最先进的性能,在商用FR系统中实现了超过72%的平均置信度。此外,ErasableMask 还表现出卓越的扰动擦除性能,实现了超过 90% 的擦除成功率。
原文链接
MCSF-Net:一种用于水下图像增强的多颜色空间融合网络
原标题:MCSF-Net: A Multi-Color Space Fusion Network for Underwater Image Enhancement
作者:Yijian Wang; Peixian Zhuang; Zhenqi Fu; Jiaquan Yan; Zuoyong Li
期刊:IEEE Transactions on Multimedia
出版时间:2025/12/03
摘要:现有的多色彩空间引导技术用于水下图像增强(UIE)未能充分利用XYZ色彩空间来保存水下图像细节,同时,现有的UIE数据集通常包含颜色失真和结构模糊的低质量参考图像,导致在低质量和高质量图像之间进行准确增强映射困难。为了克服上述限制,我们提出了一种用于UIE的多颜色空间融合网络(MCSF-Net)。MCSF-Net融合了多维特征融合块(MFFB)和加权特征融合方案,有效地整合了来自XYZ和RGB颜色空间的互补特征。此外,我们通过使用九个无参考指标从八个公开的UIE数据集中筛选出低质量的参考图像,建立了大规模混合UIE数据集(LSMU),从而实现更有效的网络学习。在主流数据集上的大量实验表明,所提出的方法在各种水下图像的颜色恢复和细节增强方面均优于几种领先的方法。MCSF-Net的代码和数据集将在https://github.com/WYJGR/MCSF-Net上提供。
原文链接
不完整多视图多标签学习的双特征融合
原标题:Dual Feature Fusion for Incomplete Multi-view Multi-label Learning
作者:Xinyu Xiao; Shuhan Qi; Yulin Wu; Bin Chen; Chao Xing; Xuan Wang
期刊:IEEE Transactions on Multimedia
出版时间:2025/12/03
摘要:多视图多标签学习(MVML)旨在利用输入样本中的多视图信息来实现多个标签的准确预测。不幸的是,大多数现有的多视图机器学习方法都是在数据完整性的假设下运行的,这使得它们在涉及缺失视图或不确定标签的实际场景中无效。最近的方法处理不完整数据,但很少有方法处理视图和标签都缺失的场景。为了解决这一挑战,我们提出了一种双视图特征引导融合学习(DFFL)框架。DFFL 同时考虑视图特定的独特特征和跨视图的一致性特征。“具体而言,DFFL 构建了视图唯一性对比学习,以确保在视图缺失的条件下,同一视图内的特征保持高语义相关性,而不同视图之间的语义是不同的。与以往的方法不同,DFFL假设标签的相关性可以反向映射到高维特征。通过建立视图一致性学习,最大化共享嵌入空间中的互信息以实现一致的特征对齐。特别地,DFFL 通过双预测最小化多视图特征的边缘分布的条件熵,从而推导出特征融合的最大联合分布,并结合缺失视图索引矩阵实现特征融合。这个过程可以有效缓解先前方法中存在的融合特征抑制现象。最后,缺失标签索引矩阵与融合特征结合完成分类任务。我们在五个常用的数据库上验证了该框架,并且实验结果表明我们的方法相比最先进的方法取得了更优的性能。消融研究进一步验证了DFFL中每个组件的有效性。
原文链接
可信赖的连续手语识别
原标题:Trustworthy Continuous Sign Language Recognition
作者:Yan Zhang; Wanli Xue; Leming Guo; Yuxi Zhou; Chao Wei; Yangcan Wu
期刊:IEEE Transactions on Multimedia
出版时间:2025/12/03
摘要:持续手语识别(CSLR)使用视觉线索(例如,手、面部、口部和身体)自动识别聋人的手语,帮助他们主动与听力人士交流。这些视觉线索的效果会随着手语的演示动态变化。然而,以前的CSLR方法通常从整个帧或简单的融合视觉线索建模视觉信息,因此不能很好地描述这些视觉线索之间的动态变化。因此,我们提出了用于CSLR的可信融合网络(TFN),它包含两个基本模块:跨模态特征融合模块(IntraCFF)和跨线索可信融合模块(InterTF)。IntraCFF 使用校准的联合信念方法动态融合RGB和关键点信息的跨模态特征,获得鲁棒的视觉线索特征。InterTF 创新地运用了戴姆斯特-谢费尔理论(DST)来评估表达标志运动的不同线索的不确定性。然后,通过DST的信任融合被用来自适应地加权并可信地融合基于不确定性的眼见线索。此外,在训练阶段,为了应对融合不同线索时的语义差距,我们设计了一致性融合约束。这些约束增强了不同线索与全局符号运动的语义一致性。在公开的CSLR数据集上的实验验证了我们TFN的有效性。
原文链接
面向紧急通信的通用跨模态视觉编码
原标题:Towards General Cross-Modal Visual Coding for Emergency Communications
作者:Peilin Li; Yannan Chen; Lindong Zhao; Ang Li; Bin Kang; Dan Wu
期刊:IEEE Transactions on Multimedia
出版时间:2025/12/03
摘要:多模态视觉信号在紧急通信中普遍存在。在带宽限制下确保信号传输的高可靠性,关键在于尽可能压缩模态内部以及模态之间的冗余信息,并保证重构信号的真实性。大多数现有研究仅依赖单模态编码方案,未能有效利用模态之间的语义关联。在本文中,我们介绍了一种端到端的通用跨模态视觉编码方案,即CMVC,旨在联合压缩多模态视觉信号(例如可见光信号和红外信号)。首先,我们提出了一种跨模态异步熵模块,该模块使用跨注意力机制提取公共特征。此外,我们通过最大化互信息损失来提高常见特征提取的准确性。此模块通过仅压缩模态之间的残差特征进一步压缩多模态视觉信号。其次,我们提出了一种基于跨模态Mamba的级联增强模块,融合互补信息以提升多模态视觉信号的重建质量。最后,大量的实验结果表明,我们的方案在可见光-红外数据集上显著优于其他先进方法。即使在低比特率下,多模态视觉信号仍能实现优秀的重建质量。此外,我们的方案应用于可见光深度信号时表现出色的压缩和重建性能,有效地展示了其鲁棒性和泛化能力。
原文链接
基于增强的时间频率表示的视频即时心率测量
原标题:Video-based Instantaneous Heart Rate Measurement with Enhanced Time-Frequency Representations
作者:Juan Cheng; Xiwen Luo; Xiaowei Wu; Rencheng Song; Yu Liu
期刊:IEEE Transactions on Multimedia
出版时间:2025/12/03
摘要:基于面部视频的心率(rHR)测量的远程光电容积描记法(rPPG)最近引起了越来越多的关注。然而,大多数现有方法关注的是某一时间段内的平均心率(AHR),而不是瞬时心率(IHR),后者更能反映身体和精神状态。为了解决这个问题,我们提出了一种基于rPPG的方法,用于从面部视频中测量IHR值。我们的方法采用小波同步挤压变换(WSST)生成来自多个面部感兴趣区域(ROIs)的色度(CHROM)信号的时间频率表示(TFRs),同步反映视频片段中的心率此外,介绍了TransUNet来精炼这些TFR图像,增强与IHR相关的脊线信息。对四个公共数据集(UBFC-rPPG, PURE, UBFC-Phys, and MMPD)进行全面比较和消融研究后发现,我们的WSST-UNet方法在几种典型的rPPG方法中表现出色,分别实现了每分钟心跳平均绝对误差(MAE)为2.34次/分钟(bpm),1.29次/分钟(bpm),5.03次/分钟(bpm)和6.58次/分钟(bpm)。所提出的方法为基于视频的心率测量提供了有前景的解决方案。
原文链接
探索跨模态互促学习在视频质量评估中的应用
原标题:Exploring Cross-Modal Mutual Prompt Learning for Video Quality Assessment
作者:Pengfei Chen; Leida Li; Jinjian Wu; Jiebin Yan; Vinit Jakhetiya; Aladine Chetouani
期刊:IEEE Transactions on Multimedia
出版时间:2025/12/03
摘要:通过语义信息集成增强视频质量评估(VQA)是关键的研究焦点。最近的研究利用对比语言图像预训练(CLIP)模型作为改进语义感知的基础。然而,这些预训练的视觉-语言(VL)模型固有的图像文本对齐经常导致次优的视觉问答(VQA)性能。虽然提示工程最近针对语言组件解决了这一对齐问题,但视觉分析中独有的见解仍然被忽视,未能进一步推进VQA任务。此外,在视觉问答中寻求质量可分离性和领域不变性之间的权衡在视觉语言范式内仍然很大程度上未解决。在本文中,我们介绍了一种新颖的跨模态提示(prompt)基于的方法来应对这些挑战。我们提出在视觉分支中使用可学习的提示,通过语言到视觉的耦合函数促进视觉和语言模式之间的协同作用。多视图骨干网络经过精心设计,加入了内容增强和感知失真的时间调制,以确保质量可分离性。来自视觉表示的语言提示进一步通过自适应加权机制的支持来优化质量可分离性和领域不变性之间的平衡。实验结果证明了我们提出的方法优于领先的问题回答模型,在多种数据集上表现出显著的泛化能力提升。本工作的源代码可在https://github.com/cpf0079/CM2PL公开获取。
原文链接
S2ML:空间-光谱互学习用于深度完成
原标题:S2ML: Spatio-Spectral Mutual Learning for Depth Completion
作者:Zihui Zhao; Yifei Zhang; Zheng Wang; Yang Li; Kui Jiang; Zihan Geng
期刊:IEEE Transactions on Multimedia
出版时间:2025/12/03
摘要:RGB-D相机使用飞行时间(TOF)或结构光捕获的原始深度图像由于弱反射、边界阴影和伪影等原因经常出现不完整的深度值,这限制了它们在下游视觉任务中的应用。现有方法通过图像域的深度补全来解决这一问题,但它们忽略了原始深度图像的物理特性。观察到无效深度区域的存在改变了频率分布模式。在这项工作中,我们提出了一种空间光谱互学习框架(S2ML),以调和空间域和频率域的优点用于深度完成。具体而言,我们考虑振幅谱和相位谱的不同特性,并设计了一个专用的频谱融合模块。同时,在统一的嵌入空间中计算空间域和频率域特征之间的局部和全局相关性。逐步的相互表示和精炼鼓励网络充分探索互补的物理特征和先验知识以实现更准确的深度完成。广泛的实验展示了我们提出的S2ML方法的有效性,在NYU-Depth V2和SUN RGB-D数据集上分别优于最先进的CFormer方法0.828 dB和0.834 dB。
原文链接
从视看到洞察力:通过视觉-语言相互提示增强易混淆结构分割
原标题:From Sight to Insight: Enhancing Confusable Structure Segmentation via Vision-Language Mutual Prompting
作者:Yixiang Huang; Yihao Zuo; Mengqiu Xu; Kaixin Chen; Ming Wu; Chuang Zhang
期刊:IEEE Transactions on Multimedia
出版时间:2025/12/03
摘要:可混淆结构分割(CSS)是一种应用于遥感海雾检测、医学图像分割、伪装物体检测等领域的语义分割类型。结构相似性和视觉模糊性是CSS中两个关键问题,这些问题使得区分前景对象和背景变得困难。当前的方法主要集中在增强视觉表现上,并不经常融合多模态信息,这导致了性能瓶颈。受近期视觉-语言模型成就的启发,我们提出了一种新的统一的语言引导框架——视觉-语言相互提示法(VLMP),利用文本提示来增强CSS。具体而言,VLMP包括视觉到语言提示和语言到视觉提示,这双向建模了视觉和语言特征之间的交互,从而促进跨模式互补信息流。为了防止一种模式压倒另一种模式,我们设计了一个特征集成调制器,该调制器调节和平衡特征权重以实现自适应多模态融合。我们的框架设计为模块化和灵活的,允许与任何骨干网络集成,包括CNNs和transformers。我们使用三个不同的数据集评估VLMP:SFDD-H8,QaTa-COV19和CAMO-COD10K。大量的实验展示了所提出的框架在这些数据集上相较于最先进的方法的有效性和优越性。从CSS中的视觉语言集成实现的基本视看到更深层次的洞察代表了该领域的重大进步。
原文链接
ViDR-GNN:视觉隐式判别重组图神经网络
原标题:ViDR-GNN: Vision Implicit Discriminative Reorganization Graph Neural Networks
作者:Zeyang Zhang; Xiaofeng Cao; Xiang Zhang; Li Peng; Lijia Ma; Jielong Yang
期刊:IEEE Transactions on Multimedia
出版时间:2025/12/03
摘要:视觉图神经网络(ViGs)将一幅图像划分为多个补丁,并将这些图像补丁视为图节点。该图像通过从这些补丁中提取显式特征作为节点特征,并根据显式的依赖关系构建边的连接来表示。然而,这种明确的图结构难以准确地捕获更深的隐含依赖关系。例如,在节点级别上,隐含关系包括属于同一语义组的局部和全局特征的一致性以及属于不同语义组的特征之间的区分。在图级别上,隐含关系体现在是否存在直接边连接监督缺失的情况下仍能建立全局一致性边连接。这些方面对于提高下游任务的准确性至关重要。因此,在视觉图结构中更有效地学习隐含依赖关系仍然是一个需要进一步研究的领域。我们设计了判别特征重组(DFR)模块来解决节点级别的隐含依赖关系。此模块使用来自神经网络相邻层的正负样本特征对之间的相似度测量来构建损失函数。通过调整这个损失函数,可以增强节点级别的局部和全局特征的组内一致性以及组间区分度。我们也设计了图结构精炼(GSR)模块。此模块通过两个从神经网络相邻层学习到的图的交互监督来精炼边连接的图级隐含关系的一致性。实验结果表明,ViDR-GNN 在图像分类、目标检测和实例分割任务中实现了显著的性能提升。
原文链接
面向球形全景图像的版权泄露缓解方法
原标题:Towards Copyright Leakage Mitigation for Spherical Panoramic Images
作者:Jihyeon Kang; Jong-Uk Hou
期刊:IEEE Transactions on Multimedia
出版时间:2025/12/03
摘要:尽管已经提出了几种用于球形全景内容的水印技术,但大多数都集中在简单的泄露情况上,并未解决特定于球形全景内容的各种版权泄露场景。这样的泄漏场景尚有待在文献中进行彻底分析。在球形全景内容的情况下,根据渲染过程和图像泄漏阶段的不同,可能会出现各种各样的情况。每种场景都需要一种独特的水印方法。在这项研究中,确定了六种球形全景内容泄露场景,并考察了有效水印方法的要求。没有原始来源信息,现有的水印技术通常无法保护版权。为此,我们提出两种补充方法来增强盲水印技术。在第一种方法中,使用了一种设计用于隐写分析的深度学习模型来从透视图像中检测垂直视点,而不使用原始源图像。在第二种方法中,使用了一个模板来增强对球面角度转换攻击的鲁棒性。使用这两种补充方法,我们实现了对所有利用现有水印技术的场景的全面覆盖。
原文链接
红外与可见光高级视觉任务增强融合网络
原标题:A Fusion-Enhanced Network for Infrared and Visible High-Level Vision Tasks
作者:Fangcen Liu; Chenqiang Gao; Fang Chen; Pengcheng Li; Junjie Guo; Deyu Meng
期刊:IEEE Transactions on Multimedia
出版时间:2025/12/03
摘要:红外和可见光双模态视觉任务(如语义分割、目标检测以及显著物体检测)可以通过利用互补信息在极端场景中实现稳健性能。然而,大多数现有的基于图像融合的方法和特定任务框架在多个任务之间表现出有限的泛化能力。此外,从基础模型获得的一般表示的汇总也存在挑战,包括语义信息挖掘不足和特征融合问题。本文提出了一种融合增强网络,该网络有效地丰富了语义信息,并基于红外和可见光模态的互补特性整合了特征。所提出的网络可以扩展到高级视觉任务,表现出强大的泛化能力。首先,我们采用红外和可见光基础模型提取通用表示。然后,为了丰富这些通用表示的语义信息,以便于高层次视觉任务,我们分别为特征图和标记设计了特征增强模块和标记增强模块。此外,提出了注意力引导融合模块,通过探索两种模态的互补信息实现有效融合。此外,我们采用cutout&mix增强策略进行数据增强,这进一步提高了模型挖掘两种模态之间区域互补性的能力。广泛的实验表明,所提出的方法在语义分割、目标检测和显著物体检测任务中优于最先进的双模态方法。
原文链接

