

成果速递 | 近期我院师生13篇论文被CCF-A录用

Tina讲出海

2025-06-16

导读：新鲜成果，先睹为快！

编者按

近期，南京邮电大学计算机学院、软件学院、网络空间安全学院师生已有13篇论文被CCF-A计算机科学领域期刊录用。大家一起来了解一下他们的优秀成果吧！

论文题目：Detector With Classifier²: An End-to-End Multi-Stream Feature Aggregation Network for Fine-Grained Object Detection in Remote Sensing Images

论文作者：郑尚东，吴泽彬，徐洋，何承迅，韦志辉

期刊名称：IEEE Transactions on Image Processing

论文归类：CCF A类

论文概述：细粒度目标检测（FGOD）包括两个主要任务：目标定位和细粒度分类。在自然场景中，大多数FGOD方法受益于更高的目标分辨率和更少的环境变化，导致更倾向于只完成后一项任务。在本文中，我们提出了Detector with Classifier2 （DC2），该方法明确地考虑了目标定位和细粒度分类两个任务的端到端集成，而非侧重其中某一个方面。首先，DC2的检测子网络仅限于确定提案是否为粗类别，而不深入到具体的细粒度子类别。此外，为了减少冗余的像素级计算，提出了实例级特征增强（IFE）模块来建模提案之间的语义相似度，这为在遥感图像中定位更多的目标提供了巨大的潜力。在获得粗检测预测后，进一步构建分类子网络，该分类子网络建立在前一个分支的基础上，以确定上述预测的具体细粒度类别。由于检测网络是在完整的图像上进行的，而分类网络会对检测到的局部目标区域进行二次建模，因此上述操作可以表示为每个目标的全局上下文信息和局部内在线索提取过程。通过提出的多流特征聚合（MSFA）模块，DC2集成了每个目标的全局流语义信息和局部鉴别视觉线索。在SAT-MTB和HRSC2016两个基准数据集上评估了DC2网络的性能，与最近的工作相比，我们的方法获得了新的最先进的结果（SAT-MTB上大约7%的mAP增益），并且在没有任何复杂的后处理策略的情况下显著提高了基线的检测精度（43.2% v.s. 36.7%）。

论文题目：Exploring Acoustic Reverse Nonlinearity Against Speech Forgery in Real-time Voice Applications

论文作者：高铭，张灵峰，陈奕可，何思枫，钱烽，杨磊，肖甫，韩劲松

会议名称：IEEE International Conference on Computer Communications

论文归类：CCF A类

论文概述：文章聚焦实时语音应用中语音易被伪造的问题，指出传统音频水印技术存在的缺陷，提出了基于超声波的Aegis音频防篡改系统。该系统借助高清音频技术，利用移动设备在语音录制时插入超声波可信因素，通过探索声学反向非线性现象强化语音与超声波的关联。同时，对超声波信号进行优化设计，采用特定调制、编码和频率选择方式，并通过检测波形失真、解码超声代码以及强调超声与语音信号的相关性来实现防篡改检测。经多方面评估，Aegis在抵御多种篡改攻击、适应不同场景等方面表现出色，推动了语音防篡改技术的发展。

论文题目：基于生物特征识别的隐私保护可验证联邦学习

论文作者：周浩，戴华*，杨庚，黄喻先，王周生

期刊名称：计算机学报

论文归类：CCF A类

论文概述：本文提出了一种基于生物特征的隐私保护可验证联邦学习方法（Biometric-based Privacy-Preserving Verifiable Federated Learning，BPPVFL），以解决联邦学习（Federated Learning, FL）中隐私保护和验证效率的双重挑战。传统的FL方法，通常不考虑隐私保护，使其易受数据泄露的威胁，而更安全的方法如基于零知识证明或同态哈希的FL方法，带来了显著的计算和通信开销。BPPVFL提出了基于生物特征的身份验证和数据完整性验证机制，实现了针对参与者敏感数据的隐私保护和高效的身份和数据验证，减少了客户端和服务器端的验证开销。此外，该方法使用针对生物特征数据的自适应噪声机制，在隐私保护和模型准确性之间取得了平衡。从理论和实验两方面证明了在BPPVFL中客户端的验证通信开销与客户端数量和梯度维度无关，从而实现了在大模型和高维度数据情况下的高效验证，即使在梯度维度增加时，客户端的验证通信开销仍保持不变。与隐私保护方法NbAFL相比BPPVFL的准确率最高提升了81%，同时与可验证方法VerifyNet相比BPPVFL的客户端验证通信开销最多减少了85%，服务器端通信开销与梯度维度独立且减少了90%以上。该方法在不同数据维度和隐私预算的环境下表现出出色的可扩展性和高效性。理论分析和实验结果表明，BPPVFL能够有效防止身份伪造和数据篡改，同时确保对敏感生物特征信息的强大隐私保护。BPPVFL为隐私保护联邦学习，尤其是生物特征应用，提供了一种有前景的解决方案。通过在隐私、验证开销和模型性能之间取得平衡，BPPVFL为安全联邦学习提供了一种实用且高效的方法。该工作为未来针对敏感和高维数据环境的隐私保护机器学习方法研究奠定了基础。

论文题目：Do as the Romans Do: Location Imitation-Based Edge Task Offloading for Privacy Protection

论文作者：朱嘉浩（2022级博士），赵璐，周剑，蔡惠，肖甫

期刊名称：IEEE TRANSACTIONS ON MOBILE COMPUTING

论文归类：CCF A类

论文概述：本文聚焦于边缘计算中用户任务卸载时的位置隐私保护问题。针对恶意服务提供商利用卸载决策和 RSSI 进行侧信道攻击，导致用户位置隐私泄露的情况，提出了一种名为 LITO 的位置模仿边缘任务卸载方法。该方法分为三个阶段：第一阶段，根据用户对卸载效用和隐私保护的偏好，确定合适的扰动区域；第二阶段，利用改进的拉普拉斯机制在扰动区域内随机生成满足地理不可区分性的虚假位置；第三阶段，通过近似算法模仿虚假位置的卸载决策，以及采用发射功率控制策略模仿虚假位置的 RSSI，从而误导侧信道攻击。理论分析和实验评估验证了LITO 在加强隐私保护和保证卸载效用方面的性能。

论文题目：Distributed Physical Layer Authentication Framework Exploiting Array Pattern Feature for mmWave MIMO Systems

论文作者：张品昌，韩科爽，张元玉，沈玉龙，肖甫，姜晓鸿

期刊名称：IEEE Transactions on Mobile Computing

论文归类：CCF A类

论文概述：本文旨在解决毫米波MIMO系统中由高度定向波束和硬件非理想性所带来的身份伪装攻击风险，尤其是在面对共址攻击者和智能干扰者时，传统基于信道状态信息（CSI）的物理层认证方法易被模仿，鲁棒性不足。为此，本文提出一种创新性的分布式物理层认证框架，以天线阵列硬件增益误差引起的波束图偏差（Beam Pattern Deviation, BPD）为关键认证特征。该特征源自硬件制造误差，具备天然不可复制性，能够为每个发射端提供唯一物理标识。该框架通过多个协作节点在本地观测BPD样本并作出二值判决，利用低通信开销将结果传送至融合中心（FC），由FC基于混合类比-数字结构的低复杂度融合规则完成最终判决。相比于传统中心化认证方案，该方法不仅消除了单点失效隐患，还显著提高了认证效率与系统可扩展性。此外，本文构建了BP偏差的统计模型，推导了误警率与检测率的闭式表达式，并在大规模天线条件下进行了渐近分析。为进一步提升系统判别力，文中还基于偏差系数最大化准则优化设计了本地信号矩阵。综合理论推导与仿真实验表明，该框架在复杂场景下仍具有出色的抗攻击性能与鲁棒性，为未来6G网络中面向硬件特征的轻量化认证提供了新思路。

论文题目：Graph Prompts: Adapting Video Graph for Video Question Answering

论文作者：李一鸣，杨小汕，鲍秉坤，徐常胜

会议名称：the 34th International Joint Conference on Artificial Intelligence

论文归类：CCF A类

论文概述：由于视频的动态特性，对时间信息的感知与推理显然是视频问答（VideoQA）的核心焦点。近年来，若干方法通过图结构视频表征探索了关系级时间建模。然而，这些方法严重依赖问题文本，因此难以对问题中未明确提及的视频内容进行感知与推理。为解决上述挑战，我们提出基于图提示的视频问答方法（GP-VQA），其采用基于视频的图结构以增强视频理解能力。所提出的GP-VQA包含预训练与提示调优两个阶段：在预训练阶段，我们定义了前置任务——要求GP-VQA对视频图中随机掩码的节点或边进行推理，从而促使其学习基于视频引导信息的推理能力；在提示调优阶段，我们将文本问题组织为问题图，并实现从视频图到问题图的消息传递，进而将视频图补全的推理能力迁移至视频问答任务中。在多个数据集上的大量实验验证了GP-VQA的优异性能。

论文题目：Service Degradation-Tolerated Online User Allocation in Edge Computing

论文作者：朱嘉浩（2022级博士），赵璐，周剑，业苇渡，肖甫

期刊名称：IEEE TRANSACTIONS ON SERVICES COMPUTING

论文归类：CCF A类

论文概述：边缘计算作为一种新兴技术，允许应用程序供应商通过将用户分配到附近的边缘服务器来提供低延迟服务。然而，异构且资源受限的边缘服务器很难满足所有用户的服务需求。现有方法严格遵循服务质量要求，导致大量用户无法得到服务，进而降低了应用服务供应商的服务利润。我们发现，适度放宽服务质量要求（即服务降级）可释放资源，服务更多用户。同时，合理补偿能维持用户满意度。但过度降级会增加补偿成本，反而减少利润。因此，需在降级与补偿间取得平衡。本文研究边缘计算环境下服务质量容忍的在线用户分配问题，目标是最大化服务利润。我们证明该问题是NP难的，并结合问题重构和原对偶优化，提出降级感知的用户分配方法，以在多项式时间内求解。理论分析证明了所提方法的有效性。

论文题目：SCVBench: A Benchmark with Multi-turn Dialogues for Story-Centric Video Understanding

论文作者：游思思，袁博闻，鲍秉坤*

会议名称：International Joint Conference on Artificial Intelligence（IJCAI 2025）

论文归类：CCF A类

论文概述：视频理解旨在使机器能够从三个层次——动作、事件和故事——解读视觉内容。然而，现有模型在高层次的长期故事理解方面存在局限性，主要原因包括：（1）对时间信息的过度简化处理，以及（2）由以动作/事件为中心的数据集带来的训练偏差。为解决这些问题，我们提出了SCVBench，一个面向故事中心的视频理解新基准。SCVBench通过将事件排序任务分解为多个子问题，并最终引导至一个核心问题的方式，来评估视觉语言模型在历史对话探索中的表现。我们从925个视频中收集了1,253个最终问题和6,027对子问题，构建了连续的多轮对话数据集。实验结果表明，尽管闭源模型GPT-4o在该任务上表现最佳，但大多数开源的多模态大模型在故事理解方面仍面临较大挑战。此外，我们提出的StoryCoT模型在SCVBench上显著优于现有的开源多模态大模型，展现出更强的时序推理与理解能力。我们的SCVBench通过系统评估多模态大模型在时间建模和语义理解方面的能力，推动了故事级视频理解的研究进展。

论文题目：Mining User Preferences from Online Reviews with the Genre-aware Personalized Neural Topic Model

论文作者：王睿，陆家豪，吕心诚，常舒予，吴严生，姚远志，黄海平，孙国梓

会议名称：WWW '25: Proceedings of the ACM on Web Conference 2025

论文归类：CCF A类

论文概述：消费者在电子商务网站生成的评论数据通常包含关于用户对产品风格的兴趣，并为挖掘用户偏好提供了丰富的来源。然而，大多数现有的神经主题模型往往生成风格相关性低、没有意义的主题。此外，由于缺乏明确的用户建模，它们常常无法挖掘用户偏好并发现个性化的主题画像。为了解决这些问题，我们提出了一种新颖的“风格感知的个性化神经主题模型”（GPTM），该模型将产品风格纳入主题建模过程中，以确保挖掘的主题与风格之间的相关性。此外，通过执行用户偏好建模，GPTM可以为每个用户生成个性化的主题画像。在三个公开的Amazon评论数据集上的大量实验结果验证了所提出的GPTM在风格感知主题建模中的有效性。此外，GPTM在用户偏好挖掘方面超过了最先进的基准模型，并生成了高质量的个性化主题画像。

论文题目：Latency-Energy Efficient Task Offloading in the Satellite Network-Assisted Edge Computing via Deep Reinforcement Learning

论文作者：周剑，梁觉文，赵璐，万少华，蔡惠，肖甫

期刊名称：IEEE TRANSACTIONS ON MOBILE COMPUTING

论文归类：CCF A类

论文概述：在卫星网络辅助边缘计算领域，为解决低地球轨道（LEO）卫星因高速移动、资源受限带来的任务卸载难题，本文提出卫星 - 地面任务卸载（SGTO）的双云边缘协同任务卸载架构以及自适应求解方法 SGTO-A。SGTO 架构融合 GEO 卫星、LEO 卫星和地面云计算中心，协同处理任务，旨在最小化平均延迟和平均能耗。从卫星角度出发，提出基于深度强化学习的自适应方法 SGTO-A，将任务卸载问题转化为马尔可夫决策过程，采用广义近端策略优化（GePPO）算法求解，并通过引入负载均衡惩罚因子优化决策。实验对比多种架构和方法，结果表明，SGTO 架构与 SGTO-A 方法在平均延迟、平均能耗、运行时间及负载均衡等方面表现出色，有效提升了任务卸载性能。

论文题目：Robust Federated Learning for Privacy Preservation and Efficiency in Edge Computing

论文作者：周浩，戴华*，杨庚，项阳

期刊名称：IEEE Transactions on Service Computing

论文归类：CCF A类

论文概述：联邦学习已成为边缘计算环境中隐私保护分布式模型训练的关键推动因素，对于个性化医疗、智慧城市和智能助理等面向服务的应用至关重要。然而，现有的隐私保护联邦学习方法易受多重隐私泄露攻击 (Multiple Privacy Leakage Attacks，MPLA)，攻击者通过重复梯度更新推断敏感信息。本文提出了一种稳健且通信高效的联邦学习 (Robust and Communication-Efficient Federated Learning, RCFL) 框架，旨在增强基于边缘的服务环境中的隐私保护和通信效率。RCFL 将全局隐私保护机制与创新的隐私编码策略相结合，可最大限度地降低多次数据发布中的隐私风险，同时显著降低通信开销。该框架的理论分析表明，它能够在多次交互中保持差异隐私，从而确保模型的稳健收敛性和高效性。使用 MNIST 和 CIFAR-10 数据集的实验结果表明，与最先进的方法相比，RCFL 可以将 MPLA 的成功率从 88.56% 降低到 42.57%，同时将通信成本降低 90% 以上。这些发现凸显了 RCFL 在面向服务的边缘计算应用中增强安全性、效率和可扩展性的潜力。

论文题目：RaliSense: Extending WiFi Respiratory Detection Range by Rapid Alignment of Dynamic Components

论文作者：桂林卿，郑思义，郭政鑫，李哲涛，高铭，Schahram Dustdar，肖甫

期刊名称：IEEE Transactions on Mobile Computing

论文归类：CCF A类

论文概述：随着无线感知技术的快速发展，基于WiFi信号的非接触式呼吸检测因其便利性、低成本、隐私友好等优势而受到越来越多的关注。在NLoS场景中，从人体目标反射的WiFi信号会被障碍物阻挡而被显著减弱，从而限制了感知范围并阻碍了实际部署。现有的最佳呼吸检测系统通过缩放和对齐WiFi信号中的动态分量来扩展感知范围。然而，其动态分量缩放会放大噪声，并且动态分量对齐需要遍历所有可能的旋转角度以至于显著增加了计算复杂度。为解决上述问题，首先构建了NLoS场景下WiFi呼吸检测的感知范围模型，找出限制感知范围的关键因素，然后提出了一种可以快速扩展NLoS场景感知范围的新型呼吸检测系统，命名为RaliSense。该系统的主要思想是通过变化方向向量和CSI比率和极性，实现动态分量快速对齐且在此过程中不会放大噪声。具体的，通过计算含有噪声的动态分量具有最大方差的方向来得到变化方向向量，然后根据该向量与I轴之间的夹角计算出旋转角度并旋转动态分量，随后通过对旋转后的动态分量中的所有元素求和以获得CSI比率和的极性，最后根据比率和的极性，可以快速调整旋转角度以对齐动态分量。通过大量的实际实验，验证了所构建的呼吸范围模型的准确性。实验结果表明RaliSense在NLoS场景下，比现有最优方案将检测范围提升了22.7%，同时仅需其1/4的计算时间。

论文题目：Test-Time Selective Adaptation for Uni-Modal Distribution Shift

论文作者：陈明猜，张宝明，韩宗博，姜文玉，王烟濛，冯帅，杜云涛，鲍秉坤

会议名称：International Conference on Machine Learning

论文归类：CCF A类

论文概述：在多模态学习领域，分布偏移是影响模型性能的关键因素。本研究聚焦于单模态分布偏移（Uni-Modal Distribution Shift）这一常见却易被忽视的场景：如图1所示，单模态偏移会破坏多模态融合，引发负迁移，而现有方法难以有效应对。本研究系统定义并深入剖析了该问题，通过跨模态注意力波动的理论分析和单模态偏移下负迁移现象的实证分析，揭示了其独特挑战，为解决多模态数据处理难题提供了新的理论依据和研究方向。为此，本研究提出了一种选择性自适应方法（图2）。该方法利用模态特定适配器和可学习的“路由”机制，能够灵活适应不同模态的分布偏移，同时避免对未偏移模态产生负面影响。在Kinetics50和VGGSound数据集上，针对天气干扰、噪声干扰等21种不同偏移场景的广泛实验表明该方法性能显著优于现有方法。