大数跨境
0
0

祝贺!我院互联网创新中心副主任周嘉俊博士以第一作者发表的综述论文被顶级期刊ACM Computing Surveys 录用

祝贺!我院互联网创新中心副主任周嘉俊博士以第一作者发表的综述论文被顶级期刊ACM Computing Surveys 录用 滨江区浙工大智研院
2025-07-08
0

近日,我院互联网创新中心副主任周嘉俊博士以第一作者发表的综述论文《Data Augmentation on Graphs: A Technical Survey》被计算机科学、理论与方法领域的顶级期刊ACM Computing Surveys (CSUR)录用。该工作获得了浙江省重点研发计划尖兵项目、国家自然科学基金、中国博士后科学基金、杭州市重点科研计划等项目资助。


一、期刊介绍

ACM Computing Surveys (CSUR)是计算机科学、理论与方法领域的顶级期刊之一,由美国计算机学会(ACM)出版,主要发表计算机科学领域具有代表性的前沿综述论文,旨在为科研人员和工程技术人员提供权威、系统、前沿的知识参考。它在Cite Score 上排名第一,并且在JCR 和中科院分区中都保持着Q1区(一区)TOP期刊的地位,2025年最新影响因子为28.0。


二、论文介绍

在这篇论文中,研究团队全面梳理了图数据增广领域的研究进展。图作为一种关键的数据结构,被广泛用于模拟社交网络、化学分子结构、引文网络等现实世界中的复杂交互系统。图表示学习是解析这些复杂关系的基础工具,其性能极大程度上依赖于数据质量。然而,现实中的图数据往往面临标签稀缺、数据不完备、噪声干扰、结构复杂以及数据分布偏移等诸多难题,这些问题严重制约了图模型的学习效果。

数据增广(Data Augmentation)作为一种通过对现有数据进行合理变换,从而扩充训练数据的有效手段,已在计算机视觉和自然语言处理等领域取得了显著成效。同样,针对图数据的增广策略也不断涌现,以应对图数据质量挑战,提升图模型在节点分类、图分类等下游任务中的表现。

论文将图数据增广(Graph Data Augmentation,GDAug)策略依据所作用的图元素对象尺度,系统地划分为六个层面:特征、节点、边、子图、图和标签,并详细阐述了各层面的增广方法、应用场景及其优缺点。

图1 图数据增强分类框架

(1)特征层面的图数据增广

在特征层面,主要通过对图中节点或边的特征进行操作,增强模型对噪声和特征变化的鲁棒性。这些方法包括:

  • 特征重排(Feature Shuffling):通过随机打乱节点特征,使模型接触更多样化的负样本特征组合,提升对特征环境变化的适应能力;

图 2 特征重排示意图

  • 特征掩盖(Feature Masking):通过随机屏蔽部分节点特征或用噪声替代,模拟特征的不确定性,帮助模型在特征缺失或含噪场景下提高泛化能力。

图 3 特征掩盖示意图

(2)节点层面的图数据增广

节点层面的增广方法通过对图中节点进行操作,如移除或混合,增加数据的多样性。这些方法包括:

  • 节点移除(Node Removing):通过随机删除部分节点及其关联边生成子图,促使模型在信息不完整的情况下有效学习。

图 4 节点移除示意图

  • 节点混合(Node Mixup):对两个节点的特征和标签进行线性插值,合成新节点,增强模型对未见数据的泛化能力。

图 5 节点混合示意图

(3)边层面的图数据增广

边层面的增广主要围绕修改图的连接模式展开,例如边重连(Edge Rewiring),通过随机移除或添加边,引入不同连接模式,模拟图结构的不确定性,防止模型过度拟合特定连接结构。

图 6 边重连示意图

(4)子图层面的图数据增广

子图层面的增广通过提取或替换图中的子结构,生成新的训练样本。这些方法包括:

  • 子图采样(Subgraph Sampling):从原图中随机采样子图,保留部分结构信息并降低计算复杂度。

图 7 子图采样示意图

  • 子图替换(Subgraph Substitution):用结构或功能上相似的子图替换原图中的部分结构,生成具有相似性质的增广图。

图 8 子图替换示意图

(5)图层面的图数据增广

图层面的增广操作作用于整个图,通过对全图进行变换操作来获取多样化的训练样本。这些方法包括:

  • 图粗化和细化(Graph Coarsening and Refinement):通过合并节点和边压缩图的规模(粗化),再通过细化过程重新分配特征,以丰富特征空间。

图 9 图粗化和细化示意图

  • 图传播(Graph Propagation):通过模拟在整个图中传播节点信息的扩散过程,有效捕获节点之间的远程依赖关系并平滑局部不规则性。通过纳入更广泛的上下文信息,丰富节点表示,从而便于模型获取高阶图信息。

图 10 图传播示意图

  • 图混合(Graph Mixup):首先对不同的图进行对齐,然后对图特征和标签进行线性插值,生成新的增广图,从而增强模型对多样化输入的适应性。

(6)标签层面的图数据增广

标签层面的增广在半监督学习场景中尤为重要,通常借助模型预测为未标注数据生成伪标签,扩充标注数据集,提升模型泛化能力。

图 11 标签层面的增广

(7)面向复杂图的数据增广

除了简单的属性图,现实场景中还存在异构图、动态图、时空图和超图等复杂类型的图。论文进一步探讨了针对这些复杂图的数据增广方法。例如,在异构图数据增广中,结合元路径、元图等结构,将特征掩盖、边重连等方法应用其中,提升数据多样性和模型泛化性;动态图数据增广通过对边的时间戳添加噪声,或结合时间信息采样子图,应对动态噪声和数据稀疏性;时空图数据增广通过特征掩盖减少动态噪声,边重连增强图的局部与全局相关性;超图数据增广则通过设计超边扰动策略增强自监督信号,或采用超边元素丢弃等方法减轻过拟合问题。

(8)开放性问题与未来研究展望

论文在梳理完图数据增广的技术现状后,进一步探讨了该领域的开放问题与未来研究方向,为后续研究提供了指引,主要包括以下几个方面:

  • 复杂图数据增广的定制化研究:现有图数据增广技术多针对简单图设计,而现实场景中大量存在异构图、时序图、时空图、超图等复杂图。这些复杂图具有多类型节点/边、动态演化、高阶关联等独特属性,但目前研究常直接复用简单图的增广方法,忽略了其特殊性(如异构图的语义层级、时序图的时间依赖性)。未来需针对复杂图的结构特点,设计定制化的增广策略,并建立系统化的评估框架,以提升增广效果的适用性。

  • 增强图数据增广的可解释性:现有方法多依赖经验假设(如“随机扰动可提升鲁棒性”),缺乏对设计原理的理论阐释,导致其有效性和适用场景难以明确。同时,部分增广操作(如随机删改节点/边)可能破坏图的固有语义(如分子图的化学键结构)。未来研究需强化技术的可解释性,明确增广机制与图语义的关联,并设计能保留核心语义的增广方法,通过理论分析与实验验证提升技术的可信度。

  • 提升图数据增广的可扩展性:现有方法在处理大规模图(含百万级以上节点/边)时,常面临计算成本过高的问题,限制了其在社交网络等大规模场景的应用。未来需研发高效的可扩展技术,例如结合并行计算、分布式采样等方法,在保证增广质量的同时,适配超大规模图的处理需求,并设计能动态调整策略的算法,适应不同图的规模与复杂度。

  • 构建全面的评估体系:目前对图数据增广的评估多依赖下游任务性能(如分类准确率),缺乏对增广样本质量的直接衡量;虽有研究提出“一致性”“多样性”等指标,但仍存在解释性不足、难以标准化的问题。未来需建立系统的评估框架,综合考量增广数据的分布合理性、语义保留度、对模型泛化能力的提升等维度,并制定标准化的基准数据集与指标,以支持不同增广技术的公平对比。

此外,论文还指出,未来可探索将可学习的增广机制、动态自适应策略与图模型深度融合,以及在联邦学习、多模态图学习等新兴场景中拓展图数据增广的应用,进一步释放其在提升图学习性能中的潜力。


三、参考文献

  • Zhou J, Xie C, Gong S, et al. Data augmentation on graphs: A technical survey[J]. ACM Computing Surveys, 2025, 57(11): 1-34.

论文链接:https://dl.acm.org/doi/abs/10.1145/3732282

【声明】内容源于网络
0
0
滨江区浙工大智研院
杭州市滨江区浙工大人工智能创新研究院是由杭州高新区(滨江)和浙江工业大学共同发起建立的科技创新平台。聚焦人工智能、大数据、网络空间安全、无人系统、电磁空间安全、工业领域等开展前瞻性基础研究和示范应用。
内容 59
粉丝 0
滨江区浙工大智研院 杭州市滨江区浙工大人工智能创新研究院是由杭州高新区(滨江)和浙江工业大学共同发起建立的科技创新平台。聚焦人工智能、大数据、网络空间安全、无人系统、电磁空间安全、工业领域等开展前瞻性基础研究和示范应用。
总阅读0
粉丝0
内容59