

综述：基于图的异常检测

极市平台

2021-03-26

导读：本文主要介绍了2018年三篇针对图的异常检测的顶会论文，这几篇文章工作创新性强、可解释性足，且很有启发性。

↑ 点击蓝字关注极市平台

作者丨陈凌灏西安电子科技大学（已授权）

来源丨https://zhuanlan.zhihu.com/p/359025580

编辑丨极市平台

极市导读

本文主要介绍了2018年三篇针对图的异常检测的顶会论文，这几篇文章工作创新性强、可解释性足，且很有启发性。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

本文主要介绍了2018年的3篇顶会论文，它们的共同点都是针对图(graph)的异常检测，但是具体的任务并不相同。这3篇论文分别是：

Wang, Haibo, et al. "Deep structure learning for fraud detection." 2018 IEEE International Conference on Data Mining (ICDM). IEEE, 2018.（利用相似性度量检测图结构中结点的异常）
Eswaran, Dhivya, et al. "Spotlight: Detecting anomalies in streaming graphs." Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.（检测的是动态图，且检测对象是整个宏观图结构）
Yu, Wenchao, et al. "Netwalk: A flexible deep embedding approach for anomaly detection in dynamic networks." Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.（检测对象是动态图上的异常结点）

1 Deep structure learning for fraud detection

背景：现有的基于属性的方法并不健壮，因为欺诈者可以采取一些伪装行动来掩盖他们的行为属性。此外，现有的基于结构信息的方法只考虑浅层拓扑结构，使其对 「可疑块的密度」 很敏感，因为异常的用户行为嵌入也可能非常紧密，基于密度的一些方法可能不再work。本文的交互网络是一个user-item的交互网络，分别用，集合表示。

1.1 用户结点间的相似性度量

对于用户结点和之间的相似性，本文定义为：

其中表示结点的邻居集合。特别地，当时，当时，

本文的思路是通过学习一个相似度的度量模型来拟合这个定义的相似度。

1.2 模型的构建

这里先放一张模型的框架图：

在建模的过程中，作者想通过搭建网络来进行学习。但是图结构中没有相关features信息，这该怎么办呢？作者使用了与用户交互的所有items的multi-hot编码(0、1形式)表示features，并记为。

如上图所示，根据得到的features，使用Auto-Encoder将特征进行嵌入，并得到重建误差：由于对于某一个特定的用户来说，交互的items数量可能较少，因此特征向量是稀疏的。为了解决这一问题，作者通过为非零元素设置较大的权重来修正损失函数，得到：其中当时， ; 时，。

对于模型中间得到的latent representation，作者定义和 latent representation之间的距离：其中表示在Auto-Encoder的中间表示，也就是encoder部分的输出。文章所需要预测的相似度为：其中。

对于预测的用户间相似度和作者定义的相似度之间存在误差：最终可以得到模型的Loss：其中表示模型的参数的L2正则化项。

异常检测：根据Auto-Encoder得到的中间表示，本文采用了最常见的基于密度的聚类算法DBSCAN算法进行异常检测。

1.3 实验

这里摘取了部分的实验，可以看出作者对异常的嵌入相较于正常样本来说还是分隔地比较开的，并在以下指标上超越了现有的方法。

2 SpotLight: Detecting Anomalies in Streaming Graphs

这篇文章的核心是将整个图结构嵌入为一个vector，然后进行图级别的异常检测。我读完的感受是：simple but effective！

如上图所示，在这篇工作中，作者专注于检测涉及一个大型密集有向子图的突然出现或消失的异常。本文所提出的图是基于时间序列的，并且这是一个由发出者和接收者构成的有向二分图。观察到的时候存在一个边数众多的子图，因此认定这是一个异常子图。

「方法」：本文为了辨识出这样的异常子图，将各个时刻的图随机抽样生成个子图（上图中的例子用三种颜色表示子图）。其中，源节点集合的每个样本被抽样的概率是，目标结点集合的每个样本被抽样的概率是。将上述的操作重复次，即可得到个子图。

在示例的图中，，三次抽样得到的三个子图分别用红、绿、蓝三色表示。第一个子图边的总数是3，因此embedding的第一个维度是3；第二个子图边的总数是1，因此embedding的第二个维度是1；第三个子图没找到边，所以embedding的第三个维度是0。这就完成了从3个子图到3个dimension映射的过程。也就是说，将一整个图嵌入为了一个向量。

在子图中的边数越多，那么那么这个子图就越异常，那么这个映射出来的向量就与非异常的向量的欧氏距离就越大。在此基础上，可以采用RRCF、RS-Forest等流数据异常检测的算法进行检测。

从作者的idea上看，可以说每一步都是比较有可解释性的；同时，随机取样的方式可以减少时、空复杂度。本文的思路简单清晰，效果也很好，同时文中还有详细的理论分析，是一篇很好的文章。