大数跨境
0
0

BBD技术控 | 不平衡样本分类建模方法(上)

BBD技术控 | 不平衡样本分类建模方法(上) BBD Data
2020-04-23
1
导读:样本不平衡问题在金融风险预测、医学诊断、网络安全监管等真实场景中普遍存在


文| 巫源睿

模型中心大数据建模工程师 ,西南财经大学统计学学士,上海财经大学应用统计硕士

引言

不平衡样本分类建模问题在金融风险监测预警、信贷风险评估、医学诊断等场景中普遍存在。不平衡样本在分类建模中可能导致哪些问题?在非均衡建模场景下设计和训练模型是否有技巧策略可循?本篇文章对该问题进行了阐释并归纳梳理若干不平衡样本建模方法。最后引入BBD在金融监管模型业务中的案例,介绍我们的一些探索尝试和应用效果。


01.
不平衡样本
不平衡样本:不平衡样本是指在分类任务中不同类别的训练样例数目相差很大的样本。往往样本量少的一类是模型学习比较关心的一类(通常为二分类场景中的正例,比如信贷违约样本)。在现实建模场景中,因为标签获取难度大、数据获取成本高、或者少数类样本本身存在数量就很少等原因,样本不平衡的情况普遍存在于金融风险监测预警、信贷风险评估、医学诊断等场景。

不平衡程度度量:样本的不平衡程度可以用IR(Imbalance Ratio)指标来度量,IR值越大代表样本越不平衡。

02.
不平衡样本分类建模问题
标准的分类学习算法都是基于平衡样本来设计的,用不平衡样本训练模型存在的问题主要有以下几点:
1.模型倾向于将样本判断为多数类
当训练样本不平衡时,模型分类会偏向多数类样本,即更倾向于将样本判断为多数类以降低整体预测误差,从而增加了少数类样本被错判的概率。然而错判少数类样本往往比错判多数类样本造成的损失更大,如金融风险的漏判、癌症的漏检。
2.影响部分模型效果评价指标的使用
部分模型效果评价指标基于全部样本或者不作区分地对待多数类和少数类样本来计算,在不平衡样本建模场景下可能产生偏差甚至变得无效。在样本不平衡的场景下,若所采用的指标取值随测试样本比例变化而产生明显的变化,则需谨慎使用。不平衡样本下会失效的评价指标主要有以下两个:
  • Accuracy
模型分类的精确度指标(Accuracy)常常用于评估模型分类效果。但在不平衡场景下,该类基于全部样本的评价指标则因为不同类样本数量的差异而自然忽略了少数类样本的分类准确性。例如在一个比较极端的二分类情况下,样本IR=9,90%为负例样本,10%为正例样本,模型将全部样本都判为负例,则所有正例样本都被错判,但模型的Accuracy 为0.9,看似表现很好。
  • Precision
模型预测为正例的准确率(Precision)评估模型预测为正例的样本中真正为正例的比率。测试集中负样本的比例变化可能对Precision产生较大影响。例如一个分类器能有80%概率把正例预测为正例,同时有10%的概率把负例预测为正例,当测试集有100个正例和100个负例时,模型的Precision = 100*80%/(100*80%+100*10%)=0.89,可以认为这是一个很好的分类模型;当测试集变为10个正例190个负例时,Precision = 10*80%/(10*80%+190*10%)=0.30,则看上去变成了一个分类准确度很差的模型。
3.造成或加剧样本难分类问题
抛开样本平衡问题,训练样本本身可能具有一些难以辨别的特征,而样本不平衡则会放大这些不利因素。比如以下几个问题:
  • Small disjuncts

如上图所示,样本的分布空间为若干个间断的子分布空间,在样本不平衡、样本数量少的情况下则更加难以学习到可信的样本分布空间和分类边界,并且可能较难区分子分布空间上的有效样本和噪音数据。
  • Lack of density

由于样本数量过少无法在特征空间上找到类边界,不能根据样本训练出有较强泛化能力的分类模型。如上图所示,当如左图仅有右图所示训练样本中的10%时,很难准确学习到分类边界,并且对于不平衡样本,少数类样本还很容易被当作噪音数据。
  • Overlapping

在一定区域的特征空间上分布着几乎等量的正例和负例,因此很难甚至无法做出分类。如上左图中,正样本数量较少且20%与负样本分布重叠无法区分开,右图中则高达80%的正样本与负样本重叠。
  • Noisy data

当样本不平衡时,噪声数据容易对少数类样本造成影响,可能将噪音数据错误地识别为少数类样本。如上图所示,左图是比较正确的边界划分,而在右图中,对少数类训练样本增加了20%噪音数据,学习到的模型则将噪音数据错误识别为了少数类样本。
  • Borderline examples

如上两图所示,正例样本量较少且正负样本的分类边界不清晰、存在一定程度的样本重叠,较难识别出其中类边界。
  • Dataset shift

如上图所示,由于取样偏差,训练集和测试集或待预测样本分布不同,导致通过训练样本学习到的模型泛化能力差,或者在测试集和预测样本上模型评估效果下降。该问题尤其容易出现在正例样本数量过少的极度不平衡样本建模中。

03.
不平衡样本建模策略和应用案例
不平衡样本下常用的建模策略主要包括以下几种:
  • 选择更加合适的分类算法

  • 采用更加科学的模型评价标准

  • 针对不平衡样本进行采样和样本生成

  • 采用代价敏感学习方法

  • 采用集成算法

  • 采用基于核函数的不平衡样本建模方法

  • 改用异常检测和无监督方法

在非均衡分类的实际场景中,常常需要基于样本和特征分析描述数据特点、确定数据问题,在此基础上针对性地结合多种方法调整训练数据或优化建模算法,或者从多个角度展开分析和建模,最终得到有效的模型结果。
本期我们以BBD模型中心承做的跨境风险监测模型和证监会上市企业画像模型为例,介绍BBD模型中心应对不平衡样本建模问题的一些探索尝试和落地效果。在下一期中,我们会对以上不平衡样本下的建模策略进行更加详细的介绍。

1. 跨境风险监测模型

在外汇风险监测场景,根据建模样本数据,能获取到的历史外汇负面清单企业占全国外汇登记企业的比例约为1/10000,即Imbalance Ratio约为10000,模型关注的违法标签企业数量少且样本极度不平衡。主要通过以下步骤在该场景下构建跨境风险监测模型:
Step1. 优化定义训练样本和样本标签
  • a.基于外汇场景下存在大量登记有外汇业务但缺乏真实交易发生等情况,将多数类的Negative样本从非黑名单样本调整为具有活跃交易的白名单企业集。
  • b.外汇黑名单企业分为几种不同的违法类型且黑样本集中为其中1-2类,不同违法类型表现出不同的风险特征,据此将黑名单按类别聚类后分模块建模。
  • c.基于外汇违法违规的业务定义,从裁判文书、行政处罚数据中解析违法违规外汇企业,补充负面清单、增加黑名单样本数量。
  • d.针对外汇业务场景丰富但一家企业往往只覆盖少数交易场景、且黑名单企业在某几类场景集中的情况,对外汇交易场景做进一步细分,将样本根据业务场景再分类,进行更具有针对性的、分模块的模型学习。
Step2. 特征选择
通过特征空间分布刻画、相关性分析、IV值测算等方法,从500多个初始特征中选出约400个有效特征作为待入模特征。
Step3. 结合无监督方法建模
考虑到黑名单绝对数量少、分类样本极度不平衡等数据问题,结合无监督方法进行风险监测。采用了包括分布异常检测、趋势异常检测、DBSCAN聚类等方法。
预警交易规模偏离该类业务分布的企业如下图:

预警交易数据偏离时间序列趋势的企业如下图:

通过聚类算法识别游离于各个分布族外的样本点如下图:

Step4.基于补充调整后的训练样本,集成多种算法建立风险画像模型
基于不同黑名单标签和业务模块分类,进行分模块建模,模型训练过程中结合多种样本重采样、Cost-Sensitive和集成算法等来处理样本不平衡问题。
建模框架如下图:

最终模型的风险预测能力达到AUC>0.7,KS>0.35。
2.证监会上市企业画像模型
证监会上市企业画像项目分别针对上市企业的债券违约、信披违规、违规担保、质押平仓场景进行企业画像以预警风险企业。由于国内上市公司仅数千家,历年发生风险事件的上市企业数量则更少,因此是金融风险场景典型的不平衡建模问题。
以债券违约风险画像模型为例,初始获取的近三年债券违约黑样本约20家企业,所有上市企业样本约4000家,通过特征工程共构造约1000个场景相关的特征指标。IR = 3980/20 = 199。在建模过程中,主要采取的不平衡问题解决办法有:
  • a.样本扩充根据业务需求扩大黑样本定义增加债务违约、债务展期、未披露的短期借款违约等风险事件,将近三年黑名单由约20家增加至约230家企业,将近三年建模样本进行时间对齐处理使得不同年份黑名单能用于训练同一预测模型。
  • b.指标降维:在建模过程中进行详细的特征分析和样本分布分析,对约1000个初始特征进行选择、调优、融合等操作,最终约150个入模指标,极大降低了特征维度,保证入模指标能覆盖有效分类信息的同时互相避免信息重叠,避免该场景下的少数类样本在高维特征空间中难形成类边界的问题。
  • c.样本采样:对少数类样本尝试进行SMOTE,对多数类样本尝试进行Random Undersampling,降低训练样本的不平衡程度。
  • d.选取科学的模型评价指标:在模型优化和选择过程中主要依据ROC-AUC、KS评价指标,并根据业务需要参考PR曲线、Precision-Recall trade-off表推送建议阈值。
最终得到的债券违约模型在测试集上的ROC曲线为:

测试集上的PR曲线为:

模型AUC>0.85,KS>0.55,最终的模型表现出很强的分类预测能力。


参考文献:

[1] López V, Fernández A, García S, PaladeV, Herrera F (2013) An insight into classification with imbalanced data:empirical results and current trends on using data intrinsic characteristics.Inf Sci 250(20):113–141. Article;

[2] H. He, E.A. Garcia, Learning fromimbalanced data, IEEE Transactions on Knowledge and Data Engineering 21 (9)(2009) 1263–1284.

[3] M. Galar, A. Fernández, E. Barrenechea,H. Bustince, F. Herrera, A review on ensembles for class imbalance problem:bagging, boosting and hybrid based approaches, IEEE Transactions on Systems,Man, and Cybernetics – part C: Applications and Reviews 42 (4) (2012) 463–484;

[4] C. Seiffert, T.M. Khoshgoftaar, J. VanHulse, A. Napolitano, RUSBoost: a hybrid approach to alleviating classimbalance, IEEE Transactions on System, Man and Cybernetics A 40 (1) (2010)185–197;

[5] T. Raeder, G. Forman, N.V. Chawla,Learning from imbalanced data: evaluation matters, in: D.E. Holmes, L.C. Jain(Eds.), Data Mining: Found. And Intell. Paradigms, vol. ISRL 23,Springer-Verlag, 2012, pp. 315–331.

[6] H. Guo, H.L. Viktor, Learning fromimbalanced data sets with boosting and data generation: the DataBoost-IMapproach, SIGKDD Explorations Newsletter 6 (2004) 30–39.


END / 
点击图片,查看往期精彩
【声明】内容源于网络
0
0
BBD Data
大数观天下,微言解疑难
内容 748
粉丝 0
BBD Data 大数观天下,微言解疑难
总阅读1.1k
粉丝0
内容748