文| 巫源睿
模型中心大数据建模工程师 ,西南财经大学统计学学士,上海财经大学应用统计硕士
引言
不平衡样本分类建模问题在金融风险监测预警、信贷风险评估、医学诊断等场景中普遍存在。不平衡样本在分类建模中可能导致哪些问题?在非均衡建模场景下设计和训练模型是否有技巧策略可循?本篇文章对该问题进行了阐释并归纳梳理若干不平衡样本建模方法。最后引入BBD在金融监管模型业务中的案例,介绍我们的一些探索尝试和应用效果。
不平衡程度度量:样本的不平衡程度可以用IR(Imbalance Ratio)指标来度量,IR值越大代表样本越不平衡。

-
Accuracy
-
Precision
-
Small disjuncts

-
Lack of density

-
Overlapping

-
Noisy data

-
Borderline examples

-
Dataset shift

如上图所示,由于取样偏差,训练集和测试集或待预测样本分布不同,导致通过训练样本学习到的模型泛化能力差,或者在测试集和预测样本上模型评估效果下降。该问题尤其容易出现在正例样本数量过少的极度不平衡样本建模中。
选择更加合适的分类算法
采用更加科学的模型评价标准
针对不平衡样本进行采样和样本生成
采用代价敏感学习方法
采用集成算法
采用基于核函数的不平衡样本建模方法
改用异常检测和无监督方法
1. 跨境风险监测模型
-
a.基于外汇场景下存在大量登记有外汇业务但缺乏真实交易发生等情况,将多数类的Negative样本从非黑名单样本调整为具有活跃交易的白名单企业集。 -
b.外汇黑名单企业分为几种不同的违法类型且黑样本集中为其中1-2类,不同违法类型表现出不同的风险特征,据此将黑名单按类别聚类后分模块建模。 -
c.基于外汇违法违规的业务定义,从裁判文书、行政处罚数据中解析违法违规外汇企业,补充负面清单、增加黑名单样本数量。 -
d.针对外汇业务场景丰富但一家企业往往只覆盖少数交易场景、且黑名单企业在某几类场景集中的情况,对外汇交易场景做进一步细分,将样本根据业务场景再分类,进行更具有针对性的、分模块的模型学习。




-
a.样本扩充:根据业务需求扩大黑样本定义增加债务违约、债务展期、未披露的短期借款违约等风险事件,将近三年黑名单由约20家增加至约230家企业,将近三年建模样本进行时间对齐处理使得不同年份黑名单能用于训练同一预测模型。 -
b.指标降维:在建模过程中进行详细的特征分析和样本分布分析,对约1000个初始特征进行选择、调优、融合等操作,最终约150个入模指标,极大降低了特征维度,保证入模指标能覆盖有效分类信息的同时互相避免信息重叠,避免该场景下的少数类样本在高维特征空间中难形成类边界的问题。 -
c.样本采样:对少数类样本尝试进行SMOTE,对多数类样本尝试进行Random Undersampling,降低训练样本的不平衡程度。 -
d.选取科学的模型评价指标:在模型优化和选择过程中主要依据ROC-AUC、KS评价指标,并根据业务需要参考PR曲线、Precision-Recall trade-off表推送建议阈值。


[1] López V, Fernández A, García S, PaladeV, Herrera F (2013) An insight into classification with imbalanced data:empirical results and current trends on using data intrinsic characteristics.Inf Sci 250(20):113–141. Article;
[2] H. He, E.A. Garcia, Learning fromimbalanced data, IEEE Transactions on Knowledge and Data Engineering 21 (9)(2009) 1263–1284.
[3] M. Galar, A. Fernández, E. Barrenechea,H. Bustince, F. Herrera, A review on ensembles for class imbalance problem:bagging, boosting and hybrid based approaches, IEEE Transactions on Systems,Man, and Cybernetics – part C: Applications and Reviews 42 (4) (2012) 463–484;
[4] C. Seiffert, T.M. Khoshgoftaar, J. VanHulse, A. Napolitano, RUSBoost: a hybrid approach to alleviating classimbalance, IEEE Transactions on System, Man and Cybernetics A 40 (1) (2010)185–197;
[5] T. Raeder, G. Forman, N.V. Chawla,Learning from imbalanced data: evaluation matters, in: D.E. Holmes, L.C. Jain(Eds.), Data Mining: Found. And Intell. Paradigms, vol. ISRL 23,Springer-Verlag, 2012, pp. 315–331.
[6] H. Guo, H.L. Viktor, Learning fromimbalanced data sets with boosting and data generation: the DataBoost-IMapproach, SIGKDD Explorations Newsletter 6 (2004) 30–39.

