信贷业务中如何通过收货地址识别风险？- 大数跨境

前言

在信贷业务中，地址经常作为申请时的必要资料之一。本期专门介绍消费信贷业务中收货地址的应用现状和解决方案。对于电商平台而言，收货地址是一个覆盖率极高，并且真实性相对有所保障的信息源，往往是单位地址和家庭住址（甚至是户籍地址和他人地址）的集合体，能够反应收货人的生活区域、工作区域、社交关系以及居住就业的稳定性。

查查你的收货地址，你会想起很多故事：第一次租房淘的搬家神器，送给前女友的最后一份生日礼物，无数个加班的晚上在公司点的外卖，给父母邮购到家的血糖仪。默默记录下你从学校到社会身份转换的不舍，从单身狗到再次成为单身狗的忧伤，换了N个工作依然逃不开加班的无奈，却懂得了为家人送去一份关怀……

收货地址在信贷产品的应用现状

目前收货地址主要应用在以下两类产品：

1、电商消费分期产品，从电商平台官方渠道获取收货地址。

2、小额借贷产品，如图1所示客户授权提供常用的收货地址。

图1

不少消费分期平台基于地址进行信用评估(见下图2)。很多人已经有过类似经验，只输入收货地址，直接提示评分不足。用户体验差强人意，用户换一个收货地址却申请通过了。

图2

收货地址信用评估模型，从本质上是通过地址评估信用风险，但简单粗暴的一刀切策略，并不能准确识别出好用户，用户体验打折扣的同时，还可能放进一批坏客户。因此，用户提供的收货地址，需要像吃货对待食材一样细致小心处理。

收货地址信用评估解决方案

1、数据标准化处理

因为地址很多情况下是由客户填写，所以免不了会有缺失和小错误。在进行地址信用评估前需要对地址进行标准化处理，实现省、市、区、路、路号的切分，同时进行纠错和修复。在抽取了大量样本并与主流地理位置服务商合作，反复试验调整后，在探查的近百万份地址，标准化处理之前仅有六成能够识别；标准化处理后超过九成识别成功，得到的位置坐标精准度也大幅提升。数据质量显著提升，尽可能避免了对地址信息的误读和缺失。

表1-对地址的修复示例

2、地址类型识别

传统银行风控政策会根据职业的特征进行客群细分，筛选，并对特定客群采用不同的准入授信策略。好比出海捕鱼，收网发现有鱼虾蟹，最后鱼归鱼，虾归虾，蟹归蟹，分别卖不同的价格。

地址信用评估模型需要对杂乱无章的收货地址分门别类，地址分词选定的关键词，通过多次专家经验比对交叉验证，生成一套对收货地址【模糊识别+精确识别】分级分类的方法。

1）模糊识别：比如医护从业人员的地址中关键词可能会包含医院、门诊部、住院，赋予医疗类地址；

关键词包含面包房、料理等服务类地址，很可能属于餐饮从业人员。目前已建立数十个细分行业人群的地址关键词识别主词库，覆盖大部分主流收货地址类型。

医疗行业

政府机构

服务行业

制造行业

2）精确识别：为了提高地址分类的准确度，请技术牛X到起飞的大神，从公开渠道获取地址各类兴趣点数据：医院/超市/写字楼/小区/高等院校/银行网点等，这些数据像河里抓来的小龙虾，即“可口”又“不太干净”，经历了多次标准化处理之后，最终建成多个行业辅词库，如何利用且看下文分解。

关键词筛选：如果收货地址的关键词不止一个，且既有模糊识别，又可以精确识别的情况，我们通过专家经验及反复人工纠错，开发了一套关键词筛选逻辑。经过多次调整优化，已有效降低了地址错误分类的概率。关键词筛选逻辑举例：

收货地址：上海中医药大学附属医院门诊部

分析：

1）模糊识别的关键词：大学（高等院校），医院（医疗行业），门诊（医疗行业），

2）精确识别的关键词：上海中医药大学（高等院校），上海中医药大学附属医院（医疗行业）

结果：关键词为上海中医药大学附属医院（医疗行业）

地址类型识别举例：

表2-地址类型识别举例

3、收货地址识别在客户画像方面应用：

收货地址还可以应用至精细化客户运营。根据不同类型的收货地址，能够将客户群进行细致的划分，比如识别为大学的收货地址，可以结合收货人留存的年龄、性别信息，找出在校大学生，进行辅导书、文具用品等特定商品的促销活动推送。识别为写字楼的收货地址，可以进行工作日外卖类的会员营销活动。

4、变量衍生

前面已经将收货地址通过模糊识别，分成了不同的类别(住宅、办公、医疗、学校等)，下图是某小额信贷产品数十万样本中，地址行业分类对信用风险的识别效果，该样本平均坏样本浓度为50%，从图1中可以发现收货地址为住宿、娱乐等，信用违约风险显著上升；而归属于基建（工程、电力），医院的信用违约风险有所下降；从该变量IV值0.07，可以看出有一定区分效果。

图3 对地址的模糊识别结果分析

收货地址同样是政府机关，如图4所示，农村类的信用表现明显好于在城市的政府机关。这是个比较有意思的特征，同为公务员，可能在农村的收入水平或还款意愿，显著高于他们在城里的同僚。

图4 农村/城市地址对信用风险的识别效果

同时，收货地址的房价对信用也有一定的区分能力。

我们分析全国三百多个地区城市的小区房价数据，统计每个收货地址附近的小区房价绝对值，发现与信用风险的相关性呈现倒三角形状。即地址周围房价在1万至3万区间，信用风险普遍偏低。

图5 收货地址附近小区均价与信用违约的关系

为了进一步验证，调出了四个发达城市的样本，对每一个收货地址固定距离内的小区平均房价计算在当地的房价档次（即房价分位数），刨除了不同城市房价绝对值高低影响因素，仅看相对的档次，如下图6所示，发现同样呈倒三角的形状，信用风险最低的档次依然是中间档，但是房价较高的档次出现了不同的趋势，分析由于住高档房的不能排除群租或公租房的可能，同时底层依赖的房价词库清洗质量直接影响该维度的量化验证结果。通过和年龄，学历，户籍地址等信息结合，对租房和自有房产进行一定区分，房价信息对信用的区分效果会进一步提升。

图6 四个城市的收货地址附近小区房价档次与信用违约的关系

5、建模

既然已经有变量了，基于以上变量简单的写一组规则，不符合的拒绝，符合的准入授信。可能会出现下图7中说的情况。把收货地址重新排序，从拒绝直接变通过，我和小伙伴都惊呆了。由此可见做信贷风控，与中介之间的攻防不是简单的规则可以解决，模型算法必不可少。

图7 用户变更收货地址排序，申请贷款通过示例

对于电商平台，其活跃客户通常会有多个收货地址信息，为了尽可能全面反映客户的消费能力，履约能力，除了对于单个地址尝试用GBDT（迭代决策树）算法，可进一步针对多个地址进行二次建模，在收货地址信用评估建模中，我们分别使用了GBDT ,XGBoost等机器学习算法，并区分单个地址、多个地址情形单独建模模型。一般采用AUC和KS这2个指标评估模型的效果。

本例中AUC超过0.7，KS超过0.3。评估结果显示，结合多个地址进行二次建模的方法，对于收货地址模型的效果有显著提升，图8是最终模型的ROC曲线。

图8：ROC曲线

你可能感兴趣的文章

大事|众安科技与人工智能有什么关系？

众安科技副总葛卫忠：“数据智能”助力未来银行新风控

大事件|“2017全球人工智能与机器人峰会”就要开始了！

众科院|众新社|众议厅

区块链、人工智能、大数据...

时下in爆的科技知识都在这里。

长按二维码跟我一起涨姿势！