大家好,我是东哥。
1. 什么是SDK?
2. SDK作业流程
3. SDK数据厂商对比
4. SDK数据产品-标准产品
5. SDK数据产品-联合建模
6. APPLIST介绍
7. APPLIST特征挖掘思路
一、什么是SDK?
SDK的概念和介绍
定义:SDK(Software Development Kit,软件开发工具包) 是一套由软件厂商或开发者提供的工具集合(工具包)。该工具包由软件厂商打包做好,开发者只需要将工具包嵌入到使用场景中(比如APP )就能够直接使用而无需开发,以此提高效率,降低开发成本。
场景:SDK可嵌入多个开发场景,如App、Web、桌面应用、嵌入式系统等,其中和风控比较相关的是移动端APP。
组成:包含代码库、文档、示例、调试工具和 API(应用程序接口)等核心组成。
常见SDK类型
常见SDK类型包括功能性、数据分析、安全风控、AI与多媒体。例如,功能性SDK有支付功能、登录功能、地图、推送等。
SDK工具包集成在APP中,APP主程序根据用户的交互指令通过调用SDK接口获取相应的功能模块,如消息推送、支付、定位、统计、广告等。SDK提供功能支持的同时,会将数据与服务器进行同步,同步频率会根据具体的业务场景来定。如果是高频场景如通讯类的则需保持实时同步,而像天气类的场景一般可采取定时轮询的方式,比如每隔15分钟同步一次数据。
SDK三方数据源厂商的数据产品一般也分为 “标准产品” 和 “联合建模” 两种方式。
标准产品
以某家SDK厂商的数据为例,可以分为应用列表、活跃信息、地理位置、推送消息、设备信息几类。SDK厂商对收集到的数据做变量体系的衍生加工,打造成适合风控场景的标准产品。
a. 联合建模流程
1)数据使用方准备样本,一般是三要素(姓名、手机号、身份证号的md5加密)+回溯时间,给到数据厂商。与数据厂商明确要回溯的数据范围,有些敏感信息或核心数据可能不会开放。
2)数据厂商根据需求进行历史数据回溯,该过程可能比较长,一是看样本量,量大一般不会很快;二是数据厂商可能有多个回溯需求,需要排期,一般在2周左右,长的可能要一个月左右,返回匹配好的数据。
3)联合建模场地可能是去驻场做,或者申请服务器访问权限远程来做。无论哪种都需要将自己常用的建模和分析代码导入分析环境,检查Python包版本的适配性。
4)由于是联合建模,使用的数据非标准化,可根据返回的底表数据重新做衍生变量的加工,然后基于自己做的衍生变量和样本标签来构建风控模型。
b.联合建模底层数据
由于SDK获取的都是设备信息,在数据库表设计时是以设备信息为主键的,而风控数据使用方提供的样本一般都是人维度的(姓名、手机号、身份证号的md5加密+回溯时间)。
以某SDK数据厂商的联合建模数据字典为例:
1)提供样本标签匹配的全部底表明细数据(如下示例),一般包括“日志表”和“维表”
日志表:记录设备的明细数据,比如APP的活跃时长,按日分区统计累加,记录条数庞大,表所占空间也比较非常大。
维表:指对APP的分类维度的表,比如定义哪些APP属于银行借贷产品,哪些APP属于小额贷款产品等。


