推荐阅读文章列表
业务背景
【数据价值】金融信贷业务的本质是风险定价。从贷前的客户营销、反欺诈、信用评估,到贷中的额度审批、定价策略,再到贷后的风险预警、催收管理,每一个环节的精准决策都高度依赖于高质量、多维度的数据。
【监管合规】 金融监管机构(如人民银行、银保监会)对金融机构的数据治理、数据报送(如征信报送)和风险控制提出了越来越高的要求。一个规范、透明、可追溯的数据体系是满足监管合规的基石。
业务知识
金融信贷的定义
百科定义如下:金融信贷是银行等金融机构向企事业单位及客户提供资金支持的贷款形式,属于经济领域的重要融资方式。其具备灵活发放、期限可调和风险控制等特点,能够通过优化贷款结构助力资源配置,并对经济活动产生促进作用。
一句话说清楚:金融机构借钱给企业或者客户
金融结构有哪些
-
银行类金融机构:银行是最常见的贷款机构,包括国有大型商业银行(如工行、建行、中行、农行、交行、邮储银行)、股份制银行(如招行、浦发、中信)以及城市商业银行、农村商业银行等。 -
消费金融公司:消费金融公司是经银保监会批准的非银行金融机构,专注于小额、分散的消费贷款。
-
互联网消费金融及网贷平台:这类平台通常持有合法金融牌照,提供线上借贷服务,如蚂蚁花借呗、京东金条、度小满等
专有名词解释
-
进件:借款人向银行或金融机构提交贷款申请及相关资料的过程 -
授信:银行或金融机构,基于客户的信用状况、财务实力等因素,给予客户在一定条件下可循环使用的信用额度 -
借款人:申请贷款并承担还款责任的个人 -
信用评级:评估借款人信用状况的等级
数仓架构图
数仓构建流程
第一步、业务调研
-
数据源有哪些?梳理业务的核心流程,针对关键环节找到对应的业务系统,熟悉系统中的数据流转细节 -
业务需求有哪些?明确建设数仓的目的是什么,for运营分析,需明确具体分析的核心指标有哪些 -
根据数据源判断是否能够完成业务需求?拆解需求,判断数据源的字段是否能够满足所有需求
第二步、架构设计
-
数据域划分:数据域就是将业务过程或者维度进行抽象的集合,那么如何进行数据域划分呢? -
首先同业务方对齐核心业务过程以及核心维度,核心业务过程是进件->授信->放款->支用->还款->逾期催收,核心维度包括用户、机构、产品等,然后按照业务过程以及维度抽象分类数据:用户信息 -> 用户域;机构信息 -> 机构域;进件、授信 -> 授信域;放款、支用、还款 -> 交易域;逾期催收 -> 催收域 -
构建总线矩阵:总线矩阵就是用来描述业务过程与维度之间的联系,那么如何构建总线矩阵呢? -
首先明确每个数据域下有哪些业务过程,比如 交易域下包括 放款、支用、还款等,然后确定业务过程与哪些维度相关,比如 放款业务过程和用户、机构、产品相关
第三步、模型设计
-
包括中间层以及应用层模型设计,以中间层模型设计为例,步骤如下: -
选择业务过程以及确定事实表类型:业务过程通常使用行为动词表示业务执行的活动,在选择了业务过程以后,相应的事实表类型也随之确定了,比如授信表包含授信申请和授信审批两个业务过程,就是多事务事实表 -
声明粒度:尽量选择最细级别的原子粒度,比如授信表的粒度:用户 + 产品 + 机构 -
......
核心事项
最最最核心的部分!!!
了解大数据技术栈、数仓架构、数仓搭建流程等,只是对数仓同学最基本的要求,特别是在面试中,我们一定要凸显自己不同于其他候选人的能力,这里主要列出以下四点:
1、标准命名治理 *
此部分将教会你如何回答面试官的以下问题:
1)你做过数据治理吗?
2)AI和数据治理的结合可以有哪些方向?请举例说明
3)你们建设数仓的标准是什么?
2、数据资产建设
此部分将教会你如何回答面试官的以下问题:
1)你是如何设计模型的?
2)什么样的模型是一个“好”模型?
3)你做过的最难的指标是什么?
3、质量体系建设 *
此部分将教会你如何回答面试官的以下问题:
1)如何保证你提供的指标/标签是正确的?
2)如何保证指标一致性?
3)你遇到过的最大的挑战是什么?
4、核心链路优化 **
此部分将教会你如何回答以下面试官的所有问题:
1)你做过模型设计相关的优化吗?
2)你是如何优化慢任务的?
3)你遇到过数据倾斜吗?如何定位以及如何解决
‼️ 《核心事项》的试读文档见:企业级项目一:《XX数仓交易域数据建设》
写在最后
项目获取方式
公众号回复:套餐四

