大数跨境
0
0

BBD(数联铭品)曾途:大数据框架下的企业风险管理

BBD(数联铭品)曾途:大数据框架下的企业风险管理 BBD Data
2015-10-20
2
导读:大数据时代颠覆着我们的思维、生活和商业形态。在大数据的框架下,如何对企业风险进行评估和管理?BBD(数联铭品)CEO曾途的这篇演讲,是我们在商业大数据领域的探索和创新。
大数据时代颠覆着我们的思维、生活和商业形态,大数据框架下,如何对企业风险进行评估和管理?
互联网为金融行业带来了变革与机遇。互联网金融的发展改变了什么?大数据如何与金融风险相结合?BBD(数联铭品)CEO曾途的这篇演讲分享,是我们在商业大数据领域的实际探索和创新思维,愿为关注大数据行业的人们提供一些参考。

1
金融的本质是风险与定价
感谢今天能有机会,跟大家分享在大数据框架下对企业风险的评估和管理。
我一直在思考当下很火的两个概念:互联网金融和金融。根据我们的研究,发现了它们的本质:互联网金融改变了很重要的一个特征,那就是根据通过对流量的高速引入和对风险的把握,从而形成了一个资产端和资金端的配置效率的极大提升。
但这里面最核心的,最大的改变,其实是用新的方式引入了客户的流量,风险还是一个基础性的东西,并没有发生太大的变化。发生变化的是引入客流的方法,引入流量的方法发生了巨大的改变。所以,从互联网金融的角度上来讲,最关注的是流量本身。
所谓对流量本身的关注,就是我们用互联网的方式,用共享的方式,用更快的方式取得了客户资源,但是在互联网金融慢慢进入越来越规范的阶段,风险显得越来越重要。
所谓风险,是我们认为的金融的两大本质之一,而金融的本质是风险和定价,所以说如何去把握整个金融市场的风险,包括信用风险、市场风险、操作风险,我们认为是未来在金融风险管理当中最重要的因素。
当我们了解了风险的核心要素过后,我们再去做面对金融市场,包括债券、股票、大宗商品、利率、外汇,我们才能去做这些金融产品的定价,并且在未来形成一些对于指数的研究。
所以我们认为:在大数据框架下,为我们提供了一个非常有效的手段。可以利用现代的数据采集、挖掘、清洗到可视化,为我们金融行业的风险和定价提供一个有效的解决方案。
我们数联铭品一直致力于研究在金融行业中的信用风险,尤其是中小企业市场,如何从中小企业的企业行为,比如从它的股权结构信息、关联方信息等一些基本的要素,去分析企业的风险,这就是我们认为可以在大数据框架下可以用数据去提升效率,去解决风险问题的一个契机。
2
利用公开数据去处理企业画像
我今天的分享主要分为三个部分:一个是讲大数据本身,一个是讲大数据如何与金融风险进行结合,第三个是讲金融风险的评估,和对未来金融市场定价的一些关联影响。
首先我讲大数据本身。
大家都在谈论大数据,我们认为,大数据本身是一个物理性问题,它是把所有的我们要分析的对象,都把它个体的属性和关系的属性联合在一起,要分析这些属性,必须要有相应的技术特征。就是说我们要有很好的算法平台,很好的底层技术还有很好的数据源,当把这些技术、算法、还有数据源进行有效整合,再和我们的行业结合起来,从而成为一个有效的解决方案。所以对于大数据行业来说,第一是拥有一支专业的行业团队,能够提出一个行业需要解决的普适性问题,第二个是要有一个好的运营数据的平台,能够去支撑这些问题的解决,第三个是要有好的科学家去找到一些突破口,去解决一些人工无法解决和达到的问题,这样形成一个三位一体互相补充的系统才能解决问题。
所以说,对于金融行业里的中小企业来说,尽职调查和企业行为风险的评估一直是行业内的难题,尤其是对关联方风险的分析。因此我们就致力于大数据的技术,去处理企业和关联方在利益冲突方面的问题。
要处理企业尽职调查的问题,首先我谈一下数据源。
数据源里对企业的分析分为两种模式,一个是对非常传统的基于一些企业隐私数据的深度挖掘,并且和一些企业非公开的数据,对企业的行为进行评估,进而对其评级,这些评级的结果可以用于对企业的信贷行业。
当然,我们选择了第二条路,那就是利用公开数据去处理企业画像的问题。
为何要用公开数据?
第一,使用公开数据无需企业授权。也就是说,我们在查询企业风险的时候,最大的难点不是风险发生后去找到企业的风险,更重要的是在我们接触一个企业之前,在接触一个金融标的物和对象之前,我们已经可以对潜在风险进行一定的预测和了解,所以我们就选择了利用公开数据进行企业画像的问题。第二,数据库搭建。我们找到所有公开数据的网站,然后去采集数据,形成我们的数据库。最后,我们把这些数据库的内容按照企业的评级和一个企业行为模式的刻画模型,等会儿我会讲到这个模型是究竟怎么构成的,来对企业进行评估。
截止目前,我们覆盖了2300万家企业法人主体的基本数据,我们将这些数据分成了很多要素,包括投资关系,董监高的关系,诉讼情况,人力资源情况,还有无形资产商标的情况,还有企业公开的财产质押情况,我们都做了全面的挖掘,尤其是对诉讼数据进行了深度挖掘。
3
引入社会资本数据
为了做金融风险这件事,我们聘请了最好的团队。
如果要用大数据真正去解决一个行业问题的话,其实人才是最重要的投入,我们聘请了以前德勤交易并购部的总监袁先智博士来做我们的产品经理,他曾经做了中农工建交巴塞尔III的合规性项目,是他总体建设负责的,所以他擅长按照一个信用风险的基本要素帮助我们去做一个风险定义的框架,这个框架其实是从企业行为来讲,因为现在我们面对中小企业的评级的话,大多是以财务数据来刻画,但是财务数据并不能完全反映出企业的风险,所以我们选择了一个 Social Capital 的data,即社会资本数据,来反映企业的行为风险。
这个数据包括四个维度:
企业的基本信息、商务信息、公开信息和社会关联方信息。
比如说:企业的基本信息中包括人力资源信息,因为在中国,企业在招聘过程中普遍都会在几大招聘网站上发布招聘信息,而这些招聘信息在公开采集下来过后,我们就能了解这些企业在招聘哪一个方向的人,比如金融企业,它要招风控的人,这是必须的。如果一个企业连风控都不招,可能就会产生潜在的风险,这意味着它对风险控制能力比较弱,不重视风控,这对金融企业来说可能是致命的;第二个就是它的诉讼信息,我们有全量的每日开庭公告,就能知道这家公司在哪些地方可能产生诉讼风险,如果我们在做一个企业的尽调,这个标的物走向资本市场的过程中,但是它没有去披露完整的诉讼风险,这时候如果突然出现一个诉讼风险,就可能对整个项目进程造成很大伤害。
4
对公开数据处理的原则
但是对于公开数据的处理,我们还是要坚持几个原则:
第一,要了解个人隐私与公共信息的边界;第二,就是要了解歧视与公正。歧视在这里是一个中性词,并不是说某些样本量不好,打个比方,我们了解到某些企业有一些关联方,里面有一些人可能有巨大的影响力,而这种影响力又可能对企业的经营结果造成极大的影响,这些人我们称作歧视节点。
所以未来要做一个对中小企业的风险评级和画像,我们覆盖了很多数据,包括董监高的数据,工商的数据,行业处罚的数据,包括土地出让转让的数据,专利的数据,行业监管的数据,包括行业的信息,比如钢铁的信息,化工原材料的信息,还有涉诉的信息,几十种资质的信息,招中标的信息。
其实招中标的信息我们可以理解一下,国内的招投标,政府招标和与政府国有企业招标都要上网公开,我们每天要做的事情就是把这些全量的信息抓取下来。当我们采集下来这些数据之后,我们就按照一个风险评估的框架和模型去还原企业行为,这就是我们研究企业画像的一个基本方法。
5
从七个维度看企业风险
我们从七个维度去看企业的风险,第一是企业基本的注册信息,第二是企业的市场和行业的信息,就是说我们可以把近3000家上市公司所有的财务指标按行业进行分析,然后再把这些行业指标打碎,分到细项去分析,拿到这些细项分析之后,我们就可以看到,一些非上市公司如果有财务指标的话,就可以跟我们的行业指标进行对比,是高了还是低了,真正能做到分析性复核。
第三,了解企业法人治理信息,包括投资结构、管理产品的情况,包括资产信息等。第四,要了解关联方的信息,所谓关联方的信息就是它的法定关联方,有工商登记的关联方有没有舞弊的风险,有没有存在经营和利益冲突的风险。
第五,我们也要去分析企业KPI的信息!包括有上市公司有公开的财务KPI信息,和非上市公司的非财务KPI的信息,比如诉讼的全量占它发生新闻事件的比例是多少,还有它引入高管的情况是怎样的,招聘的情况是怎样的,还有一度二度关联方和总的关联方的比率是怎样的,自然人占比是怎么样的,以上这些都是属于KPI的信息。
第六是要找到它的 Social Media 的信息,在整个互联网的情况,包括品牌定位的情况,与政策合规的情况等等的信息。第七,就是找到无形资产信息,比如商标和资质等无形资产的信息,当我们将这七个维度的信息进行整合和加权的时候,我们就可以整体地去分析企业关联方的情况和企业的风险情况。
这七个维度我们作了分类:企业公共信息,企业地位信息,企业关联方图谱的信息,企业定量的和财务有关的授权财务的信息,还有它特性的信息和类别的信息。
我们去看企业的风险。企业风险从审计角度来说,分为固有风险、控制风险和测试风险,其中像测试风险和控制风险是可逆的。也就是说一个中小企业,如果是控制风险的话,说明团队不太靠谱,我们可以换经营班子,如果是测试风险,说明流程也不太靠谱,但是我们可以调整流程,但是对于固有风险来说,有些发生就是不可逆的了。
所谓固有风险,实际上是环境风险。我们从内部环境到外部环境,可以做一个细分,内部环境包括产权权属,治理结构,所有权结构;外部环境包括行业情况、监管情况、税收情况和法律情况。对数据进行完整的划分,我们就可以得到一个关于企业分析的有效结论,但是其中在内部环境当中,像财务数据、组织结构、内部控制这些数据是没有的,所以说我们需要得到企业的授权,才能与之前提到的产权权属、治理结构、所有权结构这些公开数据契合,就可能有机会形成一个自动化的风险评估尽职调查。
刚刚谈了一个风险管理的基本逻辑,我们是要用它来干嘛呢?我们其实就是用这些我们对风险的理解,用于投前、投中、投后,或者银行的贷前、贷中、贷后,和反欺诈,市场分析和信用体系的建设,这里就需要用到大数据了。
6
大数据如何与金融风险结合
我们的专业人士大多数时间还是花在搜集和采集数据上,往往只有很少的时间去做整个的风险判断。比如说一个企业要查到它的一度二度三度关联方(一度关联方的定义,就是这家目标公司的直接投资人和这家公司所投资的企业,或者是直接投资这家企业的自然人。我们找到一度关联方过后,我们要蔓延到它的二度关联方,就是谁投了它的股东或者是它的股东还投了那些企业,我们这样一一蔓延下去,可以蔓延到四度关联方),首先找到数据就特别难,其次我们要计算出来,形成一个完整的关联方图谱,更是难上加难。所以,这里就要用到大数据技术进行实时的处理——
我们把企业的投资关系和董监高关系作为一个关系基本的要素,我们去计算所有目标企业的关联方情况,也就意味着我可以通过一个回车键,通过实时的计算,通过像 Spark 这种内存计算技术,去了解一个企业的关联方情况,比如是否有子公司存在舞弊,或者说呈现出的整个关联方图谱,是否存在企业的自融、企业违规等不合理的一些情况。
比如今天我们研究了一家上市公司,分析了它的关联方图谱特别干净,基本存活了很多年,但是一直没有任何外来引入的资本和投资,基本就是一直就是有几个自然人在那里经营。它的财务KPI指标一直处于静默状态。研究过后我们得出一种结论,这家公司是一种壳公司的模式特征,存在被购买被并购的风险。
所以说如何通过大量海量的数据,快速地处理更多的数据(按照我们刚才的企业的行为模型,得出一些有效的数据结论),是我们整个基于大数据风险评估的一个创新 !大数据加到风险管理来,并不是代替人工去做决策,更重要的是,帮助我们提高了我们处理非结构化数据的效率,影响了我们整个做风险评估的成本。
举个实际的例子,比如说我们通过实际关联方分析基本风险,我们做了一些很经典的案例。传统我们做一个尽调,查到一个基本的关联方大概需要一个月的时间,了解透还需要很多的时间,这里需要到和目标企业进行正常沟通情况,如果沟通很差,基本找不到什么情况。
但是通过我们的研究,把这家目标企业所有的投资人、投资人所投的企业、和投资人所投企业产生业务关系的企业的董监高的情况全部计算出来,可以实时计算出一家公司的关联方。这家公司的关联方不仅呈现出一个线索的图谱,更可以通过结构化的空间聚类的方式,形成了特殊的企业DNA图谱。
可能DNA听起来比较比较抽象,我解释一下。
我们研究了20多万家企业,涉及投资的企业大概有七八万家。但凡是投资型企业,都长着一种固定的结构。中间是一个完整的圈层结构,外面是一个完整的圈层结构。外面的圈层的结构就是涉及到融资的,例如股东一样的。中间的圈层结构,它和这家目标企业是相互投资的强相关结构。只要看到这种结构的关联方图谱,我们就认为它是投资型公司的概率非常高,比如像融资租赁公司、创业投资公司、担保公司等等这些企业。
然后我们找到这些企业特征模式后,我们就做了一个案例。我们和一家监管机构做了一个交流,他们找到一个现在涉及面非常大的、资金链断裂的企业来做分析。我们一看这是一家做电力和贸易的企业,它原理上长的图谱不应该是两个圈层太阳型的结构。因为太阳型企业图谱,是投资型企业的图谱。
也就意味着,这家做实体的企业可能把银行大量的资金,拿到自己的公司来,在自己生态链中进行自融,做钱倒钱的生意。这就意味着,它的主营业务就发生了偏移,这种偏移其实并不体现在财务报表上。而是体现在董监高和股权关系的投资结构上,我们把这个结构进行深入分析,就发现其实是有几个很关键的实际控制人掌握了这个圈层结构,这实际上是一个非常脆弱的结构。
我们看实际控制人,并不是看一家目标企业的占股情况,而是看在整个网络节点中,在网络的整个拓扑结构中,一个节点究竟和多少个公司有关系,我们叫“桥梁点”,就是一个中心点到底和多少个“桥梁点”有关系。而这个中心点就成了我们实际控制人认定的基础。
回到刚才的话题上来,我们就发现这家做贸易和电力的公司,它确实长了一个投资型结构。最后这家公司是一个什么样的结果呢?就是资金链断裂,最后导致很多不可逆的风险,现在正在被强监管。
7
为风险管理提供革命性的路径
所以通过大数据技术进行公开数据的采集和深入的数据挖掘,产生了一些好的金融的结论和数据现象,给我们提供了一条新路径。就是在风险没有发生前,我们可以有一些数据特征,去为风险进行一些提示和预测。虽然是辅助性的,但在很多情况下,在整个风险管理当中,它也是革命性的。
同时我们还针对 P2P 企业,去做了一些分析。我们分析了2010家 P2P 企业,找到一些模型。比如什么样的 P2P 企业容易跑路,其实我们从它的结构性就可以看出来。跑路的 P2P 企业,它往往都是由很多自然人构成的,并且这种自然人结构中,有大量的代持关系;在整个涉及公司架构中,存在实缴和认缴不一致;存在整个平台是买的比较廉价的 P2P 平台等一系列特征。我们都可以大数据的方式,把整个的企业刻画出来。
我们未来要做的对中小企业的深入评估,比如中小企业证券化风险,还有一些经营风险,其实我们要做的工作,往往不是应用层面的,更重要是基础层面的工作。
要把中小企业这种基本的风险列出来,然后进行分类、整合和挖掘,推演出它的模式系统,主动在海量数据中去找到和它类似的标的物,这就是通过相关关系,去发现一些真正的风险的新方法论,这种方法论和传统的因果模式是不一样的。而是通过找到特征、通过模式识别、通过神经网络的计算,去了解到系统性的中小企业的风险。
以上是我对今天演讲一个基本理解和分享,也是我们最近做的一些工作的实际情况。
实际上,这里还有最重要的事情是,如果想做金融和大数据相结合的事情,最好的经验就是,一定要做到行业专家和大数据团队的无缝结合,产品经理一定要好!
我们打造了一个接近80人的大数据团队,其中有25个人的金融工程团队。他们来自海外的各个名校。他们的专业是把金融语言转化成大数据语言,通过云服务的方式,呈现给客户。我们有23个博士,分别从事这方面的研究。
我们基于大数据,去做企业全息画像的几个重要特征:通过全息画像,我们可以了解到企业的不可逆的基本结构;通过图谱去反映企业的实际经营类型!
之后我们在这样的一个拓扑图中,在企业全息画像的DNA图里,再融入一些基本信息,可以做主动式的全量的风险计算,这些基本信息包括利益关联方的信息、公司图谱结构分析、包括关键绩效指标的信息。
我们把每一个公司的一度关联公司、一度关联自然人、实际控制人,包括它的实际存续时间名称、注册资本、地址位置进行了实际描述,甚至包括它的招聘需求也做了描述。

Q
A
&

Q: 不同规模的公司或行业,转化数据会不会有一些主观上的偏差?未来在挖掘具有成长性的企业方面,会不会有进一步的应用?
A: 我觉得这是两个非常好的问题。拿第一个问题来说,我们首先要有一个行业模型。金融最难的一个地方就是说,你所最后呈现的数据结果,一定要在它的实际环境当中,实际经济行为和金融行为中得到验证。所以说,我们要请最好的行业专家,像袁先智博士、陈公越博士。陈公越博士也是MSCI国际部的副总裁。他们来建模,要做到一个可验证的金融模型,我们按照这样一个金融模型,再按照我们大数据的一个方式,把所有数据给它匹配上去。
并且,还不能仅仅相信专家界的模型。因为大数据的最大特征是,我们要找到这些数据本身的一些特征。通过这些数据本身的特征,来完善和校准和修正这些专家的模型。当这个模型确定之后,比如说我们刚刚说的,中小企业评估,我们就从七个维度进行数据分析。
就像我们现在个人评级模型一样,像“fico”的模型,也就10多个指标。10多个指标,最难的也就是设计权重的问题。用大数据去修正、校准这些权重,然后得出一些结论。所以,这里面可能会存在一些的误差。但随着数据越多,计算量越大,它会越来越好。
第二个问题。为什么说风险是金融的基础呢。其实就是你提到的这个问题。其实我们不仅可以判断企业的风险和对他进行防御,同样的,我们通过对整个企业的深度分析,通过大数据的方式,找到一些好企业的模式。比如,什么样的结构,它是一个正常经营的态势,它面对的行业的估值是不断上涨的,预期不断加高的。这些行业的话,我们都会把它好的企业模式给找出来。从而在整体的企业数据库里,用模式识别的方式,去关联出类似的更多企业的结构。然后形成一个对优势企业的判断。我们找一些不管是在资金方面的资源,还是在人才方面的资源,还是经营环境方面的资源,扶持和成长的培育这样一个新兴的市场。
境方面的资源,扶持和成长的培育这样一个新兴的市场。


Q: 您刚才介绍了七大方面的预测变量,在目标变量上您是如何处理的?银行可以用巴塞尔III的逾期天数做违约标签,但是外部公开数据是没有的。中小企业的评估现在不需要用巴塞尔III,为什么?
A: 中小型企业信用评级目前在全球的范围内是没有一个统一的评估标准的,其中包括巴塞尔III。
巴塞尔III现在只局限于对大型企业进行评估,用巴塞尔III对中小企业进行评估不是一个好的解决方式,所以我刚刚提到了从七个行为变量来对中小企业进行评估,这是我们整个金融工程团队整个想出来的对风险评估的一个模型。


Q: 从法律角度,虽然都是公开渠道获取的信息,公司清理后用于商业应用是否涉及隐私,或者说需要当事人授权以及向当事人付费?
A: 现在我们也在思考。其实现在还在没有明确的规范。关于隐私的问题,值得我们探讨。我们也在找好的法律专家,去探讨这些问题的边界。当然,我们也会按照法律合规的方式,去从事这方面的一些探索。


一分钟了解BBD
我最后花一分钟,简单介绍一下公司。BBD是达晨投的A轮,国金证券直投(鼎兴量子)、鼎晖投资和三盛集团投的B轮。主要专注于用大数据技术去解决中小企业的风险评估,和未来金融债券市场的定价问题。
公司现在有23位全职博士,覆盖金融工程、大数据等专业。我们的另外一位创始人,是大数据领域最领先的一个科学家:周涛。他27岁成为电子科技大学的博导、教授。我们也邀请了袁先智博士(原德勤交易并购重组部的负责人)来做我们的产品经理。他也是中国系统工程学会理事、中国金融工程学会理事、中国金融系统专业委员会副主任,入选上海千人计划。他全职加入了公司过后,来定义我们的整个金融风控模型。风控模型加上周涛教授的数据从前到后的采集,形成一套完整的金融产品,帮助金融客户做反欺诈和企业背景调查,还有未来的风险定价等一些工作。
未来我们主要从事的几个方向,基于企业非财务数据的提取,对行业的风险评估框架进行建立和提供服务,同时,对上市公司信用证券化产品的风险评估模型建立和提供服务。最后包括支撑一些系统性平台的风险评估模型提供服务。



【声明】内容源于网络
0
0
BBD Data
大数观天下,微言解疑难
内容 748
粉丝 0
BBD Data 大数观天下,微言解疑难
总阅读97
粉丝0
内容748