大数跨境

“大数据与人工智能环境下的智能财务风险预警方法”系列:知识图谱分析

“大数据与人工智能环境下的智能财务风险预警方法”系列:知识图谱分析 经邦大数据
2021-03-24
3
导读:前言:风险是指未来发生不确定性事件的概率,它指向于未来可能发生的事情,而非过去和现在。随着大数据时代的到来,

前言:风险是指未来发生不确定性事件的概率,它指向于未来可能发生的事情,而非过去和现在。随着大数据时代的到来,信息的重要性越来越受到决策者的重视,精准把控财务风险是重中之重。企业陷入财务风险是一个循序渐进的过程,不同程度的财务风险,其症状和表现不一。知识图谱的出现进一步敲开了风险管控大门,本文介绍智能财务风险预警方法——知识图谱。

“大数据与人工智能环境下的智能财务风险预警方法”系列推文七:

知识图谱,通俗地讲,是一种结构化、语义化的知识库,它以符号的形式来描述客观世界中的概念、属性及其相互关系。知识图谱以结构化、语义化的方式描述了客观世界中的概念、实体和关系,将来自互联网中的海量繁杂的信息表达成对人类更友好的、更接近人类思维方式的信息形式,并提供一种更好地组织、管理和检索海量数据的能力。其基本组成单元是实体、关系以及它们的关联属性,实体之间通过关系互相链接形成一张知识网络。知识图谱目前在很多领域已经得到应用,比如人工智能和商业智能方面,包括聊天机器人、智能问答、用户推荐、临床决策支持等。随着云计算与大数据时代的到来,大量的数据唾手可得,但是人们依然难以全面地了解和掌握一个企业的全息画像,因为一个企业与周围的环境以及伙伴存在着大量的关系和属性,而且这些关系和属性处在不断变化之中,牵一发而动全身。因此也无法准确清晰地对财务风险进行预警。如何更有效、快捷、及时地挖掘出这些关系,做到及时预警,是亟待解决的问题。


①知识图谱原理

知识图谱是对客观物理世界的一种结构化的符号表达,也是一个网状知识库,它由具有属性的实体通过关系链接而成,关系也包含自身的属性。从图论的角度理解,知识图谱其在本质上是一种概念网络,其节点表示客观物理世界中的实体,而边则表示实体之间存在的各种语义关系。知识图谱的表示是指用语言对知识图谱进行建模,从而达到方便知识计算的目的。从图的角度来看,知识图谱就是一个语义网络,即用互联的节点和弧表示知识结构。知识图谱的表示是一种符合计算机高效计算要求的数据结构。知识图谱是一种新的信息组织方式,能够基于 Web 网页建立语义化的链接网络,以最小的代价组织分散在互联网中的海量信息,使其成为结构化、关系化的有价值的知识。在应用价值方面,知识图谱带来了一种新的信息检索方式:一方面可以通过知识推理和语义映射实现概念检索;另一方面可以用图形化的方式把结构化的知识反馈给用户,并引导用户进一步的探索,从而让人们更专注于内容而不是低效的人工筛选过滤网页寻找答案。

②知识图谱的架构

知识图谱的架构分为逻辑结构和技术实现架构两部分。其中逻辑结构描述了知识图谱的组成和构造;技术实现架构描述的是构建知识图谱过程中采用的技术和方法。

可以把知识图谱的逻辑结构分成两个层次:一个是数据图,另一个是模式图。在数据图,知识通常以客观事实为单位组织并存储在图数据库中,例如微软的 Trinity、谷歌的 Graphd 以及开源的 Neo4j 图数据库。如果以 RDF 三元组作为事实组织的基本形式,那么这些存放在图数据库中的事实数据将会互相关联构成一个庞大的关系网络,最后形成一个知识图谱。

知识图谱的核心是模式图,它在数据图之上。模式图存储的是经过提炼的比较可靠的事实,一般采用概念本体库来管理,同时借助于本体库中对约束、规则以及公理的支持能力来对实体、实体类型、关系以及属性等进行规范和约束。本体库是知识库的模具,定义了知识库的“骨骼”,是知识图谱的结构化的概念模板。通常采用定义本体库来构造的知识图谱知识库冗余度小、概念清晰、层次结构也比较强。

③知识图谱的构建

基于构造方式的不同,知识图谱主要有两种构建方式:自顶向下构建和自底向上构建。自顶向下方式主要是从高质量结构化数据中提取本体和模式信息构建模式图;自底向上方式是采用技术手段从公开或私有的结构化、半结构化和非结构化数据中提取资源模式,然后选择里面置信度高的部分知识添加到知识库形成数据图。一般来讲,知识图谱的构建不是一个一步到位的事情,而是一个不断迭代更新的过程,其中每一轮的迭代更新都会涉及三个步骤:知识获取、知识融合以及知识加工,其中可能还会包括知识推理和知识质量检查。

知识获取指的是采取一定的技术手段从各种不同类型的数据源中获取、提炼出实体、实体属性以及各种实体之间的关系和属性,经过整理后形成本体的事实知识表达。知识获取实现的主要技术包括网络爬虫、机器学习、知识挖掘、自然语言处理、基于内在机理的知识发现技术等。在大数据环境下,智能化的数据抽取、提炼和挖掘技术显得尤为重要,大量的知识资源为后续的知识推理、融合奠定了坚实的基础。知识融合是在通过知识获取获得新的知识后,还需要对其进行整合,消除其中的歧义和矛盾,实现实体同义词的唯一引用,知识融合主要分为数据模式层融合和数据层融合。由于行业知识图谱的数据模式通常采用自顶向下和自底向上结合的方式,在模式层基本都经过人工的校验,保证了可靠性,因此,知识融合的关键任务在数据层的融合。知识加工则是通过前期的知识获取,实现了从原始语料中提取出实体、关系与属性等知识要素,再经过知识融合便可以消除实体项与实体对象之间的歧义,得到一系列基本的事实表达。但是,事实本身并不是等于知识,要经过知识加工后才能最终获得结构化、关系化、链接化的清晰知识体系。知识加工主要包括本体构建、知识推理以及质量评估三个方面的内容。

随着科学技术的发展,在知识图谱的构建方面已经积累了大量的通用知识图谱的构建方法和技术。早期,主要是通过人工构建的方式完成工作,形成了 ResearchCyc、WordNet 等通用的知识图谱。随后出现大量基于维基百科构建的知识图谱,比如 YAGO、DBpedia 等。在构建中文知识图谱方面,也出现了两个比较重要的产品:Zhishi.me 和SSCO,他们除了中文维基百科外,还结合了互动百合和百度百科这两个比较流行的中文百科站点的数据。基于开放领域知识获取的知识图谱构建技术近年来也受到越来越多的关注,它们采用增量迭代的方式从互联语义网络中抽取出 RDF 三元组来不断构建和补充知识图谱。但是面向行业的垂直知识图谱与通用知识图谱在范围和深度上并不相同,因此他们在构建方法上也有所区别。
④知识图谱应用于财务风险预警可行性

基于知识图谱的企业智能财务风险预警,其特殊之处在于融合了所有的学科,不同来源、不同结构、不同类型的知识单元都融合在图谱中,知识体系不断拓宽和深化,把知识领域的数据体系化和关系化,最终以图的方式可视化。也就是说,知识图谱技术是一种知识体系,根据信息系统,运用数据采集、数据挖掘、信息处理、知识计量和图形绘制等技术把复杂的知识领域以关联成图的样式展现出来,从而发现知识领域的动态发展规律。对于企业而言,这意味着可以提取非结构化信息,非结构化的信息来源非常广泛。在信息爆炸的时代,对于企业而言,需要提取个人与企业的非结构化信息来丰富数据维度,寻求更为准确的智能财务风险预警模型。知识抽取技术的对象是开放的链接数据,使用专业的自动化技术从半结构化、非结构化的数据中抽取实体,进而形成高质量的事实表达,是上层模式层的构建的基础。通过知识抽取技术,从海量的数据库中提取出与个人和企业所有的非结构化信息信息,为之后的知识融合提供了数据的来源。

知识图谱中的知识有很多不同的来源,因而在无法保证知识的质量,知识的质量高低不一,由于知识来自于不同的渠道,大量重复的知识可能存在于知识库中,并且知识的之间的关联度不够,这些些问题会影响知识的使用,因而需要首先对知识进行融合。不同来源的知识在规定好的规则下通过异构数据的整合,消除知识歧义,并且对过滤之后的知识进行加工、验证推理和更新,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。通过知识提取的步骤,非结构化的信息只是知识的基本单位,只有经过知识的融合,才不会为后续的步骤带来后续的麻烦,将信息混乱防止在源头,避免信息的歧义。在提取的只是的基本单位中,存在的大量数据会干扰处理过程,降低数据整合的效果。因而必须通过知识加工的过程,将大量的干扰数据除去,过滤干净的信息,从而组建一个大规模的知识体系,统一进行知识管理。

通过知识图谱技术,从大量非结构化的信息中提取出来与主体相关的信息,融合了主体线上、线下的大量数据,将非实名制数据进行实名制转化,将用户社交关系人群的信用情况引入评价体系,使原本大量沉淀的互联网行为数据发挥作用,可有效提高风险管理水平。
⑤基于知识图谱的财务风险评价思路

以人工智能和大数据为代表的新一代信息技术正在改变着企业的运营模式和交易方式,企业财务风险评价也涌现出一些新特征,主要表现为传统的静态评价为主向全过程的动态评价为主、主观评价为主向数据驱动的客观评价为主、局部评价为主向多维的全景式评价为主、以及封闭评价为主向多主体的协同评价为主的转变。

新一代信息技术的发展,使得企业财务活动过程的细节信息以及与外部相关主体交易过程信息等都被实时记录在各类系统中,如何通过对这些细节信息的深度挖掘分析,解析财务风险的成因、过程和影响,企业与外部相关主体复杂的交互关系会对其财务风险产生何种影响?企业财务风险会受到微观、中观、宏观多层次因素的影响,如何有效融合海量动态、多源异构的财务风险大数据,集结成对企业财务风险整体的客观评价?这些均是传统财务风险评价理论和方法难以应对的挑战。而知识图谱可以系统分析多模态数据之间的内在联系更为有效地识别隐秘的关联规则和深度知识发现,勾勒出企业财务风险评价“动因--行为--结果”的全过程,而不是数据表面的勾稽关系和影响企业财务风险评价的表征特性,可以得到单一数据源无法准确刻画的知识,比如企业的社会关系网络、创新网络等。

企业社会关系网络知识图谱举例
以企业社会关系网络知识图谱构建为例,我们可以从社交媒体、企查查、天眼查等多来源获取关联企业、竞争企业、供应商、客户、银行、工商、税务、法院等多主体多模态数据信息,通过路径分析、关联探索等操作进行企业间在担保、诉讼、投资与控股、合作与竞争、供应链等方面的异常关联挖掘,挖掘目标企业谱系中的异常关联,从多维度构建数据模型,是单一实体数据中所无法揭示的信息。企业社会关系网络知识图的谱构建是全方位企业风险评估中的一环,可以有效规避潜在担保风险、违约风险、诉讼风险以及资金风险等,这些都可以作为企业财务风险评价的有效证据。
安徽经邦致力于新一代信息技术与财务分析与融合的理论及系统开发应用,拥有一支专业的建模团队和专家团队,本推文中关于“知识图谱与财务风险评价”融合思路与论述来自于专家团队最新的研究。


end




更多“企业风控”案例

尽在经邦大数据

18019551821







精彩推荐




经邦智能风控系统(RM)
集团智能财务经营决策分析系统(BR)

智慧金融顾问决策支持系统SAF


点击上方红色字,可直接阅读



【声明】内容源于网络
0
0
经邦大数据
专注于全面风险管控及智能决策分析软件的研发、销售和服务。
内容 41
粉丝 0
经邦大数据 专注于全面风险管控及智能决策分析软件的研发、销售和服务。
总阅读2
粉丝0
内容41