前言:风险是指未来发生不确定性事件的概率,它指向于未来可能发生的事情,而非过去和现在。随着大数据时代的到来,信息的重要性越来越受到决策者的重视,精准把控财务风险是重中之重。企业陷入财务风险是一个循序渐进的过程,不同程度的财务风险,其症状和表现不一。知识图谱的出现进一步敲开了风险管控大门,本文介绍智能财务风险预警方法——知识图谱。
“大数据与人工智能环境下的智能财务风险预警方法”系列推文七:
知识图谱,通俗地讲,是一种结构化、语义化的知识库,它以符号的形式来描述客观世界中的概念、属性及其相互关系。知识图谱以结构化、语义化的方式描述了客观世界中的概念、实体和关系,将来自互联网中的海量繁杂的信息表达成对人类更友好的、更接近人类思维方式的信息形式,并提供一种更好地组织、管理和检索海量数据的能力。其基本组成单元是实体、关系以及它们的关联属性,实体之间通过关系互相链接形成一张知识网络。知识图谱目前在很多领域已经得到应用,比如人工智能和商业智能方面,包括聊天机器人、智能问答、用户推荐、临床决策支持等。随着云计算与大数据时代的到来,大量的数据唾手可得,但是人们依然难以全面地了解和掌握一个企业的全息画像,因为一个企业与周围的环境以及伙伴存在着大量的关系和属性,而且这些关系和属性处在不断变化之中,牵一发而动全身。因此也无法准确清晰地对财务风险进行预警。如何更有效、快捷、及时地挖掘出这些关系,做到及时预警,是亟待解决的问题。
|
①知识图谱原理
②知识图谱的架构
知识图谱的架构分为逻辑结构和技术实现架构两部分。其中逻辑结构描述了知识图谱的组成和构造;技术实现架构描述的是构建知识图谱过程中采用的技术和方法。
知识图谱的核心是模式图,它在数据图之上。模式图存储的是经过提炼的比较可靠的事实,一般采用概念本体库来管理,同时借助于本体库中对约束、规则以及公理的支持能力来对实体、实体类型、关系以及属性等进行规范和约束。本体库是知识库的模具,定义了知识库的“骨骼”,是知识图谱的结构化的概念模板。通常采用定义本体库来构造的知识图谱知识库冗余度小、概念清晰、层次结构也比较强。
基于构造方式的不同,知识图谱主要有两种构建方式:自顶向下构建和自底向上构建。自顶向下方式主要是从高质量结构化数据中提取本体和模式信息构建模式图;自底向上方式是采用技术手段从公开或私有的结构化、半结构化和非结构化数据中提取资源模式,然后选择里面置信度高的部分知识添加到知识库形成数据图。一般来讲,知识图谱的构建不是一个一步到位的事情,而是一个不断迭代更新的过程,其中每一轮的迭代更新都会涉及三个步骤:知识获取、知识融合以及知识加工,其中可能还会包括知识推理和知识质量检查。
知识获取指的是采取一定的技术手段从各种不同类型的数据源中获取、提炼出实体、实体属性以及各种实体之间的关系和属性,经过整理后形成本体的事实知识表达。知识获取实现的主要技术包括网络爬虫、机器学习、知识挖掘、自然语言处理、基于内在机理的知识发现技术等。在大数据环境下,智能化的数据抽取、提炼和挖掘技术显得尤为重要,大量的知识资源为后续的知识推理、融合奠定了坚实的基础。知识融合是在通过知识获取获得新的知识后,还需要对其进行整合,消除其中的歧义和矛盾,实现实体同义词的唯一引用,知识融合主要分为数据模式层融合和数据层融合。由于行业知识图谱的数据模式通常采用自顶向下和自底向上结合的方式,在模式层基本都经过人工的校验,保证了可靠性,因此,知识融合的关键任务在数据层的融合。知识加工则是通过前期的知识获取,实现了从原始语料中提取出实体、关系与属性等知识要素,再经过知识融合便可以消除实体项与实体对象之间的歧义,得到一系列基本的事实表达。但是,事实本身并不是等于知识,要经过知识加工后才能最终获得结构化、关系化、链接化的清晰知识体系。知识加工主要包括本体构建、知识推理以及质量评估三个方面的内容。
基于知识图谱的企业智能财务风险预警,其特殊之处在于融合了所有的学科,不同来源、不同结构、不同类型的知识单元都融合在图谱中,知识体系不断拓宽和深化,把知识领域的数据体系化和关系化,最终以图的方式可视化。也就是说,知识图谱技术是一种知识体系,根据信息系统,运用数据采集、数据挖掘、信息处理、知识计量和图形绘制等技术把复杂的知识领域以关联成图的样式展现出来,从而发现知识领域的动态发展规律。对于企业而言,这意味着可以提取非结构化信息,非结构化的信息来源非常广泛。在信息爆炸的时代,对于企业而言,需要提取个人与企业的非结构化信息来丰富数据维度,寻求更为准确的智能财务风险预警模型。知识抽取技术的对象是开放的链接数据,使用专业的自动化技术从半结构化、非结构化的数据中抽取实体,进而形成高质量的事实表达,是上层模式层的构建的基础。通过知识抽取技术,从海量的数据库中提取出与个人和企业所有的非结构化信息信息,为之后的知识融合提供了数据的来源。
知识图谱中的知识有很多不同的来源,因而在无法保证知识的质量,知识的质量高低不一,由于知识来自于不同的渠道,大量重复的知识可能存在于知识库中,并且知识的之间的关联度不够,这些些问题会影响知识的使用,因而需要首先对知识进行融合。不同来源的知识在规定好的规则下通过异构数据的整合,消除知识歧义,并且对过滤之后的知识进行加工、验证推理和更新,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。通过知识提取的步骤,非结构化的信息只是知识的基本单位,只有经过知识的融合,才不会为后续的步骤带来后续的麻烦,将信息混乱防止在源头,避免信息的歧义。在提取的只是的基本单位中,存在的大量数据会干扰处理过程,降低数据整合的效果。因而必须通过知识加工的过程,将大量的干扰数据除去,过滤干净的信息,从而组建一个大规模的知识体系,统一进行知识管理。
以人工智能和大数据为代表的新一代信息技术正在改变着企业的运营模式和交易方式,企业财务风险评价也涌现出一些新特征,主要表现为传统的静态评价为主向全过程的动态评价为主、主观评价为主向数据驱动的客观评价为主、局部评价为主向多维的全景式评价为主、以及封闭评价为主向多主体的协同评价为主的转变。
新一代信息技术的发展,使得企业财务活动过程的细节信息以及与外部相关主体交易过程信息等都被实时记录在各类系统中,如何通过对这些细节信息的深度挖掘分析,解析财务风险的成因、过程和影响,企业与外部相关主体复杂的交互关系会对其财务风险产生何种影响?企业财务风险会受到微观、中观、宏观多层次因素的影响,如何有效融合海量动态、多源异构的财务风险大数据,集结成对企业财务风险整体的客观评价?这些均是传统财务风险评价理论和方法难以应对的挑战。而知识图谱可以系统分析多模态数据之间的内在联系更为有效地识别隐秘的关联规则和深度知识发现,勾勒出企业财务风险评价“动因--行为--结果”的全过程,而不是数据表面的勾稽关系和影响企业财务风险评价的表征特性,可以得到单一数据源无法准确刻画的知识,比如企业的社会关系网络、创新网络等。

end
更多“企业风控”案例
尽在经邦大数据
18019551821
点击上方红色字,可直接阅读

