知识图谱的关键技术（下）- 大数跨境

首页

知识图谱的关键技术（下）

海致星图

2018-03-01

导读：关于知识抽取、知识表示、知识融合、知识推理的干货知识

上期回顾

知识图谱的关键技术（上）

三、知识融合

由于知识图谱中的知识来源广泛，存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题，所以必须要进行知识的融合。知识融合是高层次的知识组织，使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤，达到数据、信息、方法、经验以及人的思想的融合，形成高质量的知识库。

1、实体对齐

实体对齐（entity alignment）也称为实体匹配（entity matching）或实体解析（entity resolution），主要是用于消除异构数据中实体冲突、指向不明等不一致性问题，可以从顶层创建一个大规模的统一知识库，从而帮助机器理解多源异质的数据，形成高质量的知识。

在大数据的环境下，受知识库规模的影响，在进行知识库实体对齐时，主要会面临以下3个方面的挑战：

1）计算复杂度

匹配算法的计算复杂度会随知识库的规模呈二次增长，难以接受；

2）数据质量

由于不同知识库的构建目的与方式有所不同，可能存在知识质量良莠不齐、相似重复数据、孤立数据、数据时间粒度不一致等问题；

3）先验训练数据

在大规模知识库中想要获得这种先验数据却非常困难。通常情况下，需要研究者手工构造先验训练数据。

基于上述，知识库实体对齐的主要流程将包括：

1）将待对齐数据进行分区索引，以降低计算的复杂度；

2）利用相似度函数或相似性算法查找匹配实例；

3）使用实体对齐算法进行实例融合；

4）将步骤2）与步骤3）的结果结合起来，形成最终的对齐结果。

对齐算法可分为成对实体对齐与集体实体对齐两大类，而集体实体对齐又可分为局部集体实体对齐与全局集体实体对齐。

1）成对实体对齐方法

① 基于传统概率模型的实体对齐方法

基于传统概率模型的实体对齐方法主要就是考虑两个实体各自属性的相似性，而并不考虑实体间的关系。将基于属性相似度评分来判断实体是否匹配的问题转化为一个分类问题，以建立该问题的概率模型，缺点是没有体现重要属性对于实体相似度的影响。

基于概率实体链接模型为每个匹配的属性对分配了不同的权重，匹配准确度有所提高；还能够结合贝叶斯网络对属性的相关性进行建模，并使用最大似然估计方法对模型中的参数进行估计。

② 基于机器学习的实体对齐方法

基于机器学习的实体对齐方法主要是将实体对齐问题转化为二分类问题。根据是否使用标注数据可分为有监督学习与无监督学习两类，基于监督学习的实体对齐方法主要可分为成对实体对齐、基于聚类的对齐、主动学习。

成对实体对齐：

通过属性比较向量来判断实体对匹配与否可称为成对实体对齐。这类方法中的典型代表有决策树、支持向量机、集成学习等。使用分类回归树、线性分析判别等方法能够完成了实体辨析；基于二阶段实体链接分析模型，一种新的SVM分类方法被提出，匹配准确率远高于TAILOR中的混合算法。

基于聚类的实体对齐：

其主要思想是将相似的实体尽量聚集到一起，再进行实体对齐。一种扩展性较强的自适应实体名称匹配与聚类算法，可通过训练样本生成一个自适应的距离函数；采用类似的方法，在条件随机场实体对齐模型中使用监督学习的方法训练产生距离函数，然后调整权重，使特征函数与学习参数的积最大。

主动学习：

在主动学习中，可通过与人员的不断交互来解决很难获得足够的训练数据问题： ALIAS系统可通过人机交互的方式完成实体链接与去重的任务；采用相似方法，也成功构建了Active Atlas系统。

2）局部集体实体对齐方法

局部集体实体对齐方法为实体本身的属性以及与它有关联的实体的属性分别设置不同的权重，并通过加权求和计算总体的相似度，还可使用向量空间模型以及余弦相似性来判别大规模知识库中的实体的相似程度，算法为每个实体建立了名称向量与虚拟文档向量，名称向量用于标识实体的属性，虚拟文档向量则用于表示实体的属性值以及其邻居节点的属性值的加权和值。为了评价向量中每个分量的重要性，算法主要使用TF-IDF为每个分量设置权重，并为分量向量建立倒排索引，最后选择余弦相似性函数计算它们的相似程度。该算法的召回率较高，执行速度快，但准确率不足。其根本原因在于没有真正从语义方面进行考虑。

3）全局集体实体对齐方法

① 基于相似性传播的集体实体对齐方法

这是一种典型的集体实体对齐方法，匹配的两个实体与它们产生直接关联的其他实体也会具有较高的相似性，而这种相似性又会影响关联的其他实体。

相似性传播集体实体对齐方法最早来源于集合关系聚类算法，该算法主要通过一种改进的层次凝聚算法迭代产生匹配对象。在以上算法的基础上，适用于大规模知识库实体对齐的算法SiGMa被提出，该算法将实体对齐问题看成是一个全局匹配评分目标函数的优化问题进行建模，属于二次分配问题，可通过贪婪优化算法求得其近似解。SiGMa方法能够综合考虑实体对的属性与关系，通过集体实体的领域，不断迭代发现所有的匹配对。

② 基于概率模型的集体实体对齐方法

基于概率模型的集体实体对齐方法主要采用统计关系学习进行计算与推理，常用的方法有LDA模型、CRF模型、Markov逻辑网等。

将LDA模型应用于实体的解析过程中，通过其中的隐含变量获取实体之间的关系。但在大规模的数据集上效果一般。

一种基于图划分技术的CRF实体辨析模型被提出，该模型以观察值为条件产生实体判别的决策，有利于处理属性间具有依赖关系的数据。在CRF实体辨析模型的基础上提出了一种基于条件随机场模型的多关系的实体链接算法，引入了基于canopy的索引，提高了大规模知识库环境下的集体实体对齐效率。基于Markov逻辑网的实体解析方法，是通过Markov逻辑网，可构建一个Markov网，将概率图模型中的最大可能性计算问题转化为典型的最大化加权可满足性问题，但基于Markov网进行实体辨析时，需要定义一系列的等价谓词公理，通过它们完成知识库的集体实体对齐。

2、知识加工

通过实体对齐，可以得到一系列的基本事实表达或初步的本体雏形，然而事实并不等于知识，它只是知识的基本单位。要形成高质量的知识，还需要经过知识加工的过程，从层次上形成一个大规模的知识体系，统一对知识进行管理。

知识加工主要包括本体构建与质量评估两方面的内容。

1）本体构建

本体是同一领域内不同主体之间进行交流、连通的语义基础，其主要呈现树状结构，相邻的层次节点或概念之间具有严格的“IsA”关系，有利于进行约束、推理等，却不利于表达概念的多样性。本体在知识图谱中的地位相当于知识库的模具，通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小。

本体可通过人工编辑的方式手动构建，也可通过数据驱动自动构建，然后再经质量评估方法与人工审核相结合的方式加以修正与确认。在海量的实体数据面前，人工编辑构建的方式工作量极其巨大，故当前主流的本体库产品，都是面向特定领域，采用自动构建技术而逐步扩展形成的。

例如Microsoft的Probase本体库就是采用数据驱动的方法，利用机器学习算法从网页文本中抽取概念间的“IsA”关系，然后合并形成概念层次结构。目前，Probase所包含的概念总数已达到千万级别，准确率高达92.8%，是目前为止包含概念数量最多，同时也是概念可信程度最高的知识库。

数据驱动的本体自动构建过程主要可分为以下3个阶段：

① 纵向概念间的并列关系计算

通过计算任意2个实体间并列关系的相似度，可辨析它们在语义层面是否属于同一个概念。计算方法主要包括模式匹配与分布相似度两种。

② 实体上下位关系抽取

上下位关系抽取方法包括基于语法的抽取与基于语义的抽取两种方式，例如目前主流的信息抽取系统KnowltAll、TextRunner、NELL等，都可以在语法层面抽取实体的上下位关系，而Probase则是采用基于语义的抽取模式。

③ 本体生成

对各层次得到的概念进行聚类，并为每一类的实体指定1个或多个公共上位词。基于主题层次聚类的方法可构建本体结构，与此同时，为了解决主题模型不适用于短文本的问题，提出了基于单词共现网络的主题聚类与上下位词抽取模型。

2）质量评估

对知识库的质量评估任务通常是与实体对齐任务一起进行的，其意义在于，可以对知识的可信度进行量化，保留置信度较高的，舍弃置信度较低的，有效确保知识的质量。

基于LDIF框架，一种新的知识质量评估方法被提出：用户可根据业务需求来定义质量评估函数，或者通过对多种评估方法的综合考评来确定知识的最终质量评分。

例如在对REVERRB系统的信息抽取质量进行评估时，采用人工标注的方式对1000个句子中的实体关系三元组进行了标注，并以此作为训练集，使用logistic回归模型计算抽取结果的置信度。例如Google的Knowledge Vault项目则根据指定数据信息的抽取频率对信息的可信度进行评分，然后利用从可信知识库中得到的先验知识对可信度进行修正。实验结果表明：该方法可以有效地降低对数据信息正误判断的不确定性，提高知识的质量。

3、知识更新

人类的认知能力、知识储备以及业务需求都会随时间而不断递增。因此，知识图谱的内容也需要与时俱进，不论是通用知识图谱，还是行业知识图谱，它们都需要不断地迭代更新，扩展现有的知识，增加新的知识。

根据知识图谱的逻辑结构，其更新主要包括模式层的更新与数据层的更新。模式层的更新是指本体中元素的更新，包括概念的增加、修改、删除，概念属性的更新以及概念之间上下位关系的更新等。其中，概念属性的更新操作将直接影响到所有直接或间接属性的子概念和实体。通常来说，模式层的增量更新方式消耗资源较少，但是多数情况下是在人工干预的情况下完成的，例如需要人工定义规则，人工处理冲突等。因此，实施起来并不容易。数据层的更新指的是实体元素的更新，包括实体的增加、修改、删除，以及实体的基本信息和属性值。由于数据层的更新一般影响面较小，因此通常以自动的方式完成。

四、知识推理

知识推理则是在已有的知识库基础上进一步挖掘隐含的知识，从而丰富、扩展知识库。

在推理的过程中，往往需要关联规则的支持。由于实体、实体属性以及关系的多样性，人们很难穷举所有的推理规则，一些较为复杂的推理规则往往是手动总结的。对于推理规则的挖掘，主要还是依赖于实体以及关系间的丰富同现情况。知识推理的对象可以是实体、实体的属性、实体间的关系、本体库中概念的层次结构等。

知识推理方法主要可分为基于逻辑的推理与基于图的推理两种类别。

1、基于逻辑的推理

基于逻辑的推理方式主要包括一阶谓词逻辑（first order logic）、描述逻辑（description logic）以及规则等。

① 一阶谓词逻辑推理

一阶谓词逻辑推理是以命题为基本进行推理，而命题又包含个体和谓词。逻辑中的个体对应知识库中的实体对象，具有客观独立性，可以是具体一个或泛指一类，例如奥巴马、选民等；谓词则描述了个体的性质或个体间的关系。

针对已有一阶谓词逻辑推理方法中存在的推理效率低下等问题，一种基于谓词变迁系统的图形推理法被提出，定义了描述谓词间与／或关系的谓词，通过谓词图表示变迁系统，实现了反向的推理目标。实验结果表明：该方法推理效率较高，性能优越。

② 描述逻辑

描述逻辑是在命题逻辑与一阶谓词逻辑上发展而来，目的是在表示能力与推理复杂度之间追求一种平衡。

基于描述逻辑的知识库主要包括Tbox （terminology box）与ABox（assertion box）。通过TBox与ABox，可将关于知识库中复杂的实体关系推理转化为一致性的检验问题，从而简化并实现推理。

③ 规则

通过本体的概念层次进行推理时，其中概念主要是通过OWL（Web ontology language）本体语义进行描述的。OWL文档可以表示为一个具有树形结构的状态空间，这样一些对接结点的推理算法就能够较好地应用起来，例如基于RDF和PD*语义的正向推理算法，该算法以RDF蕴涵规则为前提，结合了sesame算法以及PD*的语义，是一个典型的迭代算法，它主要考虑结点与推理规则的前提是否有匹配，由于该算法的触发条件导致推理的时间复杂度较高，后来提出了ORBO算法，该算法从结点出发考虑，判断推理规则中第一条推理关系的前提是否满足，不仅节约了时间，还降低了算法的时间复杂度。

2、基于图的推理

在基于图的推理方法中，path-constraint random walk、path ranking等算法较为典型，主要是利用了关系路径中的蕴涵信息，通过图中两个实体间的多步路径来预测它们之间的语义关系。即从源节点开始，在图上根据路径建模算法进行游走，如果能够到达目标节点，则推测源节点和目标节点间存在联系。关系路径的建模方法研究工作尚处于初期，其中在关系路径的可靠性计算、关系路径的语义组合操作等方面，仍有很多工作需进一步探索并完成。

除上述两种类别的知识推理方法外，部分研究人员将研究重点转向跨知识库的推理方法研究，例如基于组合描述逻辑的Tableau算法，该方法主要利用概念间的相似性对不同知识库中的概念进行关联、合并，通过已有的知识完成跨知识库的推理。

文章摘自电子科技大学学报《知识图谱技术综述》

作者：徐增林盛泳潘贺丽荣王雅芳

---------------------------------------

人工智能、大数据的前沿资讯

深度的商业内容解析

更多精彩

请先关注

⏬

关于海致

海致网络技术（北京）有限公司是国内领先的大数据技术与服务公司，自成立以来为三千多家企业提供了知识图谱、智能营销、用户画像及智能运维等大数据技术及解决方案，并获得了 “2016年中国人工智能领军企业” 、“2017新智造成长榜金融大数据领域最佳投资价值奖”、“2017新智造成长榜－金融科技最佳创新企业”、德勤2017“中国明日之星”称号、2017年度人工智能产业最佳应用“新金融”奖。

【声明】内容源于网络

海致星图

海致星图是中国企业知识图谱的开创者，致力于利用知识图谱，帮助机构整合数据分析关联，产生真正智能的结果，从而提供给社会更好的服务，让技术更直接的提高生产力，改变世界。

内容 153

粉丝 0

海致星图海致星图是中国企业知识图谱的开创者，致力于利用知识图谱，帮助机构整合数据分析关联，产生真正智能的结果，从而提供给社会更好的服务，让技术更直接的提高生产力，改变世界。

总阅读131

粉丝0

内容153