知识图谱的关键技术（上）- 大数跨境

海致星图

2018-02-27

导读：知识图谱知多少？

伴随着web技术的不断演进与发展，人类先后经历了以文档互联网为主要特征的“web1.0”时代与数据互联为特征的“web2.0”时代，正在迈向基于知识互联的崭新“web3.0”时代。知识图谱以其强大的语义处理能力与开放互联能力，可为万维网上的知识互联奠定扎实的基础，使web3.0提出的“知识之网”愿景成为了可能。

随着语义Web资源数量激增、大量的RDF数据被发布和共享、LOD（linked open data）等项目的全面展开，学术界与工业界的研究人员花费了大量的精力构建各种结构化的知识库。这些大规模知识库的构建与应用需要多种智能信息处理技术的支持，以下简单介绍其中若干主要技术。

一、知识抽取

知识抽取主要是面向开放的链接数据，通过自动化的技术抽取出可用的知识单元，知识单元主要包括实体（概念的外延）、关系以及属性3个知识要素, 并以此为基础，形成一系列高质量的事实表达，为上层模式层的构建奠定基础。

1、实体抽取

早期的实体抽取也称为命名实体学习（named entity learning）或命名实体识别（named entity recognition），指的是从原始语料中自动识别出命名实体。由于实体是知识图谱中的最基本元素，其抽取的完整性、准确率、召回率等将直接影响到知识库的质量。因此，实体抽取是知识抽取中最为基础与关键的一步。

《命名实体识别研究进展综述》一书将实体抽取的方法分为3种：

1）基于规则与词典的实体抽取方法

早期的实体抽取是在限定文本领域、限定语义单元类型的条件下进行的，主要采用的是基于规则与词典的方法，例如使用已定义的规则，抽取出文本中的人名、地名、组织机构名、特定时间等实体。通常需要为目标实体编写模板，然后在原始语料中进行匹配；

2）基于统计机器学习的实体抽取方法

主要通过机器学习的方法对原始语料进行训练，然后再利用训练好的模型去识别实体；

3）面向开放域的实体抽取方法

针对如何从少量实体实例中自动发现具有区分力的模式，进而扩展到海量文本去给实体做分类与聚类的问题。面向海量的Web语料，通过少量的实体实例建立特征模型，再通过该模型应用于新的数据集得到新的命名实体。

2、关系抽取

关系抽取的目标是解决实体间语义链接的问题，早期的关系抽取主要是通过人工构造语义规则以及模板的方法识别实体关系。随后，实体间的关系模型逐渐替代了人工预定义的语法与规则，但是仍需要提前定义实体间的关系类型。

1）开放式实体关系抽取

开放式实体关系抽取可分为二元开放式关系抽取和n元开放式关系抽取。在二元开放式关系抽取中，早期的研究有KnowItAll与TextRunner系统，在准确率与召回率上表现一般。

基于Wikipedia的OIE方法——WOE，经自监督学习得到抽取器，准确率较TextRunner有明显的提高。

针对WOE的缺点，第二代OIE ReVerb 系统，以动词关系抽取为主；第三代 OIE系统OLLIE（open language learning for information extraction）尝试弥补并扩展OIE的模型及相应的系统，抽取结果的准确度得到了增强。

然而，基于语义角色标注的OIE分析显示：英文语句中40%的实体关系是n元的，如处理不当，可能会影响整体抽取的完整性。一种可抽取任意英文语句中n元实体关系的方法——KPAKEN，弥补了ReVerb的不足。但是由于算法对语句深层语法特征的提取导致其效率显著下降，并不适用于大规模开放域语料的情况。

2）基于联合推理的实体关系抽取

联合推理的关系抽取中的典型方法是马尔可夫逻辑网MLN（Markov logic network），它是一种将马尔可夫网络与一阶逻辑相结合的统计关系学习框架，同时也是在OIE中融入推理的一种重要实体关系抽取模型。

基于该模型，一种无监督学习模型StatSnowball被提出，不同于传统的OIE，该方法可自动产生或选择模板生成抽取器。

在StatSnowball 的基础上，一种实体识别与关系抽取相结合的模型EntSum被提出，主要由扩展的CRF命名实体识别模块与基于StatSnowball的关系抽取模块组成，在保证准确率的同时也提高了召回率。

《A tractable first-order probabilistic logic》一文提出了一种简易的Markov逻辑TML（tractable Markov logic），TML将领域知识分解为若干部分，各部分主要来源于事物类的层次化结构，并依据此结构，将各大部分进一步分解为若干个子部分，以此类推。TML具有较强的表示能力，能够较为简洁地表示概念以及关系的本体结构。

3、属性抽取

属性抽取主要是针对实体而言，通过属性可形成对实体的完整勾画。由于实体的属性可以看成是实体与属性值之间的一种名称性关系，因此可以将实体属性的抽取问题转换为关系抽取问题。

大量的属性数据主要存在于半结构化、非结构化的大规模开放域数据集中。抽取这些属性的方法，一种是将上述从百科网站上抽取的结构化数据作为可用于属性抽取的训练集，然后再将该模型应用于开放域中的实体属性抽取；另一种是根据实体属性与属性值之间的关系模式，直接从开放域数据集上抽取属性。但是由于属性值附近普遍存在一些限定属性值含义的属性名等，所以该抽取方法的准确率并不高。

二、知识表示

虽然，基于三元组的知识表示形式受到了人们广泛的认可，但是其在计算效率、数据稀疏性等方面却面临着诸多问题。近年来，以深度学习为代表的表示学习技术取得了重要的进展，可以将实体的语义信息表示为稠密低维实值向量，进而在低维空间中高效计算实体、关系及其之间的复杂语义关联, 对知识库的构建、推理、融合以及应用均具有重要的意义。

1、应用场景

分布式表示旨在用一个综合的向量来表示实体对象的语义信息，是一种模仿人脑工作的表示机制，通过知识表示而得到的分布式表示形式在知识图谱的计算、补全、推理等方面将起到重要的作用：

1）语义相似度计算

由于实体通过分布式表示而形成的是一个个低维的实值向量，所以可使用熵权系数法、余弦相似性等方法计算它们间的相似性。这种相似性刻画了实体之间的语义关联程度，为自然语言处理等提供了极大的便利。

2）链接预测

通过分布式表示模型，可以预测图谱中任意两个实体之间的关系，以及实体间已存在的关系的正确性。尤其是在大规模知识图谱的上下文中，需要不断补充其中的实体关系，所以链接预测又被称为知识图谱的补全。

2、代表模型

1）距离模型

知识库中实体以及关系的结构化表示方法（structured embedding，SE）的基本思想是：首先将实体用向量进行表示，然后通过关系矩阵将实体投影到与实体向量同一维度的向量空间中，最后通过计算投影向量之间的距离来判断实体间已存在的关系的置信度。由于距离模型中的关系矩阵是两个不同的矩阵，故实体间的协同性较差，这也是该模型本身的主要缺陷。

2）单层神经网络模型

针对上述提到的距离模型中的缺陷，采用单层神经网络的非线性模型（single layer model，SLM）被提出，模型为知识库中每个三元组（h，r，t）定义了以下形式的评价函数：

式中， ut的T次幂∈R的k次幂为关系 r 的向量化表示；g()为tanh函数； Mr,1×Mr,2∈R的k次幂是通过关系r定义的两个矩阵。

单层神经网络模型的非线性操作虽然能够进一步刻画实体在关系下的语义相关性，但在计算开销上却大大增加。

3）双线性模型

双线性模型又叫隐变量模型（latent factor model，LFM）。模型为知识库中每个三元组定义的评价函数具有如下形式：

式中，Mr∈R的d×d次幂是通过关系r 定义的双线性变换矩阵；lh×lt∈R的d次幂是三元组中头实体与尾实体的向量化表示。

双线性模型主要是通过基于实体间关系的双线性变换来刻画实体在关系下的语义相关性。模型不仅形式简单、易于计算，而且还能够有效刻画实体间的协同性。基于上述工作，后来的研究尝试将双线性变换矩阵M r 变换为对角矩阵，提出了DISTMULT模型，不仅简化了计算的复杂度，并且实验效果得到了显著提升。

4）神经张量模型

神经张量模型的基本思想是在不同的维度下，将实体联系起来，表示实体间复杂的语义联系。模型为知识库中的每个三元组(h,r,t)定义了以下形式的评价函数：

式中，μrT ∈ k为关系r的向量化表示；g(i)为tanh 函数；Mr ∈ d×d×k 是一个三阶张量； Mr,1 、Mr,2 ∈ d×k 是通过关系r 定义的两个投影矩阵。

神经张量模型在构建实体的向量表示时，是将该实体中的所有单词的向量取平均值，这样一方面可以重复使用单词向量构建实体，另一方面将有利于增强低维向量的稠密程度以及实体与关系的语义计算。

5）矩阵分解模型

通过矩阵分解的方式可得到低维的向量表示，故不少研究者提出可采用该方式进行知识表示学习，其中的典型代表是RESACL模型。

在RESCAL模型中，知识库中的三元组(h,r,t) 集合被表示为一个三阶张量，如果该三元组存在，张量中对应位置的元素被置1，否则置为0。通过张量分解算法，可将张量中每个三元组（h,r,t）对应的张量值 X hrt 分解为双线性模型中的知识表示形式

并使下值尽量小：

6）翻译模型

受到平移不变现象的启发，TransE模型应用而生，即将知识库中实体之间的关系看成是从实体间的某种平移，并用向量表示。关系lr 可以看作是从头实体向量 lh 到尾实体向量lt 的翻译。对于知识库中的每个三元组（h,r,t），TransE都希望满足以下关系: lh + lr ≈ lt ,其损失函数为: fr (h,t) = |lh +lr −lt |L1/L2,即向量lh +lr和lt的L1或L2距离。

该模型的参数较少，计算的复杂度显著降低。与此同时TransE模型在大规模稀疏知识库上也同样具有较好的性能与可扩展性。

3、复杂关系模型

知识库中的实体关系类型也可分为1-to-1、1-to-N、N-to-1、N-to-N4种类型，而复杂关系主要指的是1-to-N、N-to-1、N-to-N的3种关系类型。由于TransE模型不能用在处理复杂关系上，一系列基于它的扩展模型纷纷被提出，下面将着重介绍其中的几项代表性工作。

1）TransH模型

TransH模型尝试通过不同的形式表示不同关系中的实体结构，对于同一个实体而言，它在不同的关系下也扮演着不同的角色。模型首先通过关系向量lr与其正交的法向量wr选取某一个超平面F，然后将头实体向量lh和尾实体向量lt法向量wr的方向投影到F, 最后计算损失函数。

TransH使不同的实体在不同的关系下拥有了不同的表示形式，但由于实体向量被投影到了关系的语义空间中，故它们具有相同的维度。

2）TransR模型

由于实体、关系是不同的对象，不同的关系所关注的实体的属性也不尽相同，将它们映射到同一个语义空间，在一定程度上就限制了模型的表达能力。 TransR模型首先将知识库中的每个三元组（h,r,t）的头实体与尾实体向关系空间中投影，然后希望满足|lh+lt≈lt|的关系，最后计算损失函数。

3）TransD模型

考虑到在知识库的三元组中，头实体和尾实体表示的含义、类型以及属性可能有较大差异，之前的TransR模型使它们被同一个投影矩阵进行映射，在一定程度上就限制了模型的表达能力。

除此之外，将实体映射到关系空间体现的是从实体到关系的语义联系，而TransR模型中提出的投影矩阵仅考虑了不同的关系类型，而忽视了实体与关系之间的交互。因此提出了TransD模型，模型分别定义了头实体与尾实体在关系空间上的投影矩阵。

4）TransG模型

TransG模型认为一种关系可能会对应多种语义，而每一种语义都可以用一个高斯分布表示。TransG模型考虑到了关系r的不同语义，使用高斯混合模型来描述知识库中每个三元组（h,r,t）头实体与尾实体之间的关系，具有较高的实体区分。

4、多源信息融合

三元组作为知识库的一种通用表示形式，通过表示学习，能够以较为直接的方式表示实体、关系及其之间的复杂语义关联。然而，互联网中仍蕴含着大量与知识库实体、关系有关的信息未被考虑或有效利用，如充分融合、利用这些多源异质的相关信息，将有利于进一步提升现有知识表示模型的区分能力以及性能。

目前，多源异质信息融合模型方面的研究尚处于起步阶段，涉及的信息来源也极为有限，具有较为广阔的研究前景。下面将主要介绍其中通过融合本文信息进行知识表示的代表性工作。

DKRL（description-embodied knowledge representation learning）模型将Freebase知识库中的实体描述文本数据作为其主要数据来源，通过CBOW模型，将文本中多个词对应的词向量加起来表示文本；其中的另一个CNN模型则利用模型中层间的联系和空域信息的紧密关系来做文本的处理与特征提取，除此之外，CNN模型中还充分考虑到了文本中不同单词的次序问题。

DKRL模型在新实体的表示能力方面较强，它能根据新实体的简短描述产生对应的表示形式，这对于知识融合以及知识图谱补全等具有重要的意义。

下期预告：知识图谱的关键技术（下）

三、知识融合

1、实体对齐方法

2、知识加工

3、知识更新

四、知识推理

1、基于逻辑的推理

2、基于图的推理

---------------------------------------

人工智能、大数据的前沿资讯

深度的商业内容解析

更多精彩

请先关注

⏬

关于海致

海致网络技术（北京）有限公司是国内领先的大数据技术与服务公司，自成立以来为三千多家企业提供了知识图谱、智能营销、用户画像及智能运维等大数据技术及解决方案，并获得了 “2016年中国人工智能领军企业” 、“2017新智造成长榜金融大数据领域最佳投资价值奖”、“2017新智造成长榜－金融科技最佳创新企业”、德勤2017“中国明日之星”称号、2017年度人工智能产业最佳应用“新金融”奖。

【声明】内容源于网络

海致星图

海致星图是中国企业知识图谱的开创者，致力于利用知识图谱，帮助机构整合数据分析关联，产生真正智能的结果，从而提供给社会更好的服务，让技术更直接的提高生产力，改变世界。

内容 153

粉丝 0

海致星图海致星图是中国企业知识图谱的开创者，致力于利用知识图谱，帮助机构整合数据分析关联，产生真正智能的结果，从而提供给社会更好的服务，让技术更直接的提高生产力，改变世界。

总阅读131

粉丝0

内容153