♥
为较全面地展示文化遗产数字化保护的前沿技术,本课题组每周收集整理与文化遗产数字化保护相关主题参考文献,包括:虚拟修复、高光谱、风险评估、三维特征提取等进行精读,并通过公众号推送分享,欢迎老师与同学们提出宝贵的建议和推荐相关文献。
引用格式:Peilu Wang et al. Knowledge Graph Construction and Applications for Web Search andBeyond[J]. Data Intelligence, 2019, 1(4) : 333-349.
推荐理由:本文介绍了搜狗公司从零开始构建⼤规模多源知识图谱的⽅案,包括其架构、技术实现和应⽤。与以往使⽤图数据库构建知识图谱的⼯作不同,文中将知识图谱构建在 SogouQdb 之上(SogouQdb 是由搜狗⽹络 搜索部⻔开发的分布式搜索引擎,可以轻松扩展以⽀持 PB 级数据)。作为对搜索引擎的补充,文中还引⼊了一系列模型来⽀持。文中还介绍了搜狗公司知识图谱的三个应⽤:实体检测与链接、基于知识的问答和基于知识的对话系统。这些应⽤程序已⽤于⽹络搜索产品中,以帮助⽤⼾更有效地获取信息。
内容介绍:
1. 背景与意义
知识图谱(KG)是一种将信息集成到本体中的特殊数据库。知识图谱作为一种有效的知识存储和搜索⽅式,已经在许多智能系统中得到应⽤, 引起了⼴泛的研究兴趣。如今已经构建和发布了许多知识图谱,例如 Freebase 、Wikidata 、DBpedia 和 YAGO 。但是,尽管据报道最⼤的已发布知识图谱(Wikidata)包含数百万个实体和数⼗亿个三元组,但它们的⼤部分数据是从 Wikipedia 中提取的,仍然远远不能满⾜通⽤等 Web 搜索应⽤程序的要求问答和推荐。而且现有的⼯作都没有明确报告其系统处理⼤规模数据的能力或讨论如何在服务器集群上扩展知识图谱。本文使⽤由搜狗⽹络搜索部开发的分布式搜索引擎SogouQdb作为内部使⽤的核⼼存储引擎,以获得可扩展性的能力,并开发了一系列模型来提供推理和基于图的查询功能,使系统与其他知识图谱应⽤程序兼容。推理是在 HDFS 上使⽤ Spark 进行的,这使得推理过程能够处理⼤数据。
2. 方法
2.1数据提取
数据抽取的作⽤是从各种输⼊数据中将数据抽取成预先定义好的形式。具体来说就是输入和输出,输⼊:从互联⽹上下载或爬取的数据,例如通过API下载的⽹⻚、XML数据或JSON数据。虽然输⼊数据主要由⾃由⽂本组成,但许多数据包含结构化信息,例如:图像、地理坐标、指向外部⽹⻚的链接和消歧⻚⾯。输出:JSON-LD 形式的结构化数据,记录从输⼊数据中提取的知识信息。
2.2归一化
这部分对提取的实体的属性值进行归一化,并将实体的类和属性映射到搜狗知识图谱本体中的术语。此外,还指定了属性的数据类型,保证了处理数据的⾼质量。属性值的类型遵循搜狗知识图谱的定义。
2.3合并
合并部分是KG存储的⼊⼝,KG存储是存储整个知识图谱的分布式数据库。任何旨在更改 KG 数据库的操作,包括添加新数据、更新或删除数据,都必须按照 预定义的接⼝(包括“添加”、“更新”和“删除”)转换为单元操作。所有单元操作都使⽤⽇志执行,可⽤于回滚到任何历史版本。对于添加实体,合并部分检查实体是否已存在于 KG 数据库中。如果在数据库中找到要添加的实体,则旧实体的属性值将更新为添加的实体相同属性的值。否则,实体将作为新实体添加到数据库中。
2.4推理
作为提供数据的另一种⽅式,推理部分根据现有关系推断实体的新关系。例如,当我们知道 A 是 B 的⼉⼦时,我们可以推断出 B 是 A 的⽗亲的新关系。在构建框架中,对从 KG 数据库中转储的全部数据进行推理,并将推理结果通过合并部分添加回 KG。
2.5知识图谱存储
搜狗知识图谱存储是在开源搜索引擎SogouQdb之上开发的。SogouQdb作为分布式数据库存储数据,提供搜索服务。KG Storage Service 打包 SogouQdb 提供存储和查询更适合基于知识图的案例应⽤的 API。为了降低成本和提⾼查询速度,在查询API和KG存储服务之间增加了一个缓存层。
3. 案例展示
基于知识图谱的对话⽣成是知识对话中的一项关键技术。传统的 KBQA 只提供所有问题的准确答案。例如,当被问到“刘德华有多⾼?”时,系统只返回“174 厘⽶”。但是,仅仅提供这样的答案并不是一种友好的交互⽅式。⽤⼾更喜欢收到“⾹港演员刘德华⾝⾼174厘⽶”。这种⽅式提供了更多与答案相关的背景信息(例如,⾹港演员)。此外, 这个完整的⾃然语⾔句⼦可以更好地⽀持答案验证和语⾳合成等后续任务。为了⽣成⾃然语⾔答案,文中使⽤了编码器-解码器框架。对于需要知识图中事实的复杂问题,还引⼊了复制和检索机制。
通过使⽤不同的语义单元获取⽅法,如复制、检索或预测,从不同的来源获得不同类型的词。因此,为复杂的问题⽣成了⾃然的答案。
4. 结论
在本⽂中,提出了一种新颖的解决⽅案,⽤于搜狗公司在分布式搜索引擎(特别是 SogouQdb)之上构建知识图谱。解决⽅案通过引⼊数据推理和基于图的查询引擎来提供SogouQdb,使该解决⽅案与常⽤的知识图谱应⽤程序兼容。此外,得益于SogouQdb,搜狗知识图谱可以轻松扩展存储PB级数据。还介绍了搜狗公司知识图谱的三个应⽤:实体检测和链接、基于知识的问答和基于知识的对话系统,这些应⽤已经⽤于⽹络搜索产品,以提⾼知识获取的效率。
5.相关思考
1、基于知识的问答系统以⾃然语⾔为界⾯, 为知识查询提供了一种更友好的⽅式。一⽅⾯,⾃然语⾔具有很强的表达能力。另一⽅⾯,这种⽅法不需要⽤⼾接受任何专业培训。
2、知识图谱嵌⼊也应⽤于实体链接任务。每个实体的向 量表⽰是通过⼤量的知识库三元组作为训练数据来学习的,使得相似的实体有相似的向量表⽰。
3、知识库问答⾯临以下挑战:1)如何从问题中找到多个关系,并将它们组合成一个候选语义结构;2)如何计算⾃然语⾔问题与复杂语义结构的匹配度。
来源期刊:Data Intelligence
DOI:10.1162/dint_a_00019
关注我们
了解更多遗产数字化前沿信息
高光谱解混|虚拟修复|风险评估
如果你喜欢这篇文章,请记得长按二维码关注
文献整理:王一然
排版:徐元豪、孙宇桐
审核:林敬凯、王诗涵

