大数跨境
0
0

BBD技术控 | 知识图谱平台层次划分浅析

BBD技术控 | 知识图谱平台层次划分浅析 BBD Data
2020-04-15
0
导读:各类知识图谱产品由于其面向的问题域和关注点不同,在功能和特性上产生了较大的差异。


文 | 王学斌博士

高级工程师,国防科技大学计算机博士。主要从事信息融合、知识库、大数据等军用软件科研工作,多次主持重大科研项目开发,获军队科技进步二等奖一次,三等奖四次,并多次获得高新人才特殊津贴。

01.
知识图谱层次划分
随着大数据和人工智能技术的飞速发展,知识图谱技术逐渐成为计算机产业的热点,各类知识图谱产品层出不穷,极大地提高了基于图的检索和推理能力。但各类知识图谱产品由于其面向的问题域和关注点不同,在功能和特性上产生了较大的差异。
为了便于分析差异、选择产品,我们将知识图谱涉及的技术分为五个层次,并以BBD公司的三个知识图谱平台产品Kunlun、ONet和Compass为例,在下图中进行了分析和展示:
图1:知识图谱技术层次
图数据库层:图数据库是所有知识图谱平台的基础,目前最常用的图数据库包括面向单机的Neo4j和分布式的JanusGraph。Kunlun、ONet和Compass的基础都是这两种图数据库。
SDK层:SDK层是对图数据库能力的封装,在图数据库的能力上增加了面向本体的建模、查询和分析的能力,并对外提供一整套的API接口,使得上层的平台或者应用能够便利地创建面向本体建模的各类工具。SDK层类似一套后台服务,为面向本体建模的应用提供支撑。
本体层:本体层以集成化的方式提供了本体建模、存储、查询、可视化、数据映射等一系列与本体相关的功能。与SDK不同的是,这些功能是以集成平台而不是以后台服务的方式提供的。
分析应用层:分析应用层提供了一些基于图的分析工具集,包括图元素选取、编辑、复制、检索、筛选以及时序分析、知识推理等功能。分析应用层的主要功能是进行图数据的展示、编辑、分析和推理,与本体层不同的是,这些分析与本体模型关系并不大,无论这些图元素是否属于某个本体模型,并不影响分析功能。
问题域:问题域即图谱平台要解决的问题所属的领域。目前看来,三个图谱平台都有各自适合的问题域。
Kunlun:构建面向业务领域的本体模型并进行分析;
ONet:构建面向特定领域的知识图谱系统;
Compass:提供基于图的编辑和分析工具。
02.
关于层次的疑问及解答
有了图数据库为什么还要开发面向本体建模的SDK层?
因为图数据库在支撑知识图谱的应用方面有天然的缺陷,举例来说,图数据库并没有一个标准的查询操作语言,相比于关系数据库的SQL语言,图查询语言如Cypher、SPARQL、Gremlin等等各有其缺陷,难以开箱即用。此外,要支撑知识的表达、存储、查询、推理等能力,仅仅使用图数据库是不够的,需要更高层次的理论和工具。本体论可以解决部分的理论问题,而工具支撑则要靠SDK层提供的种种能力来解决。
SDK层与本体层的异同何在?
SDK层与本体层的功能是类似的,但提供功能的方式不同,面向的客户需求也不同。SDK层是以后台服务的方式,松耦合的提供功能;而本体层是以集成工具的方式,集中式的提供功能。SDK层面向的客户需求是“构建面向特定业务领域的知识图谱系统”,换言之,是为想自行开发知识图谱平台或系统的客户提供底层支撑。而本体层面向的客户需求是“构建面向业务领域的本体模型并进行分析”,换言之,是为想直接解决业务领域知识建模的客户提供一整套本体工具。
若要以SDK层的能力来直接进行业务领域知识建模,则必须首先为SDK层开发一个功能前端;若要以模型层的能力来构建一套面向业务领域的知识图谱系统,则必须把模型层打碎后重新修改底层功能后再来重建。因此面对不同客户需求,需要以不同的平台来应对。
分析应用层与本体层的异同何在?

分析应用层处理的对象是图,而本体层处理的对象是本体。虽然说本体天然就是图,但是图并不一定要属于某个本体。因此,分析应用层中提供的分析功能更加强大,例如对图的复制、编辑等功能,由于在本体层中本体数据往往数量极大,所以复制本体数据的功能是非常谨慎的,而在分析应用层复制图则显得极其自然,客户可以把要分析的图数据轻松复制多份,一一进行筛选、编辑和查找,以便实现数据的复杂分析。

03.
三大图谱平台简介
  • Kunlun Hyper简介
Kunlun Hyper(简称Kunlun)是一个集计算、查询、存储、可视化等于一体的图引擎平台,支持多数据源接入、多本体模型编辑、数据灵活映射、图谱生成、指标和推理规则配置、多用户角色、数据权限、资源管理、可视化组件、为业务应用提供一套标准 API 等,是一套扩展性和适用性极佳的图谱中间件。客户在构建图谱平台、打造基于图谱的大数据分析系统时使用 Kunlun Hyper 图引擎,将大大节省系统的搭建时间和成本,用户只需要融合异源异构数据,Kunlun Hyper 图引擎将在分钟级别内生成图谱,为企业和行业用户节省了调研、代码、图谱功能开发的时间和人力,大大提升资源使用效率。Kunlun Hyper 可广泛应用于金融、公安、卫生、反恐、社交、营销等领域。
图2:Kunlun 适用行业领域
  •  ONet简介
OntologyNetwork平台(简称ONet)主要提供本体模型的构建,模型实体关系数据的导入及增删改查,基于图谱的筛选过滤、扩展、n度查询和最短路径查询等功能,以及子图查询、推理补边、聚合统计等分析功能。该平台有以下特点:
1、支持RDF格式本体建模语言。
2、支持多媒体文件的直接存取,例如视频,音频,office文档,文件,表格数据等。混合存储架构,采用分布式关系型数据库、全文检索、列式存储、分布式文件系统等多种数据库存储技术。
3、 提供统一的丰富的API接口,支持定制化开发和预警、支持Dashboard的快速构建,实现实体对象关系、轨迹等可视化呈现和图谱的海量存储。
4、支持PB级别数据量的分布式扩展。
5、自带OMS(ONet Management System)工具,可对对象关系精准画像进行快速展示,提高数据应用的便利度和效率,为构建一套完整的大数据集成分析与挖掘应用平台提供重要的数据保障和服务支撑。也可以使用统一的API快速构建自己的图谱应用。同时提供从关系结构到图结构的自动转换工具,可从传统的关系型数据结构出发,快速构建知识图谱。
6、提供基于BSP模型的图挖掘框架,可快速开发基于全网数据的并行图挖掘算法,如社区发现、子图挖掘、链路预测等。
图3:ONet 首页界面
  • Compass简介
Compass智能图分析平台是南京安链公司最新开发的全新知识图谱平台,与Kunlun和ONet等平台相比,其最大的特色是具有比以上二者都强大的图谱元素编辑和分析能力。

图4:Compass主页面

04.
结论
将知识图谱相关技术划分为图数据库层、SDK层、本体层、分析应用层和问题域五个层次,有助于人们更加清晰地理解和应用知识图谱技术;将各类知识图谱产品的功能和特性在各层次中进行对照,有利于人们在不同的业务场景中选择恰当的产品,从而达到事半功倍的效果。


END / 
点击图片,查看往期精彩


【声明】内容源于网络
0
0
BBD Data
大数观天下,微言解疑难
内容 748
粉丝 0
BBD Data 大数观天下,微言解疑难
总阅读24
粉丝0
内容748