大数跨境
0
0

BBD技术控 | 知识图谱计算平台的探索与应用

BBD技术控 | 知识图谱计算平台的探索与应用 BBD Data
2020-03-19
0
导读:基于客户业务和问题,提出基于动态本体论的超大规模知识图谱挖掘和分析解决方案。

BBD Graph团队,拥有一批高级研发人才和丰富的项目经验,自2015年来自主研发大数据知识图谱平台,先后服务于多省市金融监管部门和公安部门,以及基金行业等多领域客户。

01.
知识图谱成为AI领域备受关注的重要一环
近年来,各行各业的信息化推进产生了大量数据。同时,科学技术的发展让数据存储和计算效率有了飞跃式提升,“人工智能”,这个在计算机诞生早期就提出的概念,终于迎来普及和飞速发展的机会。被称为“AI进步的阶梯”的图谱,也受到越来越多的关注。
以节点和关系组成的图谱,是一种基础而通用的表现语言,不仅能“高保真”地表达这个多姿多彩世界的各种关系,更能直观、高效地描述真实世界中的各个业务场景。不需要中间过程的转换和处理——而这种中间过程的转换和处理,往往把问题复杂化,或遗漏掉很多有价值的信息。相比于传统数据的存储和计算方式,图谱除可视化直观、对真实世界高度还原外,还具有关系表达能力强、擅长推理与学习等优势。
2012年Google宣布,为了让用户能够更快更简单的发现新的信息和知识,将发布“知识图谱”——可以将搜索结果进行知识系统化,任何一个关键词都能获得完整的知识体系。自此,在自然语义搜索领域,知识图谱的应用逐渐深入骨髓。
我们看到,越来越多的厂商将知识图谱应用在其他能发挥价值的行业中。2017年,阿里知识图谱首次曝光,每天千万级拦截量,亿级别全量智能审核。在滥发、侵权、合规、假货、经营范围等多个场景产生效用。2019年腾讯推出腾讯云知识图谱,已深入落地在腾讯问答云产品中,并向开发者开放API接口。智能广告推荐,智能语义搜索,所见之处知识图谱无不发挥巨大的价值。
02.
BBD在知识图谱领域的探索创新
BBD Graph最早可追溯至2015年。2016年则开启自主研发知识图谱产品及相关技术之旅,先后向市场推出了丽水、Onet、KUNLUN Hyper等多款知识图谱产品。丽水为一套基于场景和数据定制开发的图分析和可视化平台,为客户构造基于客户自有数据的人物半顶级社会知识图谱;Onet为高度保密客户订制的国产化数据集成服务平台,对接结构化数据和非结构化数据,支持视频、图像、语音等多媒体数据的检索;KUNLUN Hyper为一款涵盖本体建模、数据映射、图编辑、图计算、指标推理、图挖掘等功能的PaaS服务产品,用户可以通过图谱进行关联探寻,并结合时间轴、GIS、最短路径等功能,完成适合任何场景的图谱分析与挖掘。
在图谱深度应用方面,BBD Graph还能提供以下分析挖掘工具,让用户更快速智能的从图谱中发现关键信息。
  • 时空分析:使得数据在时间维度和空间维度上的存在与变化更加具象。
  • 子图匹配:从海量图谱中快速查找固有模式。
  • 关系推理:通过已有关系推理未知关系,揭秘更隐秘的真相。
图1:BBD Graph时空分析功能
BBD Graph的架构具有优秀的扩展性,例如接入数据源的支持种类、在线和离线并行计算的效率、存储方式的多样化和解耦、API 的标准封装等等,能够满足各种应用系统集成。BBD Graph 系统将 APP 应用、图数据库云端、搜索引擎、Hadoop 集群、数据仓库、元数据(Meta Data)等各模块在架构中解耦,便于扩展接入数据源的支持种类、提高在线和离线并行计算的效率、满足存储方式的多样化和各种 API 的标准封装等等,能够满足多种系统需求和各个集成系统。
图2:系统架构图
企业从自有的数据仓库或者数据湖中,通过 ETL 或者 NLP 技术,抽取通用的节点和边,形成面向图谱的数据集市。在以上前提下,用户可通过 BBD Graph的管理平台接入上述数据集市。用户通过本体管理模块为具体的业务场景建立不同的本体模型,在项目管理模块新建项目并分配项目人员角色,然后将数据与本体模型进行映射,并完成元数据管理,在图计算管理模块建立各类业务指标计算任务,在 APP 管理层为需要调用计算任务结果的 APP 发放 Token,在图可视化预览模块进行图查询和可视化展示,在用户管理模块配置用户权限、数据权限等,在资源管理模块分配各项目存储占用空间等。
图3:知识图谱生成和解决方案图示
03.
知识图谱在公安领域的应用实践
通过源数据准备、本体中心、图存储、图计算、APP生成等环节,可构建任意行业、任意业务领域的知识图谱。其可广泛运用于社交、公安、金融、电力、物流、机器智能、生物医药等行业。以公安大数据应用为例,在公安工作中,一线民警的困惑大多在于:
  • 互联网高速发展导致各类数据数量暴增;
  • 发展速度过快导致监管不同步,最终造成犯罪分子有机可乘;
  • 面对网络等非接触违法犯罪情势下的案件信息繁杂、信息分散颗粒小、关联松散、案情链路长环节多等特点带来的破案难;
  • 相关信息过多,例如公安部门原有数据、社交网络数据、交易数据等数据如何联合探案。
要破解这一痛点,需要哪些先决条件?首先,需要提供PB级的稳定图存储,并解决更新、融合等数据问题。其次,需要利用机器结合业务,通过图分析手段找到业务关键要素,例如如何快速找到犯罪团伙等。同时,需要多源异构数据融合,将不同渠道的数据源通过数据处理,形成统一标准图数据。
在此基础上,基于动态本体论的超大规模知识图谱挖掘和分析解决方案成为良好的应对之策。BBD Graph团队利用图引擎核心技术,通过主题工程、数据工程、计算工程、模型工程和产品工程五大工程打造了贴合业务的图分析平台,实现以下功能:
  • 将公安干警日常工作中所接触的源数据进行清洗,ETL等数据处理,使数据成为标准的图数据结构。
  • 以标准图数据作为源数据,利用强大的图库支撑,为PB级数据提供稳定的数据存储空间。
  • 建立符合公安探案各个场景下的通用动态本体模型,高度抽象化的还原探案场景,让公安干警在本体模型的基础上实现更多线索的发现。
  • 利用指标计算、推理分析、社群发现等图计算功能,发现嫌疑人的隐秘关系。通过抽象电诈、广告营销等案件类型的图特征,可实时实现全图遍历,为实时预警系统提供数据分析结果。
构建本体模型阶段,第一步是通过数据扫读,尽可能完全地列出建模可能会涉及到的概念节点,并按节点性质进行归类和分类,梳理出节点类型。第二步通过逐表逐字段阅读数据资源目录,对每个字段进行备注和批注(如抽取规则、可抽取节点类型、可抽取边类型、是否重要、是否属性等)。经过多次核查后输出数据透视表,根据数据调研的总行数、非空率、更新量,便能清晰知道每类节点,每类边的来源、数据量和数据增量规模。这一步骤,不仅有助于对数据资源有通透的了解,还估算出图谱数据的规模,为后续的技术选型提供支持。第三步是根据数据内容和需求,尝试将这些节点组织起来,即本体模型设计。人的社会关系多种多样,业务中的数据也支持构建个体的庞杂社会关系,这可以说是以人为基础的社会网络的顶级本体模型。
接下来,便是对本体模型进行调整和优化。根据项目实施情况看,本体模型除了要能准确反应业务逻辑外,还应考虑真实用户的认知习惯,此外后续数据抽取工作的难度、数据储量的多寡、数据探索的能力和效率都应该是决定一个本体模型设计的关键因素。
如此一来,知识图谱技术打破了公安行业长久以来的数据孤岛难题,在本体建模的基础上将公安中的各类数据汇总融合为不同实体,进行有效连接和价值挖掘,最大限度地为公安部门提高核心竞争力提供智能化支撑。
目前,BBD Graph平台陆续将知识图谱技术应用于各行各业。从公安领域的快速探案、犯罪团伙智能发现、犯罪轨迹跟踪,到金融领域风险预警、智能监管、反洗钱监察,再到海关智能报关单审核,异常报关预警等等方面,深入了解用户的痛点,用知识图谱来解决痛点,且不仅局限于解决问题,更利用知识图谱帮助持续的工作开展。

END / 
点击图片,查看往期精彩
【声明】内容源于网络
0
0
BBD Data
大数观天下,微言解疑难
内容 748
粉丝 0
BBD Data 大数观天下,微言解疑难
总阅读367
粉丝0
内容748