01
什么是知识图谱
在知识图谱的定义中有两个词明确了知识图谱的组成,即“节点”和“边”。“节点”和“边”提供的“关系”也就是知识图谱最有效的表示方式。以勒布朗·詹姆斯给大家举个例子:

如图所示,人物、效力球队、地点、身高等都可以作为知识图谱中的节点,我们称这些节点为实体。实体可以由若干个属性表示,例如,人物这类实体有生日、身高、妻子等属性。球队实体有职责所属国家、教练、队友等。
通过实体的属性可以将不同的实体建立关联关系:
▪ 詹姆斯 (实体)-- 妻子(属性) -> 萨瓦娜·布林森(另一个实体)
▪ 詹姆斯 – 效力球队 -> 克里夫兰骑士队
▪ 克利夫兰骑士队 – 职责所属国家 -> 美国
现在大家应该对知识图谱有了直观的概念了。那,知识图谱是怎么来的?又有哪些应用?
02
知识图谱的构建
知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。各大企业相继也推出了各自的知识图谱产品,东软也不例外。SaCa DeepCogni知识服务平台,基于先进的自然语言处理技术,可实现分词与词性标注、句法依存分析、命名实体识别、概念抽取、事件抽取、信息抽取等文本处理功能。

SaCa DeepCogni知识服务平台
配合使用SaCa DeepCogni-Studio,开发者和用户可以有针对性地在专属垂直领域语料数据上进行实体标注及关系标注,训练自定义的知识图谱监督学习与半监督学习模型,快速构建垂直领域的专业知识图谱,并支持基于开放域数据的知识图谱的更新与维护。
03
知识图谱有哪些应用
传统的诊断在知识和信息更新上比较滞后,不能以自然语言处理,而SaCa DeepCogni基于开放数据源构建的医疗健康知识图谱在智能诊断技术上会更有优势。比如,根据“症状与疾病”的关系推测患者可能疾病,根据疾病可能性,推荐就诊科室、检查检验方案等。

症状与疾病的关系
说明:现实中疾病和症状的关系是错综复杂的,本文中为简化示例图
目前,SaCa DeepCogni医疗健康知识图谱覆盖112个专业科室,1.6万种ICD-10编码疾病,1万余种症状和临床表现,106个身体部分,76种主要体检与辅检手段等医疗健康信息。在电子病历分析,医疗影像报告录入,自诊分诊机器人以及全科医生辅助诊疗等医疗人工智能认知服务与应用的研发工作中起到重要支撑作用。
基于SaCa DeepCogni 构建的技术·人才知识图谱,帮助客户在“找人才”的业务需求方面获得更加精准的推荐信息。面向领域的专家智库系统,对科研专题的专家基于用户需求进行基于知识图谱的推荐预测,综合考虑专家的学术影响力,社会影响力,专业细分匹配度等指标,快速满足企业对于专家人才的匹配业务需求。
而在知识产权、新闻广电等领域,利用知识图谱数据进行的关联分析,个性化推荐,自动化估值等智能化服务已经被广泛应用。
企业内部资料海量、庞杂,而知识图谱可以让搜索快速通往答案。SaCa DeepCogni利用知识图谱推理,对数据进行组织标引与检索,对搜索结果进行更精确的知识挖掘,快速给出相应的反馈。
例如,某保险公司推出了一类保险产品A,旗下有诸多子产品A1、A2、A3,子产品包含主产品属性,但子产品功能属性各不同。(如下图所示)

A3是A险的一款附加险,但是在A1和A2的相关材料里并没有给出描述,但是通过知识图谱,在搜索A1的情况下,能够通过推理告知用户A3的相关信息。
还有我们平时接触的智能客服,也是基于知识谱图的知识服务。通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案。SaCa DeepCogni的智能问答系统已服务于河南地税,为其分流了传统人工客服压力, 节省了服务成本。相关内容,后续在为大家详细展开。
SaCa DeepCogni是基于自然语言处理、机器学习等技术的知识服务平台,提供包括分词、分类、概念抽取、实体识别、情感分析、关系抽取、自动摘要等各种语义分析服务,可以分析各种非结构化数据:社交媒体、互联网文章、企业内部文档、邮件等,帮助企业快速构建基于语义分析的人工智能应用。
SaCa DeepCogni凭借技术先进性及在知识服务专业领域取得的经济和社会效益,获颁中国计算机学会2017年 “科技进步优秀奖”。
东软SaCa DeepCogni荣获2017CCF科学技术奖科技进步优秀奖


