“知识”用图来表现是什么样子的?
知识点之间的关系或许才是更重要的那一趴?
最近,我对 #知识图谱 产生了浓厚的兴趣。在构建知识图谱的各个环节中,最让我感到惊艳的,莫过于它的存储基石——#图数据库。它和我们熟悉的 MySQL、Oracle 这类传统数据库截然不同,为我们理解和处理数据提供了一种全新的范式。
一、什么是知识图谱
知识图谱(Knowledge Graph),本质上是一个巨大的、富含语义的网络结构图,它由实体(节点)和关系(边)组成,旨在描述现实世界中的实体(如人、地点、事件)及其之间的丰富关系。知识图谱能让机器能够“理解”数据之间的逻辑,而不仅仅是存储它们。
那么,一个随之而来的关键问题是:如何高效地存储和查询知识图谱中这种错综复杂的连接关系?
传统的关系型数据库(如 MySQL)在处理多层次的关联查询时,往往需要大量的 JOIN 操作,导致性能急剧下降,查询语句也异常复杂。正是在这样的需求下,图数据库(Graph Database) 应运而生,它以其原生处理关系的强大能力,成为了知识图谱最理想的“家园”。 (🔍复杂关系场景,图数据库为何是首选?)
二、什么是图数据库
要理解图数据库,首先要建立“图”的思维。
这里的“图”并非指常见的饼图、柱状图,而是数学和计算机科学中的图论概念,即由节点和连接这些节点的边构成的网络。
1. 三元组
图数据库和知识图谱的最小知识单元是三元组,其形式为:主体-关系-客体。
示例1:张三-认识-李四
示例2:北京-是-中国首都
示例3:刘德华-主演-无间道
这个简单的结构能够表达出极其丰富的语义信息。
2. 点与边
三元组在图数据库中具体体现为:
节点:代表实体。例如,一个人、一家公司、一部电影。节点可以有标签(如 Person, Movie)来分类,并且可以拥有多个属性(如 name: ‘张三’, age: 28)。
边:代表关系。它连接两个节点,定义了它们之间的关系。边同样可以拥有方向和属性。例如,一条从“张三”指向“李四”的边,类型是 KNOWS,并且可以有一个 since: 2020 的属性,表示相识年份。
这种直观的建模方式,使得数据及其关系能够以最自然的形式被存储和呈现。
从上面的分析可以清晰的理解,图数据库,就是一种专门用来处理和查询“关系”的数据库。它不关心数据本身有多少(因为它们拥有处理万亿级海量数据的高性能),而是特别关心数据之间是怎么连起来的。它的核心优势是:沿着关系找东西,速度快得飞起。
三、知识图谱的构建思路
1. 知识定义与建模
明确业务边界,设计本体。即定义有哪些类型的实体(节点标签)和关系(边类型),以及它们各自拥有哪些属性。这是构建图谱的蓝图,从面向对象开发的角度理解,你可以理解为“类的定义”。
2. 知识获取
确定知识图谱主题后,收集各类数据,然后从各类数据源中提取信息。其中,数据的形式包括:
结构化数据:直接从业务数据库(MySQL 等)中获取。
半结构化/非结构化数据:通过爬虫、NLP 技术从文本(甚至可以是一本书)、网页中抽取实体和关系。
这里提到的实体和关系,从面向对象开发的角度理解,你可以理解为“类的实例化”。
3. 知识融合与存储
将获取的知识进行清洗和整合。关键任务是实体链接(也有人称之为:实体对齐),即判断不同来源的“Steve Jobs”和“乔布斯”是否指向同一实体,消除歧义。最后,将处理好的三元组数据存入图数据库。
4. 知识应用与可视化
利用图查询语言(如 Cypher、nGQL)对图谱进行查询、推理和分析。并将结果通过图谱可视化、智能问答、推荐系统等方式呈现给最终用户。
四、主流图数据库概览
当前,图数据库领域有多种产品,主要可分为原生图数据库(存储和计算引擎均为图专用)和非原生图数据库(基于其他存储引擎构建图处理层)。
我找了以下的一些产品,分析理解了一下,也参考了一些书籍,汇总成下面这个表格,供大家参考:
这个表格,我基本还原了书本原作者的内容,仅做了部分扩充。
结合上表,再从国产信创、DB-Engines 排名、性能、架构、生态、依赖性与成本(包括学习成本)等角度分析,数剧科技最终选择了 NebulaGraph。
目前数剧科技已经完成 NebulaGraph 的初步搭建与测试,其性能和易用性符合我们的预期,不仅解决了当下的技术问题,更为未来的业务发展选定了清晰的方向和可靠的技术底座。具体场景与业务收益我们会在后续的文章中分享出来。
下图是基于 NebulaGraph 做的一个测试图谱样例:

五、结语
图数据库以其“关系为中心”的核心思想,完美地契合了知识图谱对复杂关系管理和挖掘的需求。随着人工智能从感知智能走向认知智能,能够理解和处理逻辑关系的知识图谱与图数据库,必将扮演越来越重要的角色,期待 NebulaGraph 在 AI 时代为更多场景解锁图数据库的业务价值。
关于数剧科技
数剧科技 是一家AI原生公司,专注于将管理科学、数据科学与 AI 技术深度融合,打造赋能高级管理与核心决策的智能体、工具、系统,助力组织和个人实现决策智能化。
🔥日本 nMeetUp 火热报名中
🔥O2O 计划招募中,免费为你提供技术支持
📧来论坛,GraphRAG 产品反馈一键直达 NebulaGraph 产品团队。
https://discuss.nebula-graph.com.cn/t/topic/17256
✦
如果你觉得 NebulaGraph 能帮到你,或者你只是单纯支持开源精神,可以在 GitHub 上为 NebulaGraph 点个 Star!
每一个 Star 都是对我们的支持和鼓励✨
GitHub:https://github.com/vesoft-inc/nebula
官网:https://www.nebula-graph.com.cn/
论坛:https://discuss.nebula-graph.com.cn/
✦
✦
扫码添加
可爱星云
技术交流
资料分享
NebulaGraph 用户案例
✦
Why Graph Database?⬇️
风控场景:普适智能|中证数智|BlockSec|携程|Airwallex|众安保险|中国移动|Akulaku|邦盛科技|360数科|BOSS直聘|金蝶征信|快手|青藤云安全
平台建设:博睿数据|携程|众安科技|微信|OPPO|vivo|美团|百度爱番番|携程金融|普适智能|BIGO
知识图谱:普适智能|中证数智|中医药大学|企查查|腾讯音乐|中科大脑|泰康在线|苏宁|微澜|同花顺|携程酒店
营销推荐:阿里妈妈
GraphRAG:中科数睿
✦
✦

