深度学习+知识图谱，人工智能这一波将把我们带向何方？- 大数跨境

数慧云脑

2023-04-11

导读：新一代遥感影像解译范式来了……

今年的三月，注定是属于ChatGPT的。先是多模态预训练大模型GPT-4横空出世，开启了人工智能领域的“iPhone时刻”。短短几天之后，OpenAI又甩出“王炸”，宣布ChatGPT“联网”封印已解除，通过接入插件，不仅能检索实时信息，还能绑定API，直接执行操作。瞬时，整个互联网圈再次全网震惊脸……

几乎所有人都没想到，人工智能竟一下子“疯”成了这个样子。连比尔·盖茨都激动地表示，人工智能的重要性不亚于互联网的发明，“这将改变我们的世界”。

然而，尽管大多数情况下ChatGPT能够表现得披荆斩棘，无所不能，它依然躲不过也存在“一本正经胡说八道”的AI大模型“通病”。目前，ChatGPT还是一个黑盒计算，在内容的可信性和可控性上都有较大局限。有AI行业研究人士指出，“我们要给它足够正确的知识，再引入知识图谱这类知识管理和信息注入技术，还要限定它的数据范围和应用场景，使得它生成的内容更为可靠”。

为什么说引入知识图谱，可以让ChatGPT变得更靠谱？这其中涉及到知识的两种分类，一种叫做显性知识，也叫编码知识、形式知识，指可以用形式的、系统的语言所传递的知识；一种叫做隐性知识，也叫暗默知识，指很难形式化和交流的知识。

举个简单的例子，当你学习开车时，你可以通过学习交通规则、车辆构造、驾驶技巧等显性知识来掌握开车技能。但是，你也需要通过大量的实践，经验积累等隐性知识来提高自己的驾驶水平。

ChatGPT所对应的大语言模型虽然是基于语义理解，但是它并不是真正理解背后的意思。当给到模型一段话或者文字，它基于之前大量文本数据的训练，去预测这段话后的下一个词或者字是什么，并兼顾考虑到上下文的逻辑正确。

面对海量结构化或非结构化数据，如何提取价值数据辅助业务决策？如何实现数据存储、管理和快速检索？如何将各类分散的多源异构数据进行互动、共享，并得到有效利用？利用知识图谱将不同的数据源统一结构，通过节点和关系把所有不同种类的信息连接在一起得到一个关系网络，为真实世界的各个场景直观建模，已成为认知智能领域的核心技术之一。

知识图谱力求通过将知识进行更加有序、有机地组织，对用户提供更加智能的访问接口，使用户可以更加快速、准确地访问自己需要的知识信息，并进行一定的知识挖掘和智能决策。它整个过程都可溯源，因此其事实正确性也会更加可控。

基于语言大模型和知识图谱的各自优缺点，业内人士认为，以知识图谱提取的知识作为输入，能在相当程度上解决当前ChatGPT的事实谬误问题，并具有可解释性。基于知识图谱的推理也能增强当前模型的推理能力。

北京数慧作为一家前沿科技型公司，一直在不断探索如何将人工智能技术与千行百业的业务需求进行更好地融合。其中，遥感作为我们观察世界的“天眼”，不仅能反映地物的类型、分布，还能感知事物的变化，目前已广泛应用到数字政府、数字经济和数字社会的领域中。

然而在遥感领域，也存在ChatGPT这样的幻觉性错误，那就是“同谱异物、同物异谱”现象显著。简单来说，就是两个不同地物可能呈现相同的光谱特征，或者同一个地物呈现不同的光谱特征。这无疑为遥感图像解译带来了不小的困难。

在上一篇文章“当人工智能加持学霸秘籍将为遥感图像识别带来何种突破？”中，我们介绍了北京数慧通过对难例数据的机器自主学习，实现样本闭环管理，从而节省大量遥感解译样本的采集时间和人力成本。

同时，北京数慧还引入了知识图谱，实现知识的沉淀和推理，结合影像、矢量、作物农事历等数据，为遥感影像智能解译提供了方向。通过将知识推理和机器学习相结合，建立一个以数据自主学习为核心，以领域先验知识推理为引导的新一代遥感影像解译范式。

目前，DIIT在线训练与解译系统知识图谱模块包括可视化展示、业务问答等功能。其中，可视化展示是指对业务目标所涉及的影像、源数据集、样本集、模型等之间的关系和重要属性进行可视化展示。

业务问答则涵盖模型推荐、优化模型、如何建模、矢量复用等业务点。

模型推荐

以“开封市冬小麦种植面积和分布提取”业务目标为例，首先，知识图谱对业务目标进行分析推理后，会将数据库中已存在的模型进行自动匹配，并计算适配性得分，得分越高，适配性越好。

其次，系统会根据小麦最佳观测期，筛选数据库中最合适的卫星遥感影像数据，并根据自动化解译对影像的需求，自动匹配合适的数据处理流程。

模型优化

若上一步没有匹配到合适的模型，则需要进一步判断是否有合适的源数据集进行优化模型，如果有可以用于优化模型的源数据集，则可以直接发起训练样本集制作流程，并完成模型的迭代优化工作。

知识图谱从模型建立和模型优化两个维度，渐进式地对模型训练提出建议。首先，在模型建立维度下，系统推荐出合适的源样本集进行模型的初步训练。然后，在模型优化维度下，系统对初步训练的模型的难例集进行筛选，得到具有代表性的难例集，将其同步至闭环难例模块进行样本制作，再通过难例样本进行模型的优化训练。

如何建模

若上一步未找到合适的用于模型优化的源数据集，则会智能推荐数据库中合适的影像进行样本勾画。

若数据库中没有合适的源数据集和影像，则展示需要补充样本的信息。如图所示，若需要建立“信阳市的早稻模型”，则需补充信阳市“4月15日 - 5月1日”的冬小麦样本和“4月20日 - 4月30日”的早稻样本。

矢量复用

在上述“如何建模”业务中，若系统无法匹配到目标区域的源数据集，则会从标签物候期相同的其他地区选择合适的源数据集。例如，开封市冬小麦模型训练业务中，需要开封的冬小麦样本，但是系统里只有郑州的冬小麦样本。如果郑州和开封的冬小麦物候期是一样的，就可以推荐用郑州的样本训练一个模型。

ChatGPT狂潮之下，人工智能的发展无疑已经按下“快进键”。谁能以最快速度实现人工智能在各业务领域的工程化应用落地，谁就能成为这个新纪元的主宰。

拥抱新纪元，北京数慧已经准备好了。你呢？

点击这里延伸阅读

【声明】内容源于网络

数慧云脑

自然资源领域标准制定的参与者、数据质量的把关者、信息工程的承担者，多年来坚持新技术研发投入和行业业务研究，不断为自然资源“业务数据化、数据业务化”提供最佳实践。

内容 71

粉丝 0

数慧云脑自然资源领域标准制定的参与者、数据质量的把关者、信息工程的承担者，多年来坚持新技术研发投入和行业业务研究，不断为自然资源“业务数据化、数据业务化”提供最佳实践。

总阅读21

粉丝0

内容71