数字孪生的智能化应用- 大数跨境

首页

数字孪生的智能化应用

数组智控产业发展科技院

2023-01-17

导读：文章来源《数字孪生技术与工程实践》SIGGRAPH（Special Interest Group for C

文章来源《数字孪生技术与工程实践》

SIGGRAPH（Special Interest Group for Computer Graphics，计算机图形图像特别兴趣小组）成立于1967年，一直致力于推广和发展计算机绘图和动画制作的软硬件技术。

从1974年开始，SIGGRAPH每年都会举办一次年会。

在SIGGRAPH 2021上，英伟达（NVIDIA）公司通过一部纪录片自曝，在2021年4月举办的“英伟达GTC（图形技术大会）发布会”内藏玄机，他们构建了一个英伟达首席执行官兼创始人黄仁勋的“数字孪生体”，出现在视频发布会的部分环节中。

这个新闻让众多网友兴趣高涨，不断回看视频，看看哪个片段是真正拍摄的，哪个是“数字渲染”的（图6-1中，左图为真实拍摄，右图为完全用数字渲染的场景）。

图6-1 2021英伟达GTC大会上的“真/假”场景

真假发布会场景的背后，是英伟达的Omniverse平台，从计算机图形学技术到优化技术，从工具包到引擎，Omniverse都有提供。

NVIDIA OmniverseTM是NVIDIA的开放图形平台（见图6-2），用于实时交换、协作和共享虚拟世界。

Omniverse旨在实现不同应用程序和供应商之间的通用互操作性。它提供高效的实时场景更新，并基于开放标准和协议。

Omniverse被设计成一个集线器，因此新连接的功能可以根据需要向任何连接的客户端和客户端应用程序公开。

该平台能提供电影级的场景渲染功能，而对于数字孪生应用而言，该平台的Isaac Sim和Drive Sim两个数字孪生工具值得关注。

图6-2 Omniverse平台包括的内容

（图片来自https://docs.omniverse.nvidia.com/，2021年8月的截图）

由Omniverse提供动力的NVIDIA Isaac Sim是一款可扩展的机器人仿真应用程序和合成数据生成工具，为真实感、物理精确的虚拟环境提供动力，以开发、测试和管理基于AI的机器人。

训练感知模型需要大量不同的数据集。

组装这些数据集可能成本高昂、耗时、危险，甚至在某些情况下是不可能的。

通过利用Isaac Sim的合成数据生成功能，开发人员可以引导培训任务。

在项目的早期阶段，合成数据可以加速概念验证或验证生产线工作流。

在开发周期的后期阶段，可以使用合成数据扩充真实数据，以减少训练生产模型的时间。

Isaac Sim内置了对域随机化的支持，允许改变纹理、颜色、照明和位置。

它还支持不同类型的数据，包括边界框、深度和分段。

开发人员可以以KITTI格式输出数据集，从而更容易利用NVIDIA的迁移学习工具包（Transfer Learning Toolkit，TLT）。

而Drive Sim是针对车辆自动驾驶训练而用的。

利用Omniverse平台渲染出来的虚拟场景对自动驾驶AI引擎进行训练，能降低物理行驶环境的局限性影响，丰富训练场景，提高训练速度。

这就是数字孪生的威力。

数字孪生不但可以是真实物理世界的孪生，还可以是“虚拟物理”的孪生，也就是说，可以是满足物理规律的“另一个世界”的构建。

而利用这个“另一个世界”，可以完成许多真实物理世界中不能完成的工作，或者可以更好地完成这些工作。

中国科学院的王飞跃研究员提出的“平行宇宙”就是和这个类似的概念。

基于数字孪生的智能化应用，可以从模型和数据相结合的优化入手来考虑。

传统的基于模型的或者基于知识的优化，在面向复杂大系统或者巨系统的情况，可能会遇到效率不高、难以实现等问题；

而单纯基于数据的优化，在工业、建筑业等已经拥有大量机理模型和物理、化学等演变规律知识的学科与行业中，往往事倍功半，容易在数据中迷失方向。

数字孪生的优势，在于基于模型和知识，结合实际系统中采集的数据，融合后进行优化，充分发挥模型和数据各自的优势。

6.1 知识及其表达

根据本书2.1.1节中的解释，模型是对现实系统有关结构信息和行为的某种形式的描述，是对系统的特征与变化规律的一种定量抽象，是人们认识事物的一种手段或工具。

一般在谈论“基于模型”时，这个模型指客观规律，也指科学家/工程师针对实际需求而构建的反映实际系统运行规律的一个抽象表达。

模型分物理模型、形式化模型和仿真模型，在本书大部分的地方，模型都指形式化模型、仿真模型，例如，物理机理模型，就是符合物理学一般规律的，用数学表达的客观对象的抽象。

对于“基于模型”说法中的“模型”一词，是知识的一种体现，通过模型，科学家/工程师把隐性知识表达成显示知识（如数学模型），或者把隐藏在物理系统中的运行规律用另外一种计算机可以模拟的方式表达出来（如仿真模型）。

从这个意义上说，“基于模型的方法”和“基于知识的方法”可以是类似的概念。

在知识工程中，涉及的形式化模型包括知识表示模型、知识推理模型，这些模型表述了知识如何在计算机中存储以及计算机如何处理应用知识。

在数字孪生应用中，以知识工程的知识模型管理框架结合数据智能方法，能很好地构建起“模型+数据”驱动的优化应用系统架构。

6.1.1 数据和知识

（1）数据（Data）

数据是世界的度量和表示，是外部世界中客观事物的符号记录，一般指没有特定时间、空间背景和意义的数字、文字、图像或声音等。

外部客观世界中的原始资料可以称为数据，其存在不依赖于人类对它是否认知。

数据反映了客观事物的某种运动状态，可定义为有意义的实体，它涉及事物的存在形式。

数据是关于事件的一组离散的客观的事实描述，是记录信息的符号，是信息的载体和表示，是构成信息和知识的原始材料。

比如，“100”是一个数据，它可能表示“100元钱”，也可表示“100个人”，若对于学生的考试成绩来说，也可以表示“100分”。

在生产过程中，由传感器获得的某个变量的测量值是数据。

（2）信息（Information）

数据的关联将产生信息，信息是对数据赋予含义而生成的，是具有特定含义的彼此有关联的数据。

信息来源于数据并高于数据。

从数学的观点看，信息是用来消除不确定的一个物理量。

观点、定义、描述、术语、参数等都可以看成是信息。

信息是数据载荷的内容，是对数据的解释，是数据在特定场合下的具体含义。

人们对信息的接收始于对数据的接收，对信息的获取只能通过对数据背景和规则的解读。

背景是接收者针对特定数据的信息准备，即当接收者了解物理符号序列的规律，并知道每个符号或符号组合公认的指向性目标或含义时，便可以获取一组数据载荷的信息，亦即数据转化为信息。

对于同一信息，其数据表现形式可以多种多样。

比如，为了告诉某人某事，可以打电话（利用语言符号），也可以写信（利用文字符号），或者画一幅图（利用图像符号）。

信息有各种类型，如结构化信息和功能性信息，主观信息和客观信息等。

（3）知识（Knowledge）

信息的关联将产生知识，知识是对信息进行加工而形成的，是结构化的、具有指导意义的信息。

人们头脑中数据与信息、信息与信息在行动中的应用之间所建立的有意义的联系，体现了知识的本质、原则和经验。

知识是信息经过加工整理、解释、挑选和改造而形成的，因此有加工的知识、过程性知识、命题型知识等。

知识是信息接收者通过对信息的提炼和推理而获得的认识，是人类通过信息对事物运动规律的把握，是人的大脑通过思维重新组合的、系统化的信息集合。

例如，当我们知道零件加工过程的质量报表这个信息之后，分析出零件加工过程是否稳定，是否存在系统误差，这就是我们得到的知识。

从数学的观点看，知识是用来消除信息的无结构性的一个物理量。以成熟度可将知识划分为认知、经验知识、规范知识、常识等。

要传输知识，传输者首先要将头脑中的知识转化为数据，使之成为按一定的规则排列组合的物理符号，再通过一定渠道将数据传至接收者。

接收者如果能够解读数据的背景与规则，则可以接收到相关的信息，然而最终能否获取传输者意欲传递的知识，还取决于接收者个人对信息的提炼与推理。

只有当信息接收者接收到信息并能够从中提取关于事物运动的规律性认识和合理解释时，信息才转化为知识。

（4）智能/智慧（Intelligent/Wisdom）

智能是理解知识、应用知识处理问题的能力，表现在知识与知识的关联上，即运用已有的知识，针对物质世界发展过程中产生的问题，根据获得的知识和信息进行分析、对比，演绎出解决方案的能力。

推理、学习和联想是智能的重要因素。

智慧是智能的提升，是对事务能迅速、灵活、正确地理解和解决的能力，是由智力体系、知识体系、方法与技能体系、非智力体系、观念与思想体系、审美与评价体系等组成的复杂系统。

不同于数据和信息是可以被量化的特点，从知识升级到智能、智慧，必须加入创新的意念。

（5）数据、信息、知识、智能、智慧的关系

数据、信息、知识、智能、智慧层级关系如图6-3所示，从数据、信息、知识再到智能、智慧的过程，是一个彼此关联的过程，是一个不断重用和提炼的过程。

数据在反复关联与使用中提升为信息，信息在反复关联与使用中转化为知识，而知识则进一步提炼、累积为智能、智慧，转化为个人、组织或企业的创新能力，沉淀为个人、组织或企业的智力资产。

图6-3 数据、信息、知识、智能、智慧层级关系

（6）数据库与知识库

数据库是存放数据的，是长期存储在计算机内有结构的、大量的、共享的数据集合。

知识库是用于存储复杂的结构化和非结构化的知识，它由一套语句组成，每个语句都是由知识表示语言表示的，它可以表示关于世界的某些断言，或者关于世界的某个陈述性的知识。

知识库系统通常由知识库和推理机两部分组成，知识库表示关于世界的事实，推理机则可以基于这些事实进行推理。

6.1.2 知识表示

知识表示是人工智能（AI）领域中的一个关键课题。

知识的处理是知识工程重点研究的对象，因此，知识工程中的关键问题就是怎样表示和管理知识，使其能被智能系统最佳利用。

知识工程的存在进一步推动了知识表示的发展。

如今，知识表示已经成为AI的一个重要分支，并且已经形成了一个单独的研究领域。

利用计算机表示、存储、处理数据的优势，知识表示是借助计算机能够接收处理的符号和方式，把人在客观世界中所接收的知识进行转换。

知识表示是一种“符号表示”方法，规定了一种无歧义的语言或者标准的定义语法和语义。

符号表示是通过不同结构和各种符号来表达不同概念和概念之间的联系。

任何一种表示方式都是一种数据结构，同时把数据结构与人类知识联系起来。

人类知识的结构及机制决定了知识表示方式。

知识表示要选择适合的方式表达知识，即找准知识与表示之间的对应关系。

各种数据结构的设计是其研究的关键问题，即知识的形式，研究表示与控制的联系，表示和推理的关系以及知识表示和不同领域的联系。

知识表示的目的就是，基于知识的准确表示，智能算法程序能利用其知识表示做出对应的决策，制定相关计划，判别状况和识别对象，分析目标物体，获得结果等。

典型的知识表示方法包括：

（1）一阶谓词逻辑表示法

一阶谓词逻辑是目前最精确地表达人类思维和推理的方法之一，它基于数理逻辑，借助计算机进行精确运算（推演）。

因为人类自然语言与其表现方式大致相同，所以，人们易于接受将逻辑当作知识表示工具。

一阶谓词逻辑一般由谓词符号、变量符号、函数符号和常量几个部分组成，使用逗号、花括号、圆括号、方括号隔开，用来说明论域内的关系。

一阶谓词逻辑的基本积木块是原子公式，应用联词∧（与）、∨（或）以及→（蕴涵）等，更加复杂的合式公式可以通过组合多个原子公式来实现。

例如，Owns[Student（张三），Book]→Color（Book，Blue）就表示“如果这本书是学生张三的，那么它是蓝色（封面）的”。

（2）框架表示法

世界上各种不同的事物，它们的属性状态、进化发展及彼此之间的联系通常都有一定的规律性。

人们认识事物固定的框架都是从这种规律性的知识中提炼出来的。

框架表示法是由框架理论发展起来的一种知识表示方法，其适应性强、概括性高、结构良好、推理方式灵活，同时可将经验性知识与过程性知识相结合。

框架是一种表示和组织知识的数据结构。

它由框架名和描述框架各方面性质的槽构成。

每个槽都有一个对应的槽名，每个槽名有对应的槽值。

在比较复杂的框架中，槽的下面再进一步分成很多侧面，每个侧面有对应的取值，对槽的细节特征再进行解释。

（3）语义网络

语义网络在多个领域中广泛应用，作为人类联想记忆的一个显式心理学模型。

1968年J. R. Quillian首先提出语义网络，之后，在他提出的可教式语言理解器（Teachable Language Comprehender，TLC）中作为知识表示。

1972年Simon在自然语言理解的研究中使用语义网络，确定了其基本概念。

语义网络模式在不同系统中有所差别，从形式上看，一个语义网络即一个带标识的有向图，其中问题领域中的物体、概念、事件、动作等通过带有标识的节点表示，节点之间的有向弧标识用来表达它们之间的语义联系。

很多情况下有向弧也叫联想弧，因此语义网络也叫作联想网络。

在语义网络知识表示中，节点多被分为类节点和实例节点。

语义网络组织知识的关键是有向弧，其用来表示节点间的语义联系。

（4）产生式表示法

产生式表示法最初来源于逻辑学家Post在1943年提出的一种计算形式体系，该体系基于串替代规则，模型中的一条规则对应是一个产生式。

Newell和Simon之后修改了产生式规则，使用一个简单的策略来模拟大家解决问题时的行为。

基于人类大脑记忆模式中的不同知识块之间存在的因果关系，以“IF-THEN”的形式，即产生式规则来表示。此形式的规则能够获取人类解决问题的行为特征，进而认识行动的循环过程解决问题。

产生式规则表示方式的知识形式相对单一，易于理解和解释，规则彼此独立且结构化好，便于提取知识和形式化，问题解决的过程与人们的认知过程很像。

产生式规则比较简单和易于实现，在问题求解和系统开发方面有一定优势，所以在许多专家系统及人工智能领域应用广泛。

具备以下特点的领域知识可通过产生式规则表示：

①领域知识包含多个相对独立的知识元，相互关系疏远，没有结构关系，比如化学反应等；

②领域知识有一定经验，无确定、统一的理论，比如医疗诊断等；

③领域问题的求解过程描述为一组相对独立的操作，一个操作可用一条或多条产生式规则来表示。

（5）基于神经网络的知识表示

随着研究者对神经元网络的不断研究，提出了许多模型，以“并行信息分布处理”模型为例，这种模型是通过大量称为“单元”的简单处理元件来交互假设信息并进行处理的，其中每个单元都向其上层的单元传递激励或抑制信号。

网络针对全局进行作用称为“并行性”，指同时处理全部目标；

而将信息分布在整个网络内部则叫作“分布性”，每个节点及其连线不具有一个完整的概念，它们只能表达网络的部分信息。

在学习过程中，人工神经网络将其所获得的知识，分布式地存储于节点间的权重和偏置系数之中，有效提升网络的鲁棒性和容错性；

而模式识别易受噪声干扰并且模式的部分损失较大，因此网络的这一特点是成功解决模式匹配的重要因素之一。

此外，人工神经网络能够自适应、自组织地学习，避免了传统识别方法中各种条件的约束，在某些识别问题中展现出较好的效果。

神经网络也易于进行源模式的学习、存储，可以有效实现模式的联想记忆与匹配。

随着机器学习、增强学习等基于人工神经网络的新一代人工智能技术的发展，这种知识表示方法越来越多地被应用。

（6）基于本体的知识表示法

本体（Ontology）最初是一个哲学上的概念，意为一切存在的根本凭借和内在依据，是多样性的世界赖以存在的共同的基础。

自20世纪90年代初期，本体开始逐渐成为计算机领域、知识工程领域及人工智能领域中最为热门的话题之一。

通过将现实世界中的某个应用领域抽象或概括成一组概念和概念之间的关系，并在该区域中构建本体，可以大大促进该区域中的计算机信息处理。

当前，知识工程领域对本体的研究主要集中在两个方面：领域本体库的构建和本体的表示。

以本体研究的主题为依据，本体通常被分为以下5种类型：

1）知识表示本体：本体不限于某种特定领域来对知识描述的语言进行研究。

典型的有KIF（Knowledge Interchange Format，知识交换格式）、OIL（Ontology Interchange Language，本体交换语言）、Ontolingua等。

2）通用或常识本体：涵盖多个领域并建立庞大的人类常识知识库，以解决计算机软件中的脆弱性问题，例如漏洞等。

主要研究如SUMO、Cyc工程等。

3）领域本体：它可以在特定区域中被重用，并提供特定区域中概念的定义与概念之间的关系，以及该领域中发生的活动及其主要理论和基本原理等，例如医学概念本体、生物知识库等。

4）语言学本体：它是一种关于诸如语言和词汇之类的本体。

以WordNet为例，它是普林斯顿大学开发的一个庞大的语言知识库系统，以词汇源文件作为核心，一个源文件都包含一组“synsets”单元，每组“synsets”单元都由一组同义词、一组关系指针以及其他信息组成，由关系指针表示的关系包括继承和反义。

5）任务本体：共享问题解决方法和推理的研究与领域无关。

具体的研究主题包括：通用任务、任务方法结构、与任务相关的体系结构、任务结构和推理结构等，例如Chandrasekaran等人的关于任务和问题求解方法本体的研究。

（7）知识地图

知识地图（knowledge map），或称知识图、知识分布图、知识黄页簿，是知识的库存目录。

就像普通地图显示道路名称、车站、餐馆、学校、派出所等各类机构和设施的地理位置一样，知识地图是用来整理个人或组织所拥有的知识项目及其访问地址的工具，以便用户能快速定位到其所需要的知识，“按图索骥”地寻找知识来源。

图6-4是一种V型知识地图的结构。

V型知识地图最初由美国康奈尔大学教育心理学专家D. B. Gowin教授于1997年设计出来，作为围绕某一主题探索理论与方法之间联系的一种简单的启发式工具，其主要功能是以形象化方式对知识进行结构化的组织和揭示。

（8）知识图谱

知识地图构建了知识的索引，不对知识本身有更多的处理，知识图谱则对知识关系进行了梳理。

知识图谱试图用实体及实体间的关系来解读各种知识和用户需求，并以此实现知识和用户的更好匹配。

根据知识数据的来源和图谱应用的领域，可以将其分为通用知识图谱和行业知识图谱。

通用知识图谱主要面向的对象为普通用户，以常识性知识为主，强调一种知识的广度，但由于缺乏行业专家的参与，知识深度上表达不够。

典型的通用知识图谱以百度知心、谷歌知识图谱等为代表。

行业知识图谱又称作垂直知识图谱，是在特定的行业数据的基础上构建的，对知识的深度有较高的要求。

通用知识图谱和行业知识图谱相互补充，可以实现广度与深度的互补，形成更为完整的知识图谱。

通用知识图谱中的知识，为行业知识图谱的构建提供基础；

而构建的行业知识图谱可以补充融合到通用知识图谱中。

图6-4 V型知识地图基本模型

知识图谱构建的流程规划包括知识抽取、知识融合和知识加工。

知识抽取是知识图谱构建过程中最关键的环节。

知识融合是从多个异构的网络资源中识别和抽取知识，并对知识进行转化，将这种知识集合应用到具体问题求解的过程。

知识加工是在知识融合完成后，通过计算和推理，建立实体间新的关联或推理出隐含的关系，如图6-5所示。

图6-5 知识图谱构建过程

6.1.3 知识推理

推理一般是指这样一个过程，通过对事物进行分解、分析，再进行综合，然后给出决策，这个过程往往是从事实开始，运用已经掌握的知识，找出其中隐含的事实或总结出新的知识。

这个过程也是根据某种想法由已知的一个判定（判断）得出另外一个判断的过程。

在智能系统中，推理通常是由一组程序来实现的，一般把这一组用来控制计算机实现推理的程序称为推理机。

例如，在故障诊断系统中，知识库存储故障常识和专家的经验，数据库存放设备的故障表现、数据采集结果等初始事实，利用专家系统为设备进行故障诊断实际上就是一次推理过程，即从设备的故障表现及现场数据等初始事实出发，利用控制策略结合知识库中的知识，对故障原因做出判断，给出维修建议。

像这样从一些事实出发，不断运用专家库中已知的知识逐步推出结论的过程就是推理。

推理方法是解决在推理的过程中推理前提和推理结论的逻辑关系问题，包括确定性的以及不确定性的传递问题。

可以从多个角度来对推理进行分类，如是否使用一些启发式信息、推理过程是否单调、所用的知识是否确定以及其逻辑基础等。

按推理过程的单调性分类，推理可分为单调推理与非单调推理，这是根据推理过程所得出的结论是否越来越接近目标来区分的；

按推理的逻辑基础分类，常用的推理方法可分为归纳推理、演绎推理和类比推理；

根据推理过程所应用知识的确定性，推理可以分为确定性推理和不确定性推理。

推理的控制策略是指如何使用领域知识使推理过程尽快达到目标的策略。

知识系统的推理往往表现为对知识库的搜索，推理控制策略又分成推理策略和搜索策略。

搜索策略指解决推理效果、推理效率和推理线路等问题的方法，推理策略包括求解策略、推理方向控制策略、限制策略等解决推理方向冲突消解等问题的方法。

推理的常用方法有逻辑推理（包括命题逻辑、谓词逻辑）、基于规则的推理、基于案例的推理、基于模型的推理等方法。

6.2 模型和数据双驱动的优化

模型（或者知识）驱动方法与数据驱动方法是指导工程人员研究工程系统的两大方法论。

数据驱动方法与模型驱动方法本质上都源于对人类知识的总结和扩展，都具有一定的数学理论基础。

在现有的文献研究中，数据驱动方法（Data-driven Method）能够将数据样本转化为经验模型（Experience-based Model），而模型驱动（Model-driven Method）方法通常以机理模型（Model-driven/Physics-based Model）或者知识规则（Rule-based Model）的形式展现。

虽然两种方法都以数学理论为骨架，但仍然存在一定区别，数据驱动方法中样本数据决定了经验模型的功能，而模型驱动方法中机理模型的形式一般由功能和需求的特点决定，如图6-6所示。

1 模型驱动方法

在工程应用中，模型驱动的方法已经证明了其指导实际应用系统的有效性，例如频率稳定分析中的系统频率响应（System Frequency Response，SFR）模型，功角稳定分析中的扩展等面积法则（Extended Equal Area Criterion，EEAC）等。

模型驱动方法有助于辨明问题起源、认识问题机理、提取普适规则、实施控制决策，并且能够在应用场景发生变化时，通过模型细化或参数修改等方式扩展，以增强模型适应性。

对于大多数工程系统（如机电液设备、电子电路、过程控制系统等），系统的运行机理和结构较为清晰，因此通常采用机理建模的方式建立白箱模型，基于系统的运行原理对系统进行刻画。

但模型驱动方法也面临诸多问题，如模型误差难以避免、模型难以清晰表达、计算难度大、模型复杂度与准确度矛盾等，限制了物理机理方法在实际系统工程应用中的实施效果。现实世界中的许多系统，其机理至今仍不甚清楚。

白箱建模在面对这类系统时就显得力不从心，特别在社会、经济等非工程系统上的应用效果不甚理想。

图6-6 数据驱动与模型驱动方法的区别与联系

模型驱动方法能够对研究问题整体考虑，以具体的机理模型或者相关的规则描述研究对象的特性，有助于寻找问题本质和开发新理论。

同时，模型驱动方法需要研究者高度介入，通过对深层机制、原理的理解来推断研究对象的特点，并结合功能需求以合适的数学表达式描述变量间的因果关系，其特点在于能够通过推理预测未知现象，且可以不断进行改进和结果验证。

图6-7对模型驱动方法的分析过程进行了示意说明。

模型驱动方法主要以模式分析、概率模型和优化模型等理论工具为基础构建研究对象的分析模型，并进行求解；

在实际应用中，由于研究问题的复杂性，这些理论工具相辅相成，相互之间存在交叉，各类理论工具的特点归纳如下：

模式分析：针对工程应用问题，通过物理对象的试验和充分观察，建立状态量与观测量间的数学关系，并以大量场景进行验证，最终形成统一的机理模型或关联规则。

但是该方法依赖于研究人员的技术经验，模型完备性和合理性需经过长期的测试验证进行改进。

图6-7 模型驱动方法实施示意图

概率模型：以概率分析理论为基础，将事件发生的不确定性以概率的形式进行表示和推广，从而评估事件发生的可能性。

该方法需要依据假设条件和统计数据获得概率模型形式和模型参数，具有天然的与数据驱动方法联合的能力。

优化模型：以目标和约束的方式对待解决的问题进行描述，通过相关的算法搜索可行解或最优解。

该方法模型构建简单明确，但是在最优解搜索求解方面存在难度，一是求解过程可能较长，二是求解结果在非凸场景下无法保证最优。

2 数据驱动方法

随着新一代信息技术和人工智能技术的发展，推动了数据驱动方法在工程系统中的应用。

数据驱动方法以数据构建模型，包括统计分析方法、人工智能方法等。

一方面历史数据的分析有助于了解产品、系统在历史运行中的特性，另一方面在线数据的分析有助于了解产品、系统实际的运行状态，支撑系统运行态势感知、评估和预测。

数据驱动方法的性能高度依赖于数据规模和质量，而获取实际工程系统全面且合格的数据往往代价高昂。

总的来说，数据驱动方法作用于有限场景下的数据样本，能够构建相关的经验模型，从数据中挖掘问题的特征。

很多情况下，系统内部结构和性质并不清楚，无法从模型分析中得到系统的规律，但存在若干可采集、表征系统规律、描述系统状态的数据。

数据驱动方法摒弃了对研究对象内部机理的严格分析，以大量的试验及测试数据为基础，通过不同的数据处理算法（或标准的处理流程），分析数据之间的关联关系，生成经验模型。

其特点在于以数据样本为基础提取变量间的关联关系，其中数据关联关系存在一定的模糊性，且普适性不及知识驱动方法。

图6-8对数据驱动方法的分析过程进行了示意说明。

图6-8 数据驱动方法实施示意图

通过对系统釆集的大量观测数据运用模式学习和统计学等理论进行充分分析，建立系统输入变量、可观察变量以及预期输出变量之间的模型，即以数据为基础去发现系统模型，这种方法就称为数据驱动建模。

生产过程中的数据驱动建模主要是为了从制造系统产生的大数据中智能提取有价值的决策信息并建立决策模型，再利用这些数据对模型的性能进行评估。

数据驱动建模方法有很多，比如回归分析建模、神经网络建模和支持向量机建模等方法。

回归分析建模是以概率论为基础，通过对客观现象中部分资料的观察、搜集和整理分析，根据样本推断总体、从具体到一般的归纳方法。

人工神经网络从仿生学角度对人脑的神经系统进行模拟，以简单非线性神经元为基本处理单元，通过广泛连接构成大规模分布式并行处理的非线性动力学系统，来实现人脑所具有的感知、学习和推理等智能行为。

采用神经网络进行建模通常有两种形式：

一种是利用神经网络直接建模来描述辅助变量和主导变量的关系，完成由可测信息空间到主导变量的映射；

另一种是与动态参数模型相结合，用神经网络来拟合系统模型所含动态参数的非线性。

支持向量机以统计学习理论中的结构风险最小化为准则，在最小化样本点误差的同时缩小模型泛化误差的上界，提高算法的泛化能力。

此外，支持向量机方法将机器学习问题转化为一个二次规划问题，因此能够得到全局最优解，再结合核函数技巧提升模型的非线性拟合能力，进一步扩展了系统模型的实用性。

对于很多复杂系统，特别是包含人的一些系统（如社会系统等），难以进行明确的数学、物理或化学机理描述，可采用数据收集和统计归纳的方法来建立模型。

近年来，随着大数据、人工智能技术的发展，上述方法中基于数据和统计的“黑箱”建模方法受到了越来越广泛的重视和应用。

基于深度学习技术，DeepMind开发出了围棋人工智能AlphaGo，接连战胜了著名围棋选手李世石与柯洁。

不同于白箱建模方法，数据建模方法可以不依赖于系统机理与先验知识，从数据本身出发发掘数据结构或建立数据之间的关系，可作为一种黑箱建模方法。

由于基于机器学习的人工智能方法在模式识别、自动信息处理等领域的成功，越来越多的人依靠数据来建模，忽视机理模型。

然而，数据建模也存在一定的问题。

首先，由于数据模型不依赖于系统机理，而是直接从数据集中构建而来，当数据集对应的环境条件发生变化时，该数据模型将无法再适应环境，需要重新构建。

此外，如果将数据建模方法单纯作为一种黑箱建模方法，在不利用先验知识和系统机理下构建的模型通常精度有限。

而借助一定的系统机理和先验知识可以更好地提取数据之间的关系，获得更为准确的建模与预测效果，如机器学习模型构建中通过特征工程构造更高效的特征，从而提高模型精度。

综上所述，两种建模方法各有千秋，同时又存在各自的弊端与限制。

人工智能先驱，图灵奖获得者Judea Pearl指出，基于统计的、无模型的机器学习方法存在严重的理论局限；难以用于推理和回溯，难以作为强人工智能的基础。

实现类人智能和强人工智能需要在机器学习系统中加入“实际模型的导引”。

因此，脱离机理模型的大数据分析不适合复杂工业环境，需要两者结合，才能实现有效的应用。

3 数据与模型双驱动方法

综合来看，机理建模方法虽然具有精确度高、适应性强等优点，但是也存在诸多限制条件，比如充分可靠的先验知识、大量的实际经验、对生产过程机理的深刻认识等，在面对复杂非线性过程时建模难度极大，因而造成在实际生产活动中模型的开发周期较长。

数据驱动方法仅依赖样本数据，需要在极少量先验知识的前提下能够较好地拟合复杂过程中的非线性特性，但因为样本数据对特征的覆盖区域有限而降低了方法的准确度，盲目扩大样本数据集的范围又会导致模型复杂且求解难度增加。

模型和数据相互联系的双驱动方法可以解决这个问题，如图6-9所示。而数字孪生系统为这个融合提供了支撑条件。

图6-9表示了数据驱动和模型驱动两种方法融合的一个过程。左侧是基于数据方法的一般流程。

当遇到一个新的问题时，通过检索是否有类似的模型可以解决。

如果没有，则是一个基于数据的建模过程，如果有模型，则需要进行模型迭代、迁移学习，并且进行模型验证。

当模型验证达不到解决问题的要求时，一般是通过获取更多的数据、持续进行模型迭代、训练来让模型能解决实际问题。

图6-9的右侧，是基于模型的方法，也就是传统的基于专家知识的方法。

当没有类似模型时，需要有专家进行模型假设，建立问题的解决方法（例如，针对控制问题，可能是构建控制系统图、建立状态方程），然后是进行模型的验证。

当模型不能解决问题时，需要进行模型的修正。

在这个过程中，基于数据的方法和基于模型的方法都会形成自己的模型库，这个模型库可以看作是一种结果，是解决问题的一个解集。

两种方法的结果，都可以指导另外一种方法的进行，进行相互的补充。

1）在模型构建阶段，模型和数据双驱动建模融合方式一般被分成两大类，数据辅助机理建模和机理辅助数据建模。

数据辅助建模，是针对传统的基于机理模型方法难以建立“白箱”模型的问题时，可以利用基于数据的方法，构建“黑箱”模型，或者是部分黑箱的“灰箱”模型。

对于白箱或灰箱模型，也可以利用数据驱动方法对模型中的参数进行优化。

如杨思等先根据动力学原理建立车辆-轨道动力学模型，再利用实际测得的参数数据和仿真模型中参数数据的误差对模型参数进行优化调整，优化算法选择最小二乘法以及遗传算法。

实验证明，该方法具有更高的精确性和泛化能力，为实际的生产过程提供了指导。

Ma等提出了一种基于机理数据双驱动的电池健康状态诊断模型。

首先基于半细胞机理模型建立电池状态健康诊断模型，以定量方式研究衰老机制和可能的容量衰减属性。

然后使用粒子群优化算法对电池模型进行参数优化。该方法的可靠性和稳健性已经由相关的实验进行了验证和评估。

图6-9 数据驱动与模型驱动的联合应用方式

机理辅助数据建模方法是指先基于系统可采集数据建立参数拟合模型，然后参考专业领域中的机理来对模型中的参数进行优化。

如Liu等首先利用数据模型从历史数据中学习系统退化模式，以便预测系统的未来状态；

然后参考退化机理来矫正数据驱动模型中的参数。

与传统数据驱动模型相比，数据知识融合驱动模型明显具有更好的预测精度。

2）在模型验证方法，基于模型的方法和基于数据的方法能相互协助，帮助在模型验证的过程中进行得更好。

如利用机理模型产生已知的结果，来验证机器学习方法的准确性。

3）在模型修正方面，机理模型可以指导基于数据的方法，进行数据采集方面的采集点配置以及优化，减少采集规模的盲目扩展；

而基于数据的模型库，可以帮助机理模型进行参数调整和模型修正。

例如，在工厂仿真过程中，需要对设备的可靠性进行设置，在规划阶段一般是利用某个分布函数（如二项分布、高斯分布）来模拟故障发生率或者故障时间。

当生产线正式运行后，随着产生数据的不断增加，这个设备的故障率和故障时间可以通过对实时数据的分析而得，通过构建预测神经网络模型来预测设备正常工作时间。

利用这个预测模型修正仿真模型，就能更好地符合生产线的实际。

机理模型和数据驱动融合的建模方法具有以下三个优点：

可以将独立的预测方法取长补短；

预测的准确性极大提高；

降低计算复杂度及成本。

6.3 基于数字孪生的机器学习

6.3.1 基于模型的生成对抗网络

1 生成对抗网络原理

生成对抗网络（Generative Adversarial Networks，GAN）是Goodfellow等在2014年提出的一种生成式模型。

GAN在结构上受博弈论中的二人零和博弈（即二人的利益之和为零，一方的所得正是另一方的所失）的启发，系统由一个生成器和一个判别器构成。

生成器捕捉真实数据样本的潜在分布，并生成新的数据样本；

判别器是一个二分类器，判别输入是真实数据还是生成的样本。

生成器和判别器均可以采用目前研究火热的深度神经网络。

GAN的优化过程是一个极小极大博弈（Minimax game）问题，优化目标是达到纳什均衡，使生成器估测到数据样本的分布。

它设定参与博弈双方分别为一个生成器（Generator）和一个判别器（Discriminator），生成器的目的是尽量去学习真实的数据分布，而判别器的目的是尽量正确判别输入数据是来自真实数据还是来自生成器；

为了取得博弈胜利，这两个博弈方需要不断优化，各自提高自己的生成能力和判别能力，这个学习优化过程就是寻找两者之间的一个纳什均衡。

GAN的计算流程与结构如图6-10所示，任意可微分的函数都可以用来表示GAN的生成器和判别器，由此，用可微分函数D和G来分别表示判别器和生成器，它们的输入分别为真实数据x和随机变量z。

G（Z）则为由G生成的尽量服从真实数据分布Pdata的样本。

如果判别器的输入来自真实数据，标注为1，如果输入样本为G（z），标注为0。

这里D的目标是实现对数据来源的二分类判别：真（来源于真实数据x的分布）或者伪（来源于生成器的伪数据G（z）），而G的目标是使自己生成的伪数据G（z）在D上的表现D（G（z））和真实数据x在D上的表现D（x）一致，这两个相互对抗并迭代优化的过程使得D和G的性能不断提升，当最终D的判别能力提升到一定程度，并且无法正确判别数据来源时，可以认为这个生成器G已经学到了真实数据的分布。

2 生成对抗网络的应用

目前GAN的最基本的应用就是生成以假乱真的图像。

图像生成的任务主要分两种，第一种是生成某种类别的图像，第二种是根据用户的描述生成符合描述的图像。

目前，第一种图像生成的任务已经取得了很好的效果，例如2016年发表的PPGN模型，在视觉效果上已经取得了行业顶尖的效果（见图6-11），其生成的火山图像整体上已经可以达到以假乱真的效果。

图6-10 GAN的计算流程

图6-11 PPGN模型生成的火山图像

另一种很热门的应用是图像转换（image-to-image translation），图像风格迁移只是其中一小类而已。

具体而言，图像转换可以包含很多种，例如把一张夏天的图像转换成冬天的样子，给用笔画的物体轮廓填上彩色的细节纹理，给手机拍摄的照片自动虚化使之看起来像单反相机拍摄的一样。

3 生成对抗网络与数字孪生系统

从前面的分析可知，数字孪生系统主要包括虚拟模型、智能学习引擎及智能控制，构成一个虚拟场景和真实场景之间融合系统，强调虚实互动，构建虚拟系统来描述实际系统，利用计算实验来学习和评估各种计算模型，通过智能控制和执行来提升实际系统的性能，使得虚拟系统和实际系统共同推进和发展。

GAN训练中真实的数据样本和生成的数据样本通过对抗网络互动，并且训练好的生成器能够生成比真实样本更多的虚拟样本。

GAN可以深化数字孪生系统的虚实互动、交互一体的理念。

GAN作为一种有效的生成式模型，可以融入数字孪生的研究体系。

在真实的工程系统运行中，虽然产生了大量数据，但是由于传感器的部署及物联网的发展限制，数字孪生系统无法获取到大量的、多种类的异构数据来构建超现实的虚拟场景。

这可以通过GAN来实现，GAN能够生成大规模多样性的场景数据集，与真实数据集结合起来构建虚拟模型并训练智能算法模型，有助于提高虚拟场景和智能算法模型的泛化能力。

数字孪生中的智能学习引擎可嵌入机器学习框架，其理论框架可定义为如图6-12所示。

该框架通过“软件定义的数字孪生体”来生成人工数据，这些数据参与到计算实验和强化学习中，并且通过形成针对特定场合的小知识，用于智能控制中。

通过智能控制和协同学习结果，产生原始数据，再进行评价和选择。

在这个过程中，使用预测学习解决如何随时间发展对数据进行探索，使用集成学习解决如何在空间分布上对数据进行探索，使用指示学习解决如何探索数据生成的方向。

数字孪生系统的智能控制是一种反馈控制，是数字孪生理论在复杂系统控制领域的具体应用，其结构如图6-13所示。

系统的智能控制核心是利用虚拟系统进行建模和表示，通过计算实验进行分析和评估，最后实现对复杂系统的控制。

除了虚拟系统的生成和计算实验的分析，智能控制中的虚拟系统和实际系统的智能执行过程也可以利用GAN进行模拟，一方面可以进行虚拟系统的预测学习和实际系统的反馈学习，另一方面可以进行控制单元的模拟学习和强化学习。

图6-12 数字孪生系统智能学习引擎框架

图6-13 数字孪生智能控制框架

6.3.2 基于模型和数据的迁移学习

机器学习的繁荣发展使得机器学习在越来越多的场景下得以运用，但是机器学习中算法效果较好的有监督学习算法需要大量的有标签训练数据。

针对训练数据加标签的操作在数据量较少时还可以担负，在数据量庞大的情况下，枯燥繁琐的标签操作使得有监督学习在应用过程中受到限制。

在不同的领域中的对象一定程度上存在共有的特征，在应用这种特征过程中发展诞生了迁移学习技术。

近年来，迁移学习在计算机语言处理、计算机图像识别、故障诊断领域中广泛使用。

迁移学习是一种将已有源领域知识，迁移到目标领域，使得目标领域获得更好效果的方法。

在迁移学习中有一个重要的概念：域（Domain），域表示某个时刻的某个特定领域，域的设计概念在迁移学习算法中极为重要。

迁移学习在应用过程中，需要处理源领域的数据，分析获取源领域的特征，将源领域中提取到的特征应用到目标领域中，分析不同领域之间的差异并改善结构，最终实现目标领域的改进。

1 迁移学习的应用场景

迁移学习到底在什么情况下使用呢？

是不是模型训练不好就可以用迁移学习进行改进呢？

当然不是。

使用迁移学习的主要原因在于数据资源的可获得性和训练任务的成本。

当已经有海量的数据资源时，自然不需要迁移学习，机器学习系统很容易从海量数据中学习到一个鲁棒性很强的模型。

但通常情况下，需要研究的领域可获得的数据极为有限，仅靠有限的数据量进行学习，所得的模型必然是不稳健、效果差的，通常情况下很容易造成过拟合，在少量的训练样本上精度极高，但是泛化效果极差。

另一个原因在于训练成本，即所依赖的计算资源和耗费的训练时间。

通常情况下，很少有人从头开始训练一整个深度卷积网络，一个是上面提到的数据量的问题，另一个就是时间成本和计算资源的问题，从头开始训练一个卷积网络通常需要较长时间且依赖于强大的GPU（图形处理器）计算资源，对于一门实验性极强的领域而言，花费好几天乃至一周的时间去训练一个自己心里都没谱的深度神经网络通常是不能忍受的。

所以，迁移学习的应用场景如图6-14所示。

假设有两个任务系统A和B，任务A拥有海量的数据资源且已训练好，但并不是我们的目标任务，任务B是我们的目标任务，但数据量少且极为珍贵，这种场景便是典型的迁移学习的应用场景。

那究竟什么时候使用迁移学习是有效的呢？

新的任务系统和旧的任务系统必须在数据、任务和模型等方面存在一定的相似性。

所以，要判断一个迁移学习应用是否有效，最基本的原则还是要遵守，即任务A和任务B在输入上有一定的相似性，两个任务的输入属于同一性质，要么同是图像、要么同是语音或其他形式，这便是所说的任务系统相似性的含义之一。

图6-14 迁移学习的应用场景

2 迁移学习方法

迁移学习发展过程中，不同的迁移学习技术方法逐渐明确化，最终可以归为四大类迁移学习方法：

基于实例迁移学习（instance-based transfer learning），

基于特征表示迁移学习（feature-representation transfer learning），

基于参数迁移学习（parameter-transfer learning），

以及基于关联知识迁移学习（relational-knowledge transfer learning）。

基于实例迁移学习，主要通过修改源领域的数据权重对目标领域进行适应，在修改源领域权重时，增加与目标领域相对匹配的样本权重，进行反复迭代更新权重。

基于实例的迁移学习方法的关键点是选取合适的源领域样本进行权重修改，在计算源领域与目标领域的相似度过程中需要选用合适的匹配算法。

主要的算法有联合矩阵分解、核均值计算等。

基于实例的迁移学习方法在理论上有一定的支撑，实现效果在领域间数据相似的情况下较好。

基于特征表示迁移学习，不同于基于实例的方法在于，基于特征表示的迁移学习方法构建的是源领域与目标领域之间的特征空间，利用特征空间计算在不同域中的分类误差。

有监督和无监督的特征构建方法有所差异，有监督学习的源领域数据样本附有标签，源领域与目标领域经过特征变换可以变换至一个特征空间。

在无监督学习过程中，源领域不具有标签信息，无监督学习需要利用字典学习对无标签样本进行处理，得到的字典学习结果标记学习到的特征值，之后与有监督学习类似，经过特征变换后计算目标领域与源领域共同特征空间。

基于参数迁移学习，主要针对参数进行迁移，将训练得到的源领域参数在目标领域进行运用，最终实现目标领域参数的优化，提高目标领域模型效率。

实现过程为：使用源领域有标签数据集正常训练，得到的模型测试目标领域的有标签样本，根据模型输出结果调节已训练好的参数，使得模型在目标领域可以达到较好的分类回归效果。

基于参数迁移学习在训练过程中对源领域数据量要求较高，目标领域有标签数据要求不多。

基于关联知识迁移学习，需要学习目标领域与源领域的关联知识，利用关联知识建立迁移模型。

针对关联知识的迁移学习相对其他几种类型的迁移学习研究较少，需要在源领域和目标领域之间建立知识映射，通过关联规则将源领域中与目标领域有关的知识传递到目标领域。

3 基于数字孪生的迁移学习

数字孪生系统中，通过对物理空间的智能感知，构建和物理空间精准映射的数字孪生体，并且保存着和物理空间相关的数据、知识。

通过注入历史数据、实时数据，利用数字孪生模型进行仿真，得到仿真数据。

同时对各种数据进行特征提取，进行相关的智能模型训练。

然后将训练好的模型参数、特征、数据库中的实例以及与实际环境关联的知识迁移到实际的应用环境中，并实时获取数据，再将数据输入到迁移后的个性化算法模型中，从而快速准确地输出结果并通过精准执行环节反馈控制物理空间，基于数字孪生的迁移学习框架如图6-15所示。

参考文献[75]给出一个应用案例，光伏发电功率由于受到太阳辐照度、温度和一些随机因素的影响，具有较强的间歇性和波动性，很难进行精确的光伏功率预测。

通过构建面向光伏发电功率预测的数字孪生模型，并通过迁移学习将此模型应用到其他投入运行时间较短、数据不足的光伏系统发电功率预测中。

所构建的数字孪生模型，实现了与光伏系统物理实体的同步和实时更新，因此获得比传统预测方法更准确的预测结果，同时利用从历史数据充足的光伏系统中学到的知识来辅助历史数据有限的光伏系统建立发电功率预测数字孪生模型，对于历史数据不足的光伏系统利用迁移学习在节省模型训练时间成本的同时可提高预测精度，其框架如图6-16所示。

图6-15 基于数字孪生的迁移学习框架

图6-16 基于数字孪生和迁移学习的光伏功率预测流程图

6.4 基于数字孪生的装配优化

6.4.1 背景

精密装备的装配质量要求高，不同品种产品有不同的装配工艺过程，且检验环节繁多，目前主要依赖手工装配操作。

例如，航天装备中使用广泛的航天电连接器因外形相似不易区分、装配操作过程复杂而对装配工人技能要求高，使得装配过程耗时长，影响了装配效率，而且作业质量与操作人员的工艺熟练程度和技艺水平密切关联。

然而，现场操作人员对工艺的理解和操作熟练度属于人为主观因素，以人工经验为主导，为产品装配质量管控带来巨大挑战。

因此，复杂零件制造过程亟需面向零件装配过程中质量优化的方法与系统，本节将数字孪生技术应用在高精密产品装配中，使用一种数字孪生驱动的高精密产品智能化装配方法。

随着计算机技术、实时感知与采集技术以及机器学习算法的发展，数字化装配技术也取得了巨大进步。

基于数字孪生系统提供的数字模型以及实时采集的数据，可以进行装配过程的指导与质量优化，开展基于数字孪生的虚拟装配应用。

6.4.2 装配产品数字孪生体的构建

实现基于数字孪生虚拟装配的前提是构建高拟实性模型。

为了保证所构建的高精密产品数字孪生体具有高保真度，应包含装配全要素信息。

如图6-17所示，所构建的高精密数字孪生体中包含了产品集成信息和实际测量信息。

产品数字孪生体的信息在层次结构上可以分为结构BOM、工艺约束和性能约束。

根据多层次结构建立了装配特征关系集、装配工艺约束集、动态稳定性约束集、静态稳定性约束集和动静态耦合约束集。

这些信息存储于MBD模型文件中。

为了实现几何模型的高保真度，将理想的几何模型生成一棵用装配特征描述的树。

根据此特征树，建立点云的配准树，通过点云特征快速生成方法，将离散的没有拓扑关系的点云快速映射到理想特征树上。

将装配特征分为关键装配特征和非关键装配特征，给出其配准权重；根据结构BOM、工艺约束、性能约束分配不同共融规则，从而建立了一棵共融规则树，规则树优化了精细配准方法。

在静态信息上，基于MBD技术的信息模型描述了产品的装配MBD数据集与装配工艺属性集。

装配MBD数据集包含了在装配工艺规划阶段和现场装配指导阶段等过程中用到的所有信息的集合。

装配MBD数据集中定义了高精密装配部件的多物理、多学科、多层次特性。对于多物理性，静态MBD模型不仅描述实体产品的几何特性（如形状、尺寸、公差等），还描述实体产品的多种物理特性，包括结构特性、力学特性、流量特性等。

对于多层次性，组成最终产品的不同组件、部件、零件等都可以具有其对应的模型，从而有利于产品数据和产品模型的层次化和精细化管理。

对于多学科性，高精密产品通常涉及机械、电气、液压等多个学科的交叉和融合。

装配MBD数据集为装配全过程服务，作为唯一的数据源来规范装配相关的活动，最后在实物产品的装配过程中得到实例化和应用。

图6-17 装配产品数字孪生体信息模型

在静态MBD模型中各类参数已经定义的基础上，考虑装配过程的复杂性和动态不确定性，建立可描述高精密产品性能的模型。

以电液伺服阀的空载流量特性（流量曲线）为例，流量曲线是输出流量与输入电流呈回环状的函数曲线，通过该流量曲线可以了解到很多关于产品的物理性能特征。

6.4.3 基于知识图谱的装配工艺表达及动态优化

（1）基于知识图谱的装配工艺表达

传统的装配工艺是通过装配仿真得出工艺文档，其表达方式不易查阅且缺乏隐含知识的挖掘。

同一批次装配工艺一旦形成，大多是无法变更的，不能根据同一批次不同产品装配状态做出适应性调整。

而知识图谱可以很好地表达相邻零件之间的装配关系（显式关系），同时可以深入挖掘非相邻零件之间的关系（隐式关系），提高了工艺检索效率。

为此，本节对高精密产品的装配工艺采用了基于知识图谱的表达方式。

按照知识图谱的信息组织方式，通过“类—关系类—类”“类—属性—值”定义装配工艺文档，其本体为组成高精密产品数字孪生体的各零件子数字孪生体。

建立的装配工艺知识图谱包含了模式层和数据层两个部分。

其中，数据层为实体对象与关系对象共同组成的“节点—属性—值”“节点—连接—节点”三元组，当三元组大量存在时就得到语义网络图。

模式层是装配工艺知识图谱建模的核心，为了清晰描述装配工艺复杂的语义信息，将模式层中的模式分为了装配结构模式和装配工序模式。

（2）基于知识图谱的装配工艺动态优化

在产品装配过程中，根据对象的不同可分为阶段质量评估和综合质量评估，两种评估方式共同实现整个装配过程的装配质量评估。

阶段质量评估在产品装配到具备一定性能时（一般指形成子装配体）进行，评估内容为装配的几何精度和性能精度。

其中，几何精度包含同轴度、平行度和垂直度等。

性能精度包含静态性能（压力特性、负载特性等）和动态性能（幅频、相频等）。

综合质量评估和阶段质量评估的方法相似。

不同的是，若子装配体性能不符合装配需求，则构建的产品性能一定不符合要求。

而由于构成产品的子装配体之间又存在关联关系，所以，在所有子装配体性能满足要求的情况下，装配形成的产品性能不一定符合要求。

可以理解为阶段质量评估是综合质量评估的必要不充分条件。

以阶段质量评估为例，首先通过传感器、测量设备和专用设备获取各项关键特征数据，经过智能算法预测性能指标，然后进行匹配对比对应的装配性能指标得出评价结果。最后根据评价结果进行装配工艺优化。

在高精密产品的装配过程中存在多个装配过程阶段，局部工艺优化是在阶段装配完成后根据阶段装配质量评估结果，利用机器学习算法得出修正装配工序参数，进而形成装配工序链插入末端工序后。

其中，插入的工序属于调试工序（配合值修改或二次拆装）。

全局工艺优化是由于根据综合质量评估结果可能存在多个装配过程阶段的工艺优化，为此是面向全局的工艺调整。

在全局工艺优化过程中，需要重新抽取装配工艺知识图谱中的部分装配工序，与原装配工序参数进行匹配对比，将得出的参数差值形成新的工序插入到原装配工序链中。

其中，插入的工序可看作为调试策略。

6.4.4“操作-状态-质量反馈”三层结构下的质量控制过程

高精密产品质量控制点多，装配性能与装配参数之间存在复杂的非线性关系，导致装配质量难以控制。

参考文献给出了一个“操作-状态-质量反馈”三层结构下的质量控制策略框架，从控制最基本人工、设备操作行为开始，逐步实现装配过程与状态的控制，最终完成装配质量与性能的控制，如图6-18所示。

其中，操作层控制包括设备操作变量控制，即控制设备运行参数；

标准作业流程控制，针对高精密产品建立标准作业流程，对装配作业人员的行为进行规范；

装配标准执行度控制，即衡量装配作业人员对标准作业流程的执行程度。

状态层控制包括多学科性能的相互补偿控制、装配组件刚度控制、动静态控制。

质量反馈层控制总装产品的动态静态稳定性，以及最终产品的动静态耦合性能，质量反馈层是评价产品最终性能的关键。面向复杂装配过程的动态装配质量闭环控制过程如下：

（1）装配实体动态数据的实时采集

在复杂的装配过程中，利用传感器和专业的测量设备实现对装配状态信息的实时感知。

针对实时采集的多源、异构装配数据，在预定义的装配信息处理与提取规则的基础上，对多源装配信息关系进行定义并进行数据的识别和清洗，在此基础上进行数据的分析与挖掘，实现多源异构数据的集成。

多源异构数据可分为结构化数据、半结构化数据和非结构化数据。

对于非结构化数据类型具有不同的处理方式，如图像数据可以采用卷积神经网络（CNN）进行识别处理，对于噪声、XML类数据可采用自然语言处理（NLP）进行识别处理。

图6-18 “操作-状态-质量反馈”三层结构下的质量控制策略框架

（2）虚实之间的关联与映射

在虚实数据融合、关联、同步的基础上，实现装配实体与数字孪生体之间的关联与映射。

对统一规范化处理的装配实体数据，匹配数字孪生体中的各个装配要素。

目前数据的融合方法可采用主成分变换法、小波变换法、贝叶斯算法、神经网络算法等。

具体方法的选择视情况而定。

（3）基于数字孪生体和知识图谱的反馈控制

在实时采集装配数据的基础上，根据质量评估结果，通过知识图谱做出工艺优化。

从操作行为的反馈控制开始，逐步上升到装配状态的反馈控制，最终完成装配质量的控制，形成一套操作-状态-质量三层结构下的质量控制策略。

需要说明的是，上述过程是一个不断迭代优化的过程，直至装配产品质量满足要求。

6.4.5 应用案例

参考文献[76]给出了一个虚拟装配的案例。

该案例结合发动机缸体单元的实际装配过程，从装配工艺动态调整的角度出发，将所提方法应用于发动机缸体单元装配中，以此验证上述方法的实用性。

（1）装配工艺知识的生成

在开始实际装配前，即装配设计阶段需要形成装配工艺知识。

如图6-19所示，首先利用历史装配工艺数据形成装配工艺知识图谱，根据产品装配需求和零组件的实际尺寸提取装配工艺信息。

其中零组件在虚拟空间中的表示是集成了三维几何模型、点云模型和属性信息。

几何模型来源于上游的产品设计部门，通过CAD软件（UG、CATIA等）生成.stl格式模型文件，然后导入数字孪生装配系统的模型库中。

点云模型是通过连接物理空间模块的三维激光扫描仪获取点云数据，经过点云的过滤、拟合等预处理形成点云模型。

属性信息依靠XML文件进行存储，主要包括几何特征信息、材料属性信息、物理属性信息、约束关系信息等。

在完成整个装配仿真过程后，根据装配过程的不同阶段（与阶段质量评估相对应）对总装配序列进行分解，形成不同装配过程阶段的子知识图谱。

子知识图谱表示的是不同装配过程阶段的工序链。

图6-19 装配工艺知识的生成

（2）质量控制过程下的工艺动态优化

发动机缸体单元的实际装配过程要分为装配曲轴、装配主轴承盖、装配止推轴承等数十个阶段。

在装配过程中首先对装配状态数据进行采集，如图6-20所示，列举了部分间隙测量数据。

采集的数据包括每一道工序的装配尺寸数据，通过OPC-UA标准通信协议上传至虚拟空间装配系统的数据存储模块，并根据不同工序和数据类别进行分类。

其中装配数据检测实现了全自动化控制，设备部件的移动均采用气动控制，通过动作控制柜控制设备的各个动作。

图6-20 装配过程及质量检测数据采集

根据采集的数据，利用装配质量评估结果对发动机缸体单元进行局部和全局工艺优化。

见表6-1，首先根据不同的装配阶段分别进行装配质量评估，然后根据质量评估结果在原装配工艺基础上进行优化。

对于局部工艺优化是在阶段装配完成后，加入新的装配工序链。

如在装配曲轴过程中，需要采集的数据主要为装配几何误差，在进行装配质量评估时需要对4项指标进行评估，根据评估结果重新插入了2道工序来修正装配误差：

（如在本案例中，轴向间隙指标过大，不符合装配质量需求，所以插入工序是“工序1：拆卸原止推垫片”“工序2：更换JTW-3W-13止推垫片”）。

如在装配连杆活塞过程中，需要采集的数据包含装配几何误差和性能误差两大类数据，在进行装配质量评估时需要分别对几何质量的3项指标和性能质量的2项指标进行评估，根据评估结果重新插入了2道工序来修正装配误差。

对于全局工艺优化，需要采集的数据同样包含装配几何误差和性能误差两大类数据，在进行装配质量评估时需要分别对几何质量的9项指标和性能质量的8项指标进行评估。

通过装配工艺知识图谱重新提取总装配工序链，经过装配工艺仿真后进行分解成多阶段装配工序链。

值得注意的是，发动机缸体单元装配顺序是固定的，也就是意味着优化的装配工艺主要为部分工序的装配参数。

经过优化的装配工艺会再次下达物理装配空间，进而实现动态迭代优化装配。

表6-1 装配工艺及应用结果对比[76]

6.5 基于数字孪生的设备维护

目前，工业设备维护存在的主要问题有：

①与设备总量相比，接入互联网的设备还不够广泛，工程师需要以人工的形式对设备状态进行检查，同时设备的状态监测参量种类还不够丰富，对突发性故障的预警作用不够明显；

②现有的设备状态信息仅以数据的形式存储在计算机中，数据的利用率较低，基于新一代数据处理技术的设备健康管理和智能报警的技术应用较少；

③目前，大多数监测数据主要以文本或表格的形式进行存储和展示，很难直接指导工程师对设备状态进行设备管理。

数字孪生概念属于新一代智能制造概念的范畴，相较于传统制造，数字孪生集成了新一代通信和数据处理技术，大幅提高了制造过程效率。

在生产过程中，通过先进传感技术将各设备的振动、转速、效率等状态信息以高速低延迟的通信手段传输至云端服务器中，实现对分散设备的数据汇总，然后利用机器学习等新一代数据处理技术对数据进行大数据挖掘、智能化分析和决策，最后利用混合现实技术对数据统计和决策结果进行可视化显示，对潜在风险进行智能化预测维护。

6.5.1 设备维护理论

（1）设备维护的定义

设备在使用过程中会随着时间的改变逐步退化，当设备中某些部件退化到一定程度时，会引起设备的功耗变大或者效率降低，导致设备性能衰退，当退化量超过某个既定阈值时，严重的甚至会发生设备的意外故障，造成停机维修或者设备损坏，导致生产暂停，企业利益受到了很大的损失。

而为了避免这种情况的产生，一般会采取定期维修或者维护。

维护是检查设备各个相关部件，对相关部件的状态进行评估，通过补充消耗品和替换有问题的部件来保证设备正常工作。

维修通常来讲，是一种事后手段，即在设备发生故障之后进行，采取的是对损坏部件进行修理或者更换；

而维护不只是包含维修手段，更泛指一种事前维护的手段，在设备部件衰退到一定程度但是并没有导致设备发生故障停机时对设备进行零部件的更换或维修，这种措施能够有效地预防意外停机带来的生产暂停，故而一般称事前维护为预防性维护。

（2）维护的分类

设备的维护分类可以分成不同的维度，一般有两种分类方法，一种是基于维护发生的时间对维护进行分类，另一种是基于维护的策略对预防性维护进行分类。

基于维护时间的分类，从维护活动发生的时间对维护分类，一般可分为事前维护（预防性维护）和事后维护（故障维护）两种情况，如图6-21所示。

事后维护是指设备在发生故障之后造成生产停顿，是一种被动的对设备进行维护的手段，是比较原始的设备维护方式。

停工检修适用场景是设备故障不会导致严重的并发反应、停机对于生产损失较小、设备价值不高不会带来较大经济损失、设备意外停机不会导致生产事故危及安全等。

停工检修能够发挥出设备或者零部件的所有使用寿命，做到物尽其用，不会造成性能的浪费，例如普通电器或小型设备比较适合此种模式。

在工厂生产环境中，生产计划是预先制定的，如果意外进行停机维修，由于此种维修缺乏计划性，而且对于修理部件的备件不足，会造成设备的长时间停机，打乱工厂的生产计划。

图6-21 设备的维护分类

随着工业企业规模和要求的提升，以及工业化的进一步发展，原始的停工检修完全不能满足企业生产的需求，于是一种事前维护的手段即预防性维护被提了出来。

预防性维护，从文字可知，是预防设备发生故障从而进行的维护，发生的时间点是在设备真正发生故障之前，是一种具有目的性、计划性的维护手段，通过预防性维护来保证设备不会在生产过程中发生故障，防止设备故障突发而对设备使用以及企业生产造成大规模的影响，由于预防性维护是一种已知的、有目的的维护手段，所以维护人员可控性较高。

通常又可以基于两种策略进行预防性维护分类，一种是基于时间对设备进行维护，另一种是基于设备的健康状态或者可靠性对设备进行维护，也可称为预测性维护。

6.5.2 复杂设备预测性维护方法

（1）基于模型的预测性维护方法

基于模型的预测性维护方法，是根据设备的内部工作机理，建立反映设备性能退化物理规律的数学模型。

通过设定边界条件和系统输入等参数，进行数学模型的求解和仿真，得到计算的结果。通过建立数学模型，可以了解设备性能退化的物理本质，预测退化的发展趋势。

Lung等提出了一种综合考虑运行状况、健康监测和维护行为的有效退化模型，该模型基于与设备退化水平相关的离散状态和累积的连续状态建立，具有很高的可用性。

另外Lei等提出了加权最小量化误差健康指标，实现了来自多特征的交互信息融合，与设备的退化过程进行关联，并使用最大似然估计算法初始化模型参数，之后利用粒子滤波算法来预测设备的剩余使用寿命。

基于模型的方法可以在不收集大量数据的情况下，表述系统的故障逻辑和退化趋势，需要领域专家的支持来建立和表述设备的数学模型。

但是传统复杂设备的物理模型仅仅是基于假设工况建立的，无法与设备的实际运行工况保持一致，因而导致设备生命周期中模型的不一致性，从而造成预测性维护精度不高的问题。

（2）基于数据驱动的方法

基于数据驱动的预测性维护方法需要从运行设备中收集状态监测数据，而不需要建立设备故障演化或寿命退化的精确数学模型。

常用的基于数据驱动的方法有

自回归（Autoregressive，AR）模型、

人工神经网络（Artificial Neural Network，ANN）、

支持向量机（Support Vector Machine，SVM）、

相关向量机（Relevance Vector Machine，RVM）

和高斯回归等。

Liao等利用数据驱动的方法来评估设备的健康状况和预测设备的性能退化过程，确定了设备的维修阈值和预测维修周期数。

Baptista等针对航空公司的定期维修计划带来的维护不当问题，采用了ARMA（Autoregressive Moving Average，自回归滑动平均）模型预测组件和系统发生故障风险的时间，并采取维护措施。

数据驱动的方法需要从历史数据中提取特征，并将其转化为知识。

通过数据分析和处理，挖掘隐藏在设备数据中的健康状态指标和性能退化特征信息。

然而，数据驱动的算法模型并没有考虑机电设备的实际物理特性规律和差异性，对不同的系统预测性维护采用无差别的数据处理与分析预测，从而导致其适应性差的问题。

综上所述，目前的单一预测性维护方法均存在不同的缺陷，如预测性维护的模型一致性、算法适应性以及预测结果准确性等问题，因而单一方法不能满足设备更高精度和可靠性的要求。

采用融合型预测性维护方法，可以实现多种方法之间的性能互补，充分利用各种方法的优点，有效地避免单一方法的局限性，从而获得更精确的预测性维护结果。

但是如何构建复杂设备精确的数字化模型并保持其一致性，如何充分挖掘和利用设备运行过程中产生的大量传感数据，以及如何制定智能的预测性维护策略仍是有待解决的关键技术问题。

数字孪生理念的出现，为机床融合型预测性维护中存在的这些问题提供了很好的解决思路。

基于数字孪生虚实映射的特点，利用其生命周期高保真模型和智能感知数据，采用模型和数据融合的策略来实现机床的智能预测性维护。

6.5.3 数字孪生驱动的设备预测性维护框架

数字孪生本质上是物理系统在虚拟空间中的一种独特的映射模型。

物联网、动态模拟、机器学习、增强现实/混合现实等技术作为支撑，数字孪生技术能够持续适应环境和操作的变化，并实现产品设计、工艺规划、调度优化、精准配送、智能控制、质量分析、能耗管理、健康管理等服务，为优化操作、产品全生命周期管理，并加速新产品开发提供了巨大的潜力。

本节在传统的设备健康维护的基础上，提出新一代基于数字孪生的设备故障诊断和预测框架，如图6-22所示。

（1）物理系统和智能传感器

物理系统是实际世界的客观存在。

为了构建设备故障诊断和预测性维护的数字孪生模型，需要从物理系统获得几何结构、材料特性、工艺参数、工作状态、操作环境等不同的系统属性，由于设备的运行状态不是绝对稳定的，零部件需要在高速、重载下长时间工作，此外设备的工作状态和操作环境也会不断变化，其使用性能将逐步退化。

因此获得物理系统的动态状态对判断设备状态至关重要，多源低延迟高灵敏度的物联网系统的发展将决定这个过程能否实现。

针对物理系统的工作包括以下几部分：

图6-22 基于数字孪生的设备预防性维护框架

1）建立设备的数据采集模块。

数据采集是数字孪生的基石，为后续的多种功能提供最需要的数据支撑和实时状态反应，维护方法同样需要实时状态监测和历史数据回顾作为决策支撑。

需要确定采集数据中模块的特征参数，确定所有的传感器和采集的数据量纲。

数据采集内容主要包括方便远程监管的运行状态监测和对主要设备部件进行监测。

运行状态的监测主要根据机械设备的工作参数而定，对于数控机床，包括主轴速度、进给速度、功率、振动、温度等信息，还包括对于设备异常的监测和对于机械设备内部运行状态的监测。

根据所采集的数据集，建立虚拟实体模型，在虚拟实体上进行模拟运行并对数据进行训练得到靠近真实物理环境情况的模拟运行数据。

2）获得几何和规则模型。

几何模型是指从设计阶段获得的系统的最基本参数，如材料属性，外形尺寸、零部件的装配关系等。

规则模型是指物理系统的固有属性参数，例如转子系统的固有频率、临界转速等，这些参数与材料的几何模型有直接的关系。

通过构建物理系统的几何和规则模型，可以进一步利用静力学、瞬态动力学、流体力学等多物理模拟进行后续物理系统的静态和动态分析。

3）分析工作状态。

物理系统的健康状态变化通常表现为其结构的变化。

通过智能传感器可以获得表征物理系统状态变化的观测量，但想要获得实际的状态变化需要进一步分析。

例如转子系统的状态监测通常是在轴承处安装振动传感器，当转子系统发生不平衡故障时，系统的状态发生变化，但通过振动传感器仅能观察到振动的幅值增大。

4）获取操作和环境条件。

一般来说，物理系统的动态响应不仅受其健康状态的影响，还与操作和环境条件密切相关。

机械设备运行状态的特征是不同参数的复杂性、可变性和各因素耦合作用的结果，以旋转机械为例，转速和负载是最相关的操作条件，操作条件的变化同样会影响设备的状态监测值，这种不确定性将会给设备的状态判断带来挑战。

环境条件包括设备所处环境的数据变化，例如温度、湿度和振动干扰，其中振动干扰是特别需要注意的参数，判断设备振幅增大是由本身状态变化而产生的还是由外界干扰引起的至关重要，因此是否对外界环境进行监测将决定设备状态判断的准确性。

（2）数字孪生模型的构成要素

利用物理系统的基本物理信息和动态传感信息，通过基于物理模型和基于数据驱动的分析方法，可以构建数字孪生模型，该数字孪生模型是由数字模型、数据分析和知识库构成的。

主要包括：

1）数字模型。

数字模型以物理系统的几何和规则模型为基础，并从生产、操作和环境中采集传感数据构建系统，它描述了物理系统的子系统和组件的结构和动态变化过程。

数字模型可以在虚拟空间中模拟不同状态、不同工况下的正常或异常行为，通过在数字模型中创建虚拟传感可以提高模型的保真度。

这种仿真过程能够帮助我们更好理解物理系统的运行规则，从而更好地控制和优化物理系统。

2）数据分析。

数字模型中表征的都是物理系统的可观测数据，想要挖掘更深的系统内部运行规律，就需要通过数据分析手段对系统响应进行特征提取，获得系统状态与系统响应之间的对应关系。

数据分析是传统设备健康维护的关键，它用于描述、诊断、预测和规定物理系统的行为。

同时将数据分析结果传递给物理系统的数字模型，以更新数字模型的参数。

3）知识库。

通过仿真技术很难得到完整的客观系统的本质，需要通过对物理系统定期进行故障检测和分析，以维修报告的形式构建物理系统健康评定的知识库，通过不断完善故障模式、健康指标、诊断规则、阈值设定和操作风险等内容，物理系统能够不断提高抗风险能力。

这能帮助企业根据单个设备的具体情况安排理想的维护计划和性能优化方案。

在预测性维护算法部分，分别构建故障诊断和故障预测模型，如CNN模型、LSTM（长短期记忆）网络模型和随机森林模型，利用场景感知的特征进行模型的训练和验证。

针对不同的应用场景，分别利用迁移学习算法和滤波算法实现数字模型仿真和数据驱动算法的有效融合，从而提高预测性维护精度和可行性。

6.5.4 应用案例

参考文献给出了一个针对数控机床的预测性维护案例。

针对数控机床故障数据可获取、难标记的应用场景，采用基于迁移学习的数字孪生模型与数据融合的预测性维护方法，如图6-23所示。

例如，机床轴承和滚珠丝杠的寿命预测与故障诊断应用中，由于轴承和滚珠丝杠的额定寿命较长，造成运行数据可采集但性能退化标记可行性不好，此时可以应用基于迁移学习的融合方法。

通过数字孪生故障模型可以进行仿真，以获取机床性能退化的模拟传感数据，利用仿真数据进行数据驱动模型的训练；

然后将训练好的模型迁移到实际应用环境中，将实时获取的传感数据输入到迁移后的模型，并微调模型的修改，从而可以较快速准确地输出预测诊断结果，而不需要复杂的数据算法构建和长时间的模型训练。

基于迁移学习的融合方法解决了设备性能退化数据难以标记和模型训练资源不足的问题。

图6-23 基于迁移学习的数字孪生模型与数据融合的预测性维护

【声明】内容源于网络

数组智控产业发展科技院

以AI技术为底层能力，聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域，提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。

内容 986

粉丝 0

数组智控产业发展科技院以AI技术为底层能力，聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域，提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。

总阅读1.6k

粉丝0

内容986