杨周旺教授团队新书连载｜第二章数据层：AI 原生的设计过程数据基座- 大数跨境

首页

杨周旺教授团队新书连载｜第二章数据层：AI 原生的设计过程数据基座

合肥人工智能与大数据研究院

2026-06-15

导读：工业设计智能体基础理论和关键技术

点击上方

蓝色

关注我们

第二章

-数据层：AI原生的设计过程数据基座-

第一章（绪论）已阐明工业设计智能体需要数据层、工具层和 Agent 层协同工作，其能力边界首先受限于它所“看见”的数据。本章（数据层）回答工业设计智能体究竟应当“读什么”。对于传统 CAD 流程而言，STEP模型、网格、图纸等各有明确价值，它们分别服务于跨系统交换、显示渲染和人工审阅；但它们主要描述模型“是什么”，难以完整呈现模型“如何生成”、参数和约束“如何关联”、设计意图“如何保持”，这对于需要理解、规划和修改设计过程的智能体而言是远远不够的。因此，数据层的核心任务，是建立CAD模型（结果表示）的可执行过程表示，即把草图、约束、参数、特征等建模历史顺序、边界引用和工程语义组织为 AI 可读取、可回放、可编辑、可验证的数据基座。本章围绕三个问题展开：为何需要从“结果表示”转向“过程表示”？HistCAD 如何把几何、参数、约束和语义组织为统一建模序列？如何构建AI可消费的工业设计知识库？理解这些问题，读者应能明确智能体到底“读什么”，以及过程表示为何是工具执行与智能体规划的共同语言。

2.1

从“结果表示”到“过程表示”的范式转变

结果表示是现代工业软件体系的重要基础。以 STEP 文件常见的 B-Rep 结果表示为例，其作为中性格式支持在不同软件之间进行交换，但其缺乏设计意图，难以支持在CAD软件中进行意图驱动的编辑。在AI环境下，结果表示的瓶颈进一步凸显，大模型和智能体不仅要读取几何结果，还要理解模型的构造逻辑、约束关系和可编辑边界。于是，一个新的问题被提出：面向工业设计智能体，我们究竟需要什么样的数据表示？它既要继承结果表示在几何精确性和工程交换方面的价值，又要能够表达可执行的建模过程、参数约束和设计语义。这正是从“结果表示”走向“过程表示”的基本出发点。

2.1.1 结果表示的价值与边界

如图 2.1 所示，工业设计模型可以以多种形式存在，常见数据形态包括商软CAD私有格式文件、STEP/B-Rep、网格、点云、工程图，分别服务于不同应用，是现代工业软件体系的重要组成部分。

图 2.1：CAD模型的各种表示

商软CAD私有格式文件并不是严格意义上的结果表示。以 NX 的 PRT、SolidWorks 的 SLDPRT 等为例，这类文件在原软件环境中通常保留较完整的特征树、草图、参数和约束等全量信息，因而具有较强的可编辑性。但这些全量信息通常封装在特定软件中，格式封闭，跨平台解析难度大，不适合作为跨平台工业设计智能体的公共输入。

STEP 适合精确表达实体边界和拓扑关系，也常用于跨系统交换和长期归档。但它们更关注最终几何结果，通常不完整保留建模历史、参数依赖、草图约束和设计意图。同时，对于大模型和智能体而言，复杂的拓扑图结构也无法天然适合直接生成和编辑。

网格和点云更适合显示、扫描、仿真前处理、3D 打印和逆向工程。它们能够描述形状或采样结果，但缺少明确的参数、特征、约束和可执行建模过程，通常需要经过重建才能回到可编辑的CAD模型。

工程图通过视图、尺寸、公差、剖面、符号和技术要求表达设计与制造信息，是工程交流和人工审阅的重要载体。它能够传递大量制造语义，但其本质是二维投影表达，需要依赖读图规则和工程经验才能恢复CAD模型的三维结构。

表 2.1：不同CAD表示的价值与局限

由此可见，结果表示并不是无用的。相反，它们构成了现代工业软件体系的基础，承担着交换、显示、制造、检测和归档等关键任务。但在 AI 环境下，尤其是在面向 CAD 模型生成与编辑时，依靠结果表示是远远不够的。智能体不仅需要知道模型“是什么”，还需要知道模型“如何构造”、参数“如何驱动”、约束“如何保持”、特征“如何依赖”以及修改后“如何验证”。

2.1.2 AI 原生数据层的三项要求

面向工业设计智能体的数据层，其需要在开放性、完整性和模型可用性之间取得平衡，使设计过程既能被工程系统执行，又能被大模型和智能体稳定读取、生成和验证。具体而言，AI 原生数据层至少需要满足三项要求：明文格式与白盒可解析、信息无损与全量可复用、AI 可消费。

第一，明文格式与白盒可解析。AI 原生数据层应采用结构公开、字段明确、引用关系清晰的表示方式。草图、参数、约束、特征操作和边界引用等信息，需要以稳定的数据结构组织起来，使不同系统能够解析同一设计过程。例如，尺寸约束应明确关联到对应几何对象，参数应能够追溯到所驱动的特征，圆角、倒角等操作也应给出可重新定位的边界选择信息。若设计过程只保存在封闭文件或私有接口中，系统虽然可能打开模型，却难以跨平台理解、迁移和复用其中的建模逻辑。

第二，信息无损与全量可复用。过程表示可以简化冗余结构，但不能丢失支撑重建、编辑和验证的关键信息。除几何基元外，单位、坐标系、尺寸参数、几何约束、特征顺序、布尔语义、边界选择线索和验证结果都应被明确记录。只有这些信息得到保留，历史模型才能从一次性文件转化为可检索、可重建、可迁移和可复用的设计资产。

第三，AI 可消费。AI 原生数据层应能够把连续的几何对象和复杂的建模过程转化为离散、紧凑、结构稳定的 token 序列，使得大模型能够像处理文本和代码一样读取、生成和修改建模过程。

表 2.2：AI原生数据层的要求

2.1.3 过程表示：可执行建模过程的结构化记录

如图 2.2 所示，过程表示关注的不是模型最终呈现出的几何外形，而是模型如何被一步步构造出来。它以建模操作序列为主线，把草图、约束、参数、特征操作、布尔关系、边界引用和执行顺序组织在同一数据结构中，使设计过程能够被读取、回放、修改和验证。

图 2.2：逐步建模过程

过程表示不同于 CAD 软件的宏录制，鼠标点击、视角切换、临时草图和撤销操作未必都具有长期复用价值。面向工业设计智能体的数据层更关心可执行建模过程中的关键结构：在哪个基准面上创建草图，草图中有哪些几何基元，哪些尺寸和约束决定形状，后续通过拉伸、旋转、切除、圆角或倒角等操作生成了哪些特征，以及这些特征如何依赖已有几何边界。

同时，过程表示的核心价值在于保留设计意图能够生效的条件。以带孔板为例，仅保存最终实体可以说明板上有孔；但过程表示还应记录孔径、孔距、孔心对齐关系、孔与基准边的距离约束，以及切除特征在建模历史中的位置。这样，当用户修改孔距或板长时，系统才能判断哪些参数应改变、哪些约束应保持、哪些特征需要重新执行。

因此，过程表示可以看作静态几何（结果表示）之外的一层“构造逻辑”。它既连接上层的设计意图，也连接下层的 CAD 执行环境。向上，它为智能体理解需求、检索案例和复用模板提供结构化信息；向下，它能够被几何内核或 CAD 后端重建为可验证模型。HistCAD 正是在这一框架性指导思想下，提出的具体建模序列表示协议：它把草图基元、显式约束、特征操作和边界引用组织为独立于具体 CAD 软件的中间语言，为后续 AI 生成、编辑和验证提供统一数据基础。

2.2

HistCAD 建模序列表示协议

面向工业设计智能体的数据层需要从结果表示转向过程表示。结果表示能够承担交换、显示、制造和归档任务；过程表示则进一步回答模型如何构造、参数如何驱动、约束如何保持，以及修改后如何回到可验证的 CAD 状态。

HistCAD 正是针对“过程表示”这一需求提出的建模序列表示协议。它将参数化 CAD 模型组织为可读取、可回放、可编辑和可验证的过程数据，使上层智能体能够生成和修改建模序列，也使下层 CAD 后端能够解释并执行这些建模序列。图 2.3 从数据覆盖和编辑结果两个角度概括 HistCAD 的作用：一方面，它面向多样化 CAD 模型组织可执行建模序列；另一方面，显式约束决定参数修改后模型能否保持原有设计关系。

图 2.3：HistCAD 数据集与约束感知可编辑性

本节将依次讨论 HistCAD 的定位与作用、建模与约束，以及建模序列的执行与验证。

2.2.1 定位与作用

HistCAD是一种面向参数化CAD建模过程的中间语言，也是过程表示的新标准。它聚焦于模型生成的构造逻辑：草图如何建立、参数如何驱动、约束如何保持、特征如何按历史顺序逐步生成实体。对工业设计智能体的数据层而言，HistCAD提供的正是一套可读取、可回放、可编辑、可验证的建模序列表示协议。

一个HistCAD模型由一组按历史顺序排列的建模操作步骤组成。每一步不仅记录所执行的特征类型，更完整记录该特征成立所依赖的必要且充分信息：基于哪个坐标系或参考平面、使用了哪些草图基元、受哪些尺寸约束与几何约束控制、采用何种布尔语义，以及是否引用已有实体边界。这些建模序列被CAD后端模块读取后，即可重新求解草图、生成实体，并在参数变化后沿建模历史重新执行相关操作。

数据层的AI原生要求，在HistCAD标准中通过以下组织机制得以落实：坐标系、草图、约束和特征操作以结构化建模序列保存，使不同系统能够解析同一设计过程；尺寸、单位、布尔语义、边界选择和历史顺序被一并保留，使模型从最终结果转化为可重建、可编辑、可复用的全量过程数据；紧凑的序列对象与扁平草图表示则减少了冗余，使大模型能够像处理文本一样读取、生成和修改建模过程。

表2.3：数据层AI 原生要求的 HistCAD 实现机制

由此可见，HistCAD的核心作用是在结果几何与具体CAD后端之间增加一层可执行的过程表示。向上，智能体可以读取、生成和修改HistCAD建模序列；向下，CAD后端可以解释并执行该序列。这一建模过程表示标准的建立，正是数据层从“存储结果”走向“承载过程”的关键一步。

2.2.2 建模与约束

HistCAD的建模信息围绕四类对象逐级展开：草图平面确定建模的空间起点，草图基元定义二维轮廓的几何构成，显式约束规定参数变化时必须保持的设计关系，特征操作则将二维轮廓转化为三维实体。四类对象依次递进，共同构成可执行建模序列的主体。

2.2.2.1 草图平面

参数化 CAD 建模通常从草图开始。草图作为附着在空间平面上的构造对象，需要同时保存二维轮廓和三维位置。HistCAD 用草图局部坐标系描述这一草图平面：设草图原点在世界坐标系中的位置为 tₛ，欧拉角为 αₛ、βₛ、γₛ，对应旋转矩阵为 RXYZ(αₛ, βₛ, γₛ)，则局部草图点 (u, v) 在世界坐标系中的位置为：

其中，Fs 表示第 s 个草图平面。由此，同一组二维轮廓既可落位于基准平面，也可附着于已有实体的参考平面，为后续拉伸、旋转和扫掠提供统一的几何基础。

2.2.2.2 草图基元

表2.4所列的线段、圆、圆弧、椭圆、椭圆弧和B样条曲线，构成HistCAD草图的基础对象。所有后续的连接关系、尺寸约束和几何约束，均作用于这些基元或其端点、中心点等局部对象之上。

表 2.4：HistCAD 草图基元的参数化表达

HistCAD对草图轮廓采用扁平化表达：将共享边界拆解为可复用的线段、圆弧等基础草图基元，再通过连接关系与对称差规则恢复特征所需的封闭区域。这一方式既减少了重复边界记录，也使同一条线段或圆弧在多重区域关系中保持一致，确保尺寸与约束能够落在明确的草图基元上。

这一扁平化思想可以用对称差关系表达。设层级草图中被选中的区域为，其边界环为，其中的子基元为，∆表示对称差，则 HistCAD 的扁平轮廓可表达为：

上式体现了边界的奇偶规则：共享内部边界成对抵消，外轮廓和孔边界得以保留。等价地，若 N(e) 表示某个子基元 e 出现在选中区域边界中的次数，则 e 属于扁平轮廓当且仅当 N(e) 为奇数。由此，HistCAD 通过更扁平的草图对象和区域选择关系，即可恢复后续特征所需的封闭轮廓。

图 2.4：层级草图表示与 HistCAD 扁平草图表示

2.2.2.3 显式约束

草图基元和封闭轮廓确定之后，显式约束进一步规定：当参数发生变化时，哪些关系必须继续成立。尺寸约束规定长度、半径、直径、角度和距离；几何约束规定重合、平行、垂直、相切、同心、相等等关系。在工程模型中，这些约束承担着保存设计关系的核心职能。

在 HistCAD表示标准中，一条草图约束由约束类型、对象引用和参数共同定义，记为：

cₖ = (τₖ, Oₖ, pₖ).

其中，τₖ 为约束类型，Oₖ 为约束指向的草图基元或其上的端点、中心点等局部对象，pₖ 为尺寸值、方向或其他参数。

表 2.5：HistCAD 草图约束的类型和指向

以法兰类零件为例：外径、内孔径、安装孔数量与孔距圆直径可能随规格变化，而安装孔按等角间隔布置、孔阵列与中心孔同心、孔边距满足安全要求，则属于必须保持的设计关系。这些关系需转写为HistCAD可表达的约束组合——同心关系落于中心孔与孔阵列基准圆的中心约束，孔径一致落于相等或直径约束，孔距圆落于距离或半径约束，等角间隔则可通过角度、镜像或相邻孔中心关系加以表达。

显式约束进一步区分“几何可达”与“意图保持”。模型在参数修改后能够重新生成，表明其达到了有效的CAD状态。孔系相对基准圆的定位关系、重复轮廓的尺寸一致性、成对特征相对基准线的对称关系等设计意图，还需要通过相关约束的保持情况来确认。对工业设计智能体而言，达到有效 CAD 状态和保持设计意图需要同时成立。

图 2.5 展示了同一类参数编辑在约束保留程度不同时的差异。仅保留闭合关系的序列也可能完成一次重建；完整保留同心、平行、垂直、相切、相等等约束时，参数变化会沿着设计关系传播。

图 2.5：显式约束对参数编辑稳定性的作用

2.2.2.4 特征操作

草图和约束确定二维截面后，特征操作将其转换为三维实体。HistCAD表示标准中的特征操作可分为两类：草图类操作（拉伸、旋转、螺旋扫掠等）将二维轮廓生成实体；边界类操作（圆角、倒角等）则在已有实体上施加修饰。

表 2.6：HistCAD 特征操作的过程表示

建模历史的顺序具有明确的工程含义。同样的草图和尺寸，若先拉伸再切孔，或先生成孔阵列再倒角，后续编辑的影响范围可能截然不同。工业设计智能体在修改模型时，必须明确某个参数属于哪一步、某个特征依赖哪些前序几何、某个修饰操作作用于哪些边界。HistCAD通过序列化的建模步骤，为这种依赖关系提供了可读取的结构化信息。

圆角和倒角是过程表示中最常用的边界操作，它们通常作用于已有实体的边，但“边”在CAD系统中往往是一次几何求解后的拓扑结果。若直接用边序号或内部UID记录目标边界，该引用仅在特定软件和特定模型状态下成立——参数修改、布尔运算或模型重建均可能导致边界分裂、合并或重新编号。面向跨CAD后端执行的需求，HistCAD采用三维参考点描述目标边界的位置线索，使执行后端在重建后依据局部几何重新定位边界，再执行相应圆角或倒角操作。

建模与约束共同完成了HistCAD建模序列的主体表达：草图平面与二维基元指明模型的起点与轮廓构成；显式约束规定变化时哪些关系必须保持；特征操作与历史顺序则描述二维轮廓如何逐步生成三维实体。四者逐级递进，为后续的执行与验证奠定了完整的语义基础。

2.2.3 执行与验证

HistCAD序列在完成建模与约束的组织后，必须进入CAD工具链接受检验。这一检验沿“执行—编辑—验证”三层逐级展开，共同构成过程表示进入工具层的验收条件。

执行是基础门槛，体现为三重递进能力：建模序列可被解析，草图可被求解，特征可按历史顺序逐步执行并最终重建为有效CAD模型。只有完整通过这一链路，过程表示才具备进入工具层的基本资格。

编辑在执行基础上进一步检验变化的传播能力。当尺寸或特征参数发生变化，相关草图约束、特征参数与建模历史须协同决定模型的重新求解路径。以孔径、间距、厚度或圆角半径的修改为例，同心、等角间隔、相切、相等或最小距离等设计关系应在约束体系中保有明确的作用位置。编辑的可靠性，由草图基元、尺寸约束、几何约束与特征顺序共同支撑。

验证则将检验权交给工具层。CAD后端可对草图求解状态、特征执行状态及最终模型有效性进行系统性检查；围绕具体任务，还可进一步核验指定尺寸与几何关系在参数修改后是否得以保持。由此，智能体生成的建模序列便可通过外部执行器获得反馈，并被纳入后续的修改与评测闭环。

综上，可执行确保序列能够生成模型，可编辑确保参数变化能够沿既有建模过程传播，可验证确保这一过程能够被CAD后端和外部规则所判定。至此，本节完成了单个CAD模型的过程表示问题。下一节将讨论当多个模型属于同一设计族时，数据层如何在HistCAD之上封装更高层的参数化模板。

2.3

工业设计知识库与参数化模板

工业设计中的复用对象通常以设计族的形式存在。法兰、支架、轴套、连接板和壳体开孔结构等模型，在不同规格下会改变尺寸、数量或局部结构，但必须保持共同的设计关系。如果数据层仅保存单个模型的HistCAD序列，虽能完整记录一次建模过程，却难以表达同一类模型如何被重复生成（复用）和受控修改——这正是参数化模板所要解决的问题。

参数化模板位于HistCAD序列之上，面向设计族封装了四类高层信息：可变参数及其合法取值范围、参数之间的约束关系、可选的结构变体，以及模板的适用边界。实例化时，模板接收用户或智能体给出的目标参数，完成关系校验与变体选择，进而展开为具体的草图尺寸、约束关系、特征操作和边界修饰，最终生成可执行的HistCAD序列。图 2.6 展示参数化模板到 HistCAD 序列的实例化路径。

图 2.6：参数化模板到 HistCAD 序列的实例化路径

表2.7进一步区分了模板层、HistCAD层和CAD后端三层的任务分工：模板层保存设计族知识与变体规则，HistCAD层保存具体实例的建模过程，CAD后端负责求解、执行与反馈。这三层逐级展开，构成了从“一类模型”到“一个模型”再到“一个可验证实体”的完整数据通路。

表2.7：参数化模板、HistCAD 序列与 CAD 后端的分工

2.3.1 从实例模型到设计族

单个 CAD 模型对应一个确定规格，尺寸、孔数、特征顺序和局部修饰已经具体化（实例化）。设计族则描述一组相关模型的共同结构与变化空间：外形尺寸可在合理范围内调整，关键设计关系持续成立，局部结构可按场景切换，整体功能语义保持一致。当数据层将实例组织为设计族后，模型复用便从“复制旧文件”提升为“调用可实例化的知识对象”。

以法兰模板为例，外径、厚度、内孔径、安装孔数量、安装孔直径和孔距圆直径可作为高层变量。与之配套的复用规则是：安装孔阵列围绕中心孔均布，孔阵列与中心轴同心，孔边距满足最小阈值，厚度落在可制造范围内。这些变量与规则，共同构成了法兰设计族的可复用知识。

从实例模型到设计族的提升，使知识库能够回答两类关键问题：已有模型如何生成？相关模型如何变化？HistCAD为前者提供了可执行的过程出口，参数化模板则为后者提供了面向设计族的知识封装。二者互补，构成了数据层从“记录一个模型”到“管理一族模型”的能力跨越。

2.3.2 参数化模板的组成

参数化模板由四类信息构成，由内而外依次定义：什么可以变化、什么必须保持、什么可以切换、什么范围适用。表 2.8以法兰为例，列出了参数化模板的组成。

设计变量是模板的第一类信息，通常来自用户需求、标准件规格、功能尺寸或制造条件，如长度、直径、孔数、壁厚、倒角半径和安装间距。变量的命名与含义面向工程对象，使智能体能够直接处理“安装孔数量”“孔距圆直径”等具有明确工程语义的设计参数。

设计关系是模板的第二类信息，规定变量变化时哪些约束必须持续成立，包括尺寸依赖、几何关系、装配关系、制造边界和标准化规则。以法兰为例，孔距圆与外径之间须保留合理边距；以支架为例，安装面、承力筋与孔位之间须保持方向与厚度关系；以轴套为例，内外径与壁厚之间须满足加工与强度要求。这些关系将工程规范固化为模板内可校验的约束网络。

结构变体是模板的第三类信息，用于描述同一设计族在不同场景下的局部分支。法兰可选凸台、沉孔、定位止口或外缘圆角，支架可选加强筋或减重孔。变体规则将可选择的子结构纳入统一模板，使智能体能够根据参数条件和任务需求自动匹配并生成合适的实例。

适用边界是模板的第四类信息，界定模板的合法使用范围，包括零件类别、工艺条件、参数上下限、标准来源和企业经验来源。适用边界为检索、调用和审核提供依据，也使模板库能够随标准演进和工艺变化持续维护与更新。

四类信息协同作用：设计变量提供可调参数入口，设计关系给定约束条件，结构变体赋予局部灵活性，适用边界确保调用安全。由此，参数化模板将分散的设计经验封装为可计算、可复用、可治理的结构化知识单元，为上层智能体提供了标准化的调用接口。

表2.8：参数化模板的组成

2.3.3 模板实例化：从高层参数到建模序列

模板实例化是将设计族知识展开为具体建模过程的关键步骤。智能体选择模板并给出目标参数后，系统依次完成如下操作：依据变量关系进行参数校验，根据条件确定结构变体，再将高层参数映射为草图尺寸、几何约束、特征顺序和边界修饰，最终生成可执行的HistCAD序列。这一过程可形式化抽象为：

SHistCAD= I(T,θ,v).

其中，T 为参数化模板，θ 为智能体输入的高层设计参数，v 为结构变体，I为实例化过程，SHistCAD 为生成的可执行建模序列。该公式揭示了明确的层级分工：模板组织设计族的变化规则，HistCAD序列承载具体实例的建模步骤。

以法兰模板为例，实例化过程先根据外径、厚度、内孔径、孔数和孔距圆直径计算草图尺寸，同步检查孔边距、孔间距和厚度范围；随后生成包含圆形轮廓、同心关系、均布孔位、拉伸、切孔及倒角或圆角等步骤的完整HistCAD序列。对智能体而言，这意味着“选择一个法兰规格”的高层意图，被自动转化为CAD后端可直接执行的建模数据。

因此，参数化模板为HistCAD序列提供了面向设计族的标准化复用入口：智能体在模板层完成规格与变体选择，在HistCAD层获得可执行实例，在工具层完成重建与检查。模板实例化，构建了从“一类模型”到“一个模型”再到“一个可验证实体”的完整通路。

2.3.4 模板库与工业设计知识库

当参数化模板被系统化地组织、索引和管理时，便构成了工业设计知识库的重要组成部分。知识库中的对象不仅包括模板本身，还涵盖模型实例、标准参数、常见变体、适用条件、版本来源、验证记录和使用反馈。智能体可据此按需检索模板，比较不同设计族的适用范围，并在实例化后调用工具层完成重建与检查。

模板库的核心价值在于提升复用质量。传统复用往往依赖工程师打开旧模型、复制特征、手动修改尺寸，经验分散且难以追溯。模板库则将工程经验整理为可检索、可检查、可执行的结构化知识。对于重复度高的工业零件，模板显著降低了建模成本；对于必须保持设计关系的任务，模板确保参数修改能够沿既定约束关系正确传播。

模板库并非一成不变，而是随着工程实践持续演进。新的产品规格、制造工艺、企业标准和使用反馈，都会动态调整模板的适用边界。数据层围绕每个模板保存版本、来源、验证结果和使用记录，使其从一次性脚本发展为可持续治理的知识资产。

由此，本节将数据层的能力从单个模型的过程表示推进到设计族知识的系统封装。接下来的问题是：大量已有设计资产仍分散在原生CAD文件、STEP、工程图、网格、点云和技术文档中，必须经过逆向重建与标准化，才能进入统一的过程表示数据层。这恰是下一节将要解决的关键问题。

2.4

多源异构数据的过程重建与标准化

前文已明确AI原生数据层的目标形态：单个模型应组织为HistCAD建模序列，设计族知识应封装为参数化模板和知识库对象。由此，数据层的重点任务从“需要什么样的数据表示”转向“已有工程资产如何进入这一表示体系”。现实中的企业存量资产并不天然具备过程表示，而是分散在历史CAD文件、交换模型和工程图中，各自保存着几何、拓扑、尺寸与约束等碎片化信息。

多源异构数据的过程（逆向）重建与标准化，正是将这些信息转化为过程表示数据的接入机制。过程重建是在可获得证据的基础上，恢复足以执行、编辑和检查的候选建模过程。标准化则规定这些候选建模过程必须落入的共同表达空间。二者构成“证据推断”与“目标约束”的耦合关系：重建从来源线索中生成候选对象，标准化限定这些对象进入HistCAD序列、参数化模板和知识库的接口条件。本节依次讨论存量资产可恢复信息的差异、面向HistCAD的重建路径，以及重建候选的标准化与验证。

2.4.1 输入差异：设计资产的重建线索

面向HistCAD的过程逆向重建，首先需判断存量设计资产能够提供何种重建线索。这里的输入差异，关键在于进入过程表示前的信息状态：建模步骤保留到什么程度，几何结构是否显式可解析，尺寸与标注能否落到明确对象。原生CAD、STEP/B-Rep和工程图是过程逆向重建的三种典型输入状态。

原生CAD提供最丰富的过程线索。特征树及其关联的草图、尺寸、约束和操作顺序，可作为过程抽取的主要依据。但这些线索通常绑定在具体软件的特征定义、参数命名、约束表达和边界编号中，核心问题在于将私有软件环境中的过程记录（私有格式）转化为可进一步处理的中性格式。

STEP/B-Rep则需从三维结果几何中反推候选建模结构。系统对实体进行局部特征识别，将识别出的局部结构作为候选特征，用于形成草图平面、轮廓、边界引用和特征顺序的初步假设。

工程图提供二维投影与标注线索。多视图、剖视、中心线、隐藏线、尺寸、公差和孔标注，共同表达三维结构、尺寸控制和制造要求。工程图中的线、视图和标注需建立对象对应关系，才能作为三维反推和参数整理的依据，核心问题在于将二维投影表达转化为可用于重建的空间结构线索。

表2.9：面向过程逆向重建的三种典型输入状态

2.4.2 逆向重建：从线索到候选过程

在明确输入线索之后，过程逆向重建需进一步将这些线索组织为候选过程表示。对于仍保留建模历史的原生CAD，重建以过程抽取为主；对于以结果几何或二维投影为主的STEP/B-Rep和工程图，重建以几何反推为主。两类方法共同完成从存量资料到HistCAD序列候选的转换。

原生CAD的过程抽取，目标是将软件内部的建模历史转写为软件无关的过程对象。系统从特征树及其关联草图、尺寸、约束、操作顺序和边界引用中提取有效步骤，并将特征定义、参数名称和对象引用整理为统一的中性表达，使其成为后续HistCAD标准化的输入。

STEP/B-Rep的几何反推，目标是从三维结果几何中恢复候选建模结构。平面、圆柱面、边界环、孔洞、圆角和倒角等结构，经局部特征识别后被转化为候选过程表示中的几何依据，用于形成草图平面、轮廓、边界引用和特征顺序的初步假设。

工程图的几何反推，目标是从二维投影表达中恢复三维结构线索。系统从图纸中提取轮廓线、中心线、剖视、局部视图、尺寸、公差和孔标注等信息，依据正交投影关系建立多视图对应，将二维线段、视图关系和标注关系转化为三维结构、尺寸参数和局部特征的候选描述。

由此，过程抽取与几何反推构成存量资产进入HistCAD的主要转换机制，解决的是“如何从已有资料中形成过程表示候选”的问题。这些候选过程还需经过对象统一、边界引用整理、执行检查和质量验证，才能成为稳定可用的过程表示数据。其中涉及的具体算法流程，将在5.3节进一步深入展开。

2.4.3 标准化与验证：候选过程的接收准则

过程抽取与几何反推得到的是候选过程，需进一步统一到HistCAD的对象规范中。标准化主要包括单位、坐标系、参数命名、草图平面、轮廓、特征操作、布尔语义和边界引用的统一，并保留来源、版本和置信度等元信息。经过标准化整理，不同来源的重建结果才能纳入同一套可执行、可编辑的过程表示协议。

标准化后的重建结果需按来源分别验证。原生CAD和STEP/B-Rep的重建结果，可调用CAD后端重新执行HistCAD序列，将生成模型与原模型进行几何比对，如三维交并比、关键尺寸误差或截面一致性检查。工程图的重建结果，可将三维模型重新投影为二维视图，再由视觉语言模型检查视图关系、局部结构、尺寸标注和制造要求的一致性。

通过验证的重建结果可作为HistCAD实例正式入库。对于稳定覆盖同一设计族的结构，数据层还可进一步抽取高层变量、约束关系、变体规则和适用边界，使其沉淀为参数化模板和知识库对象。由此，标准化与验证不仅完成单个重建结果的可用性确认，也为后续模板复用和知识库组织提供了入口。

综上，存量工程资产进入AI原生数据层的路径已经明确：原生CAD、STEP/B-Rep和工程图分别提供过程、几何与标注线索；过程抽取与几何反推将这些线索组织为HistCAD候选序列；标准化与验证则确认其可执行性、可编辑性和来源可信度。经过这一转换，历史资料不再是孤立文件，而成为可被AI消费学习、工具执行和智能体调用的过程数据。下一节将进一步讨论HistCAD数据集如何作为这一数据层的工程化示范，并通过可编辑性评估、开源工具和企业数据主权，构建面向工业设计智能体的数据生态。

2.5

数据层的工程实践与开源生态

数据层的工程价值，必须通过可复现的数据集、可执行的评估任务和可进入产业现场的生态机制来体现。围绕HistCAD表示协议，可进一步构建开源数据集与可编辑性评估体系，使过程表示从概念定义走向可训练、可比较、可部署的工程对象。本节依次讨论HistCAD数据集的构建来源、面向工业可用性的评估方法，以及这一数据层对学术研究、工程实践和产业生态的意义。

2.5.1 数据集构建：学术与工业双源融合

HistCAD数据集的目标，是将可执行的参数化建模过程组织为可供AI消费学习和工具验证的标准化样本。每个样本以HistCAD序列为核心信息，与原始CAD模型、STEP结果、渲染视图和文本说明保持对齐。工程师和研究者既可检查序列能否重建几何，也可观察其中的草图、约束、特征和边界引用是否支撑后续编辑。

HistCAD数据集由学术数据集与工业数据集共同构成。学术部分包含162,143条可执行建模序列，其中HistCAD-DeepCAD 153,534条，HistCAD-Fusion360 8,609条。HistCAD-DeepCAD来自DeepCAD与SketchGraphs的对齐：DeepCAD提供大规模三维建模序列，SketchGraphs提供二维草图约束标注，构建过程中需将约束实体映射到草图子基元，分解相交曲线，恢复被特征操作使用的草图轮廓，并转移或补充可执行所需的约束关系。HistCAD-Fusion360则来自Fusion 360 Gallery中可恢复的学术样本，这些模型保留了原始CAD文件中的草图、尺寸和约束，经转换后形成对应建模序列。

工业数据集HistCAD-Industrial来自真实场景中的复杂零件和标准件模型，主要由原生CAD资料转换得到。工业数据集构建路径对应上一节的原生CAD过程抽取：从特征树及其关联草图、尺寸、约束、操作顺序和边界引用中提取有效步骤，将软件内部的特征定义、参数名称和对象引用整理为HistCAD序列，经标准化与执行验证后进入数据集，显著扩展了零件复杂度、操作覆盖和工程结构分布的范围。

图 2.7：HistCAD 数据集不同来源的模型样例

图 2.7 展示了 HistCAD 数据集中不同来源模型的样例，三类样本在几何复杂度、操作类型和约束分布上呈现明显差异。数据集建设的意义正在于此：将学术数据集的规模与约束线索、工业数据集的真实结构复杂度，整理到同一套过程表示中，使静态几何背后的构造逻辑可被学习和验证。部分数据已公开发布于开源平台。

代码仓库地址

https://anonymous.4open.science/r/HistCAD-68C2

数据集发布地址

https://anonymous-hf.up.railway.app/a/i1n9x5t85qu5

2.5.2 评估体系：从几何相似到可编辑性

工业CAD数据的质量需要同时考察几何相似度和编辑后的约束保持。一个模型能够重建出相似外形，还需在参数修改后维持原有约束关系，使孔位、对称、垂直、同心或长度关系继续成立。对工业设计智能体而言，真正可用的数据应同时满足几何可重建、参数可编辑和约束可保持。

基于HistCAD数据集，可构建面向可编辑性的评估任务。评估时，系统对样本中的目标尺寸或参数执行编辑，调用CAD后端重新求解草图并重建模型。若编辑后序列能够生成有效CAD模型，则达到“可编辑到达”；若在可编辑到达样本中，预设的关键约束仍然满足，则进一步保留了设计关系。图 2.8 给出了这一评估任务中的样本划分。

图 2.8：可编辑性评测任务的样本划分

这一评估体系使用三个指标刻画工业可用性（如表2.10所示）：ER衡量参数编辑后能否到达有效CAD状态；cPCSR衡量可编辑到达样本中待保留约束的满足情况；OES将到达有效状态和保持约束关系合并为更严格的综合结果。三者分工明确，使评估能够区分“模型能生成”与“模型可继续按设计意图修改”。

表 2.10：面向工业可用性的评估指标

该评估体系将数据质量从静态结果推进到编辑行为，要求生成模型在复刻三维外形的同时，输出可被CAD后端执行、可在参数变化后重新求解、可持续保持关键设计关系的建模过程序列。对于工业场景，这一点比单纯的几何误差更接近工业设计数据的真实使用方式。

2.5.3 多重价值：学术、工程与生态的共振

从学术上看，HistCAD数据层推动CAD生成研究从“结果表示”走向“过程表示”，定义了新一代AI原生工业设计数据表示新标准。它不仅记录模型最终几何形状，还记录了草图、参数、约束和特征操作如何逐步生成模型，从而统一了几何构造、设计语义与生成能力。以离散建模序列组织设计过程，适配大模型的词元输入范式，构成AI原生的CAD数据形态。

从工程上看，HistCAD数据层实现了数据解绑（不再被商业软件捆绑）与意图保留。全明文表示使建模过程可被查看、检索、审查、迁移和版本管理；参数化建模历史及约束关系随序列完整保存，使模型修改不再停留于结果几何调整，而是回到可执行的建模过程本身。

从生态上看，HistCAD数据层使数据主权回归企业。企业可将真实产品模型、设计族模板和工艺知识保留在本地数据层中，通过统一协议向智能体开放受控能力。在此基础上，智能体围绕企业数据资产提供建模、转换、评估和运维服务，形成以数据主权为核心的新一代工业设计服务生态。

2.6

本章小结与习题

数据层是工业设计智能体理解、生成和复用设计过程的基础层级。本章围绕“智能体究竟读什么”这一核心命题，依次构建了从单模型过程表示到设计族知识封装、再到存量资产接入与工程化验证的完整技术链路。过程表示不仅提供几何边界与工程交付基础，还保存建模逻辑；HistCAD表示协议将草图、约束、参数、特征操作和边界引用组织为AI可消费的明文建模序列；知识库与参数化模板将单个建模过程提升为可复用的设计族规则；过程重建与标准化使历史CAD模型、STEP/B-Rep和工程图得以进入统一过程数据体系；开源HistCAD数据集与可编辑性评估则为学术研究、工程实践和智能体服务生态提供了公共基准。

2.6.1 核心概念回顾

结果表示和过程表示对应工业设计数据的两种组织范式。B-Rep、STEP、网格、点云和工程图强调最终几何、拓扑边界、投影关系和制造标注，适合交换、检验和交付；过程表示强调建模步骤、草图约束、参数映射、特征顺序和设计关系等全量信息，适合智能体读取、生成、修改和验证。

HistCAD建模序列表示协议是AI原生数据层的过程表示标准。它以商业软件无关的中性表达记录草图基元、显式约束、尺寸参数、特征操作、布尔语义、操作顺序和三维边界引用，使CAD建模过程能够被序列化、词元化、执行和检查。其中，显式约束支撑参数编辑后的关系保持，边界引用支撑圆角、倒角等依赖已有几何的建模特征。

工业设计知识库与参数化模板负责将单个HistCAD序列进一步组织为可复用知识。知识库保存设计对象、功能语义、结构关系、约束规则、适用边界和历史案例；参数化模板则将设计族中的高层变量、约束关系、变体规则和生成逻辑封装起来，使智能体能够在已有设计经验基础上批量生成多规格实例。

多源异构数据的过程重建与标准化，是存量工程资产进入数据层的接入机制。原生CAD模型提供特征树、草图、尺寸和操作顺序，适合过程抽取；STEP/B-Rep提供三维几何和拓扑结构，适合几何反推；工程图提供多视图、剖视、中心线、尺寸和公差标注，适合二维到三维的结构线索恢复。重建候选结果需统一单位、坐标系、参数命名、草图平面、特征语义和边界引用，并通过CAD后端执行、几何比对或投影视图检查完成验证。

HistCAD数据集与可编辑性评估体系展示了数据层的工程化形态。开源学术数据集提供可复现的建模序列、STEP模型、文本标注、转换脚本和评估代码；可编辑性评估通过ER、cPCSR和OES三个指标，系统区分几何可重建、参数可编辑和约束可保持三个层级。开放协议、公开数据和评估工具提供公共基准，企业可在本地数据层中保存真实产品模型、设计族模板和工艺知识，围绕企业主权可控数据构建以智能体为核心的建模、转换、评估和运维能力。

2.6.2 本章习题

1. 比较结果表示与过程表示。选择一个带孔板或法兰零件，分别说明STEP/B-Rep、工程图和HistCAD序列各自能够保存哪些信息，并分析三种数据对几何检查、参数修改和智能体生成任务的支持差异。

2. 手写一个简单HistCAD建模序列。要求定义草图平面、主要草图基元、必要尺寸约束和几何约束，完成一次拉伸或切除操作，并指出序列中哪些字段支撑后续执行与参数修改。

3. 构建一个零件族参数化模板。选择法兰、支架或连接板等典型零件对象，提取高层变量、约束关系、变体规则和适用边界，说明这些内容如何从单个HistCAD样本实例提升为可复用模板。

4. 设计一个存量资产到HistCAD的重建流程。针对原生CAD、STEP/B-Rep或工程图中的一种数据输入，列出可用线索、重建起点、候选特征生成方法、标准化字段和验证方式。

5. 基于可编辑性评估指标分析样本质量。给定评测样本集合A、可编辑到达集合B和约束保持集合C，计算ER、cPCSR和OES，说明三类失败分别对应几何重建、参数编辑和约束保持中的哪些问题。

参考文献

[1] Dong X, Li C, Zheng P, et al. HistCAD: A Constraint-Aware Parametric History-Based CAD Representation, Dataset, and Benchmark with Industrial Complexity[J]. arXiv preprint arXiv:2602.19171, 2026.

[2] Ault H K. Using geometric constraints to capture design intent[J]. Journal for Geometry and Graphics, 1999, 3(1): 39-45.

[3] Camba J D, Contero M, Company P. Parametric CAD modeling: An analysis of strategies for design reusability[J]. Computer-Aided Design, 2016, 74: 18-31.

[4] Company P, Naya F, Contero M, Camba J D. On the role of geometric constraints to support design intent communication and model reusability[J]. Computer-Aided Design and Applications, 2020, 17(1): 61-76.

[5] Willis K D D, Pu Y, Luo J, et al. Fusion 360 Gallery: A Dataset and Environment for Programmatic CAD Construction from Human Design Sequences[J]. ACM Transactions on Graphics, 2021, 40(4): Article 54.

[6] Wu R, Xiao C, Zheng C. DeepCAD: A Deep Generative Network for Computer-Aided Design Models[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 6772-6782.

[7] Khan M S, Sinha S, Sheikh T U, et al. Text2CAD: Generating Sequential CAD Designs from Beginner-to-Expert Level Text Prompts[C]//Advances in Neural Information Processing Systems. 2024.

[8] Seff A, Ovadia Y, Zhou W, Adams R P. SketchGraphs: A Large-Scale Dataset for Modeling Relational Geometry in Computer-Aided Design[C]//ICML Workshop on Object-Oriented Learning. 2020.

[9] Zhang C, Polette A, Pinquié R, et al. eCAD-Net: Editable Parametric CAD Models Reconstruction from Dumb B-Rep Models Using Deep Neural Networks[J]. Computer-Aided Design, 2025, 178: 103806.

[10] Qin F, Lu S, Hou J, et al. Drawing2CAD: Sequence-to-Sequence Learning for CAD Generation from Vector Drawings[C]//Proceedings of the 33rd ACM International Conference on Multimedia. 2025: 10573-10582.

[11] Light R A, Gossard D C. Modification of geometric models through variational geometry[J]. Computer-Aided Design, 1982, 14(4): 209-214.

[12] Bettig B, Hoffmann C M. Geometric constraint solving in parametric computer-aided design[J]. Journal of Computing and Information Science in Engineering, 2011, 11(2): 021001.

[13] Koch S, Matveev A, Jiang Z, et al. ABC: A Big CAD Model Dataset For Geometric Deep Learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 9601-9611.

[14] Xu X, Willis K D D, Lambourne J G, et al. SkexGen: Autoregressive Generation of CAD Construction Sequences with Disentangled Codebooks[C]//International Conference on Machine Learning. 2022: 24698-24724.

[15] Li P, Guo J, Zhang X, Yan D M. SECAD-Net: Self-Supervised CAD Reconstruction by Learning Sketch-Extrude Operations[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 16816-16826.

[16] Dupont E, Cherenkova K, Mallis D, et al. TransCAD: A Hierarchical Transformer for CAD Sequence Inference from Point Clouds[C]//European Conference on Computer Vision. 2024: 19-36.

[17] Ma W, Chen S, Lou Y, et al. Draw Step by Step: Reconstructing CAD Construction Sequences from Point Clouds via Multimodal Diffusion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 27154-27163.

[18] Li J, Ma W, Li X, et al. CAD-Llama: Leveraging Large Language Models for Computer-Aided Design Parametric 3D Model Generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2025: 18563-18573.

[19] Wang R, Yuan Y, Sun S, Bian J. Text-to-CAD Generation Through Infusing Visual Feedback in Large Language Models[C]//International Conference on Machine Learning. 2025: 65326-65345.

[20] Ma W, Sun S, Wang R, Bian J. CADMorph: Geometry-Driven Parametric CAD Editing via a Plan-Generate-Verify Loop[C]//Advances in Neural Information Processing Systems. 2025.