阿里云开发者

2021-10-14

导读：算法框架设计和演进对于算法能力不足的探查、算法能力增强、算法能力扩充和算法能力输出都至关重要。

工业视觉智能平台算法框架设计与优化

工业视觉智能团队在完成多个质检项目后，提炼共性需求，构建了具备通用能力的工业视觉智能平台。算法能力作为平台核心，需通过高效框架实现能力沉淀、研究、扩展与输出。算法框架的设计直接关系到算法能力的可维护性、可扩展性与工业化落地效率。

视觉AI框架在工业场景的应用挑战与优化

图像识别中的分类、检测、分割算法广泛应用于工业质检等场景，面对任务多样、数据动态变化的需求，传统训练框架存在诸多瓶颈。团队针对现有框架问题提出系统性改进方案。

任务兼容性不足 → 统一多任务框架：传统框架通常仅支持单一任务类型，多任务训练需切换不同系统。改进后，分类、检测、分割等主流工业视觉任务统一集成于同一算法框架，提升开发与运维效率。
流程耦合严重 → 模块解耦设计：传统流程中数据处理、训练、评估高度耦合，导致资源浪费与流程僵化。新框架将核心功能拆分为八个独立模块，支持灵活编排与并行执行，显著提升资源利用率与实验效率。
评估能力薄弱 → 实战化评估体系：传统框架评估功能简略，难以发现模型与数据问题。新框架提供科学、详尽的评估指标，并在平台可视化展示，支持用户精准诊断模型表现，优化训练策略。
缺乏数据洞察 → 内置数据集分析：传统流程无前置数据分析，依赖经验配置。新框架集成数据集分析模块，可在训练前识别数据分布特征，提升训练合理性，减少盲目调参。
数据处理不可见 → 可视化调试支持：传统流程无法直观查看数据增强效果。新框架在数据载入阶段嵌入可视化模块，支持任意节点查看图像、类别与实例状态，便于调试数据处理逻辑。
部署对接缺失 → 一体化转换与部署：传统训练与部署割裂，需额外开发对接。新框架配备模型转换模块与配套部署系统，实现训练成果一键部署，多任务结果已验证对齐，降低工程成本。
扩展性差 → 可扩展架构设计：传统模块扩展复杂，影响团队协作。新框架基于可扩展模块开发，新增功能只需遵循规范注册算子，显著降低开发门槛，提升团队开发效率。

IVI算法框架架构详解

IVI算法框架是面向工业视觉的模块化解耦、可扩展深度学习训练框架，支持分类、检测、分割三大任务。框架由八大模块构成：数据准备、配置生成、数据载入、数据集分析、模型训练、模型推理、模型评估、模型转换。其中多个模块基于可扩展架构设计，便于功能迭代与团队协作。

图1：IVI框架主要模块示意图

图2：框架支持的主要任务示意图

图3：可扩展模块实现机制示意图

可扩展模块通过流程配置文件定义算子及执行逻辑，支持初始化、构建、执行三阶段控制。算子注册机制支持新功能快速接入，配置驱动的执行流程支持灵活调整顺序、次数与参数，实现高度扩展性。

以工业视觉智能平台典型训练任务为例，流程包括数据选择、训练、评估、模型提取四个阶段，分别调用底层各模块协同完成。平台任务配置页面支持模型选择、训练参数、图像预处理等关键参数设定。

1 数据准备模块

图4：平台训练流程示意图

图5：数据准备模块架构示意图

该模块基于可扩展架构，执行三步流程：读取数据配置文件、构建处理流程、执行多任务兼容的数据转换。输出结构支持分类、检测、分割任务共用，为多任务训练奠定基础。

图6：数据准备流程示意图

数据配置由默认设置与平台交互信息融合生成。用户可在平台选择数据集、标签类别及扩充倍数（如图9），触发对应算子执行。

图7：平台数据集添加界面

图8：数据准备模块算子集合

算子包括类别扩增、屏蔽、子图切割、异常清洗、数据划分等。处理后生成标准化图像与多任务兼容训练数据，支持OSS存储复用，避免重复处理。

图9：类别扩增倍数设置

图10：数据处理结果示意图

2 配置生成模块

图11：配置生成模块流程

该模块整合默认配置、数据准备结果与平台配置（如模型选择、学习率、分辨率等），生成全局配置文件，作为后续各模块的统一执行依据。

图12：平台训练配置入口

图13：模型选择配置

图14：训练高级参数配置

图14：图像预处理参数配置

3 数据载入模块

图15：数据载入模块架构

该模块读取全局配置，构建并执行数据载入流程，输入为数据准备模块产出。支持是否使用专家数据、分辨率、数据增强等配置。

图16：数据载入算子集合

模块支持运行与调试双模式。调试模式下可在任意节点嵌入可视化组件，查看图像、类别、实例状态变化。如图17所示，实例扰动增强效果可直观呈现，框代表实例，不同颜色区分类别。

图17：数据增强可视化效果

4 数据集分析模块

工业视觉智能平台核心模块解析

数据集分析、模型训练与评估等核心流程详解

数据集分析模块继承于可扩展模块，集成数据载入功能，共分为四个步骤

第一步：读取全局配置文件，获取图像预处理参数（如输入分辨率）及数据增强操作等信息
第二步：根据配置构建数据载入流程
第三步：构建数据集分析算子集合
第四步：串联数据载入与分析算子进行处理，结果可在工业视觉智能平台展示

图18：数据集分析模块示意图

图19：数据集分析算子合集示意图

模型训练模块

图20：模型训练流程示意图

图21：平台模型训练展示示意图

模型训练集成数据载入模块，分为四个步骤

第一步：读取全局配置文件，获取图像预处理参数、训练迭代数、模型保存间隔、预训练模型等信息
第二步：构建数据载入流程
第三步：构建算法模型及训练流程
第四步：串联数据载入与训练流程并运行

训练过程中，模型按设定间隔保存至本地或OSS，候选模型及生成时间在平台展示。训练日志同步存储，损失值（LOSS）通过通信机制传输至平台后端，并在前端展示LOSS曲线

该框架支持多任务兼容训练，数据载入模块统一设计，确保数据集分析可模拟真实训练流程，便于在训练前分析数据特性及增强效果，避免盲目调参。结合数据载入调试功能，可深入分析数据操作影响，优化算法方案

模型推理模块

图22：模型推理流程示意图

模型推理同样集成数据载入模块，包含四个步骤

第一步：读取配置，获取图像分辨率及待推理模型信息
第二步：构建数据载入流程
第三步：构建算法模型与推理流程
第四步：串联流程并执行推理，结果保存至本地或OSS

模型评估模块

图23：模型评估流程示意图

模型评估模块继承可扩展架构，集成数据载入，共四步

第一步：读取配置，确定评估指标
第二步：构建数据载入流程，载入GT（真实标注）与AI推理结果
第三步：构建评估流程
第四步：串联流程并执行评估

评估结果独立于训练与推理，不占用训练资源，提升整体效率。评估结果保存至本地或OSS

图24：模型评估整体评估部分示意图

平台评估结果分为整体评估、详细评估和检测结果展示三部分。整体评估展示图像与标注数量及核心指标（如目标检测任务中的mAP@不同IOU）

图25：模型评估详细评估部分示意图

详细评估支持按类别调节阈值，展示对应图像与标注数量，以及召回率与精确度曲线

图26：模型评估检测结果部分示意图

检测结果按正确检测、漏检、误检分类展示，点击图像可跳转至详情页，对比原图、GT框与AI预测框，便于逐张分析效果

图27：模型评估单张检测结果示意图

图28：平台多模型评估模型选择部分示意图

图29：平台多模型评估模型开始部分示意图

平台支持多模型评估，除常规算法指标外，还展示不同阈值下的性能表现及正确检测、漏检、误检分布，便于横向对比与决策

模型转换模块

图30：模型转换模块示意图

模型转换包含三个步骤

第一步：读取全局配置，如图像输入分辨率等参数
第二步：生成模型推理所需配置文件
第三步：将训练保存的原始模型转换为推理用加密模型

相关文件保存至本地或上传OSS。推理配置文件与加密模型与推理库配套设计，开箱即用，降低用户部署成本。框架兼容多种任务类型，模型与任务信息均写入配置文件中

三总结

本文介绍了工业视觉智能团队基于实战经验设计的IVI算法框架，并结合公共云平台功能进行了详细说明。面对工业场景中的图像域差异、分辨率变化、缺陷形态多样及背景干扰等挑战，算法持续向更高精度、更高效率和更强通用性演进

针对模型更新频繁、定制化高、精度要求严、响应速度快等业务需求，团队已形成完整的算法模型组合、方案设计、评估方法与行业产品化方法论

【声明】内容源于网络

阿里云开发者

阿里巴巴官方技术号，关于阿里的技术创新均呈现于此。

内容 3637

粉丝 0

阿里云开发者阿里巴巴官方技术号，关于阿里的技术创新均呈现于此。

总阅读38.3k

粉丝0

内容3.6k

工业视觉智能实战经验之IVI算法框架2.0