密级标识智能识别技术路径探讨- 大数跨境

首页

密级标识智能识别技术路径探讨

数字罗塞塔计划

2023-11-24

导读：档案本身已经解密，但其数字化副本中依然留有密级标识，这容易在利用服务过程中造成误导，按照要求必须准确定位密级标识并加盖解密章之后才能上网提供利用。

点

击

蓝

字

关

注

我

们

前言

随着档案信息资源建设的不断推进，各类机构的数字档案（包括档案数字化副本和电子档案）保有量呈爆炸式增长；同时，数字档案在上网提供利用过程中，首先需要确保档案信息安全，杜绝受控档案信息的无限制利用服务。另外，还有一种情况，档案本身已经解密，但其数字化副本中依然留有密级标识，这容易在利用服务过程中造成误导，按照要求必须准确定位密级标识并加盖解密章之后才能上网提供利用。

由于不同单位、不同年代档案的密级标识的形状、形式和位置五花八门（包括但不限于：圆形、方形、椭圆形、钢笔手写、毛笔手写、无框等等，还要区分黑白和彩色），要从海量数字档案中人工找出这些密级标识并加盖解密章，工作量巨大。

PART 01

系统框架

基于神经网络、自然语言处理、深度学习等AI技术的密级标识智能识别系统，可自动分析档案数字化副本，识别图像中的密级标识，并自动加盖解密章，极大节省人力成本，规范档案利用，提高档案开放审核的效率和质量。

密级标识智能识别系统的总体框架如下图所示：

上图所示，密级标识智能识别技术的实现路径大致分为三个步骤，下面分别进行介绍。

PART 02

智能OCR识别

智能OCR识别共分为三个阶段，第一阶段使用CNN(Convolutional Neural Networks，卷积神经网络)检测图像中的文本块/行,第二阶段使用Transformer模型对文本行进行识别，第三阶段通过微调持续提高OCR识别准确率。

第一阶段：检测

通过使用实例分割技术检测文本块/行，提取图像特征，获得特征图。通俗地讲：CNN就像一名警察，使用全景视角巡视整张图片(即特征提取)，观察哪些地方存在疑似文字（生成文本块/行），发现一块疑似文字区域后，CNN就对着这块区域放大监控镜头进行聚焦，进行文字区域特征提取，得到高清“近景”ROI特征(Region of Interest，感兴趣区域)。获得文字区域清晰图像后，CNN又像语言专家，它会解析文字内容，判断文字顺序，给每个文字一个识别结果，最终CNN输出文字内容、位置，并给出每个文字实例边界。

不同年代密级标识裁切定位示例如下：

50年代

60年代

70年代

80年代之后

第二阶段：识别

CNN将图像中的文本信息裁切定位后，接下来使用Transformer 模型识别每个文本行中的字符，将每个文本行的图像块作为输入，并将其转换成对应的文本序列（字标签序列或词标签序列），对识别出的文本序列进行后处理，例如去除不必要的空格、纠正可能的识别错误等，最后输出最终的识别结果，可以是文本字符串、文本框坐标或其他相关信息。

第三阶段：微调

上述两个阶段完成后，就可测试校验密级标识识别效果，校验完成后将密级标识识别测试中出现遗漏的密级标识单独分类汇总（以下简称“遗漏图章”），采取组合遗漏图章的方式重复上述两个阶段，再次将遗漏图章分类汇总。

若继续出现有遗漏图章筛查一直未通过或部分未通过情况，需设计和使用二分类机器学习模型，辅助文本区域检测和字符识别，其作用如下：

文本区域检测

辅助检测图像中包含文本的区域。将图像中的区域分为两类：包含文本和不包含文本。这有助于减少后续字符识别的计算量，只对包含文本的区域进行处理，提高效率。

文本行分割

在某些情况下，文本区域内可能包含多行文本。二分类模型可以帮助识别文本区域内的文本行边界，从而将文本区域进一步分割成单独的文本行，以便字符识别更精。

字符识别的感兴趣区域（ROI）选择

一旦确定了包含文本的区域，二分类模型可以帮助选择感兴趣的字符识别区域。这有助于排除图像中不相关的元素，集中精力在包含文本的区域上，提高字符识别的准确性。

去除噪声和非文本元素

二分类模型还可以用于检测和去除图像中的噪声和非文本元素。这有助于提高整体OCR系统的稳健性，减少误识别情况。

文本方向检测

文本可能以不同的方向出现，如横向或纵向，二分类模型可以用来检测文本的方向，以确保采用正确方向进行字符识别。

欺骗检测

可能会有恶意意图的图像，试图欺骗 OCR 系统，二分类模型可以用来检测和防止这种欺骗行为。

经过以上三个阶段的处理，密级标识识别准确率预计能够达到80%。

PART 03

以图搜图

要想密级标识识别准确率继续提升，还需采用图像向量相似度比较技术（即通常所说的“以图搜图”功能）。

最常用的以图搜图工具是ElasticSearch（简称“ES”），ES不仅用于文本数据的搜索和分析，也可用于图像向量相似度比较，ES主要功能如下：

近似搜索

ES可以存储图像的特征向量，通过计算查询图像与存储的特征向量之间的相似性来执行近似搜索，可用于查找与查询图像最相似的图像。

图像检索

可将图像特征（如使用CNN提取的特征向量）存储在ES中，并使用ES进行图像检索。

如上图所示，在ES中实现以图搜图通常需要经过以下步骤：

特征提取

使用深度学习模型（如CNN）来提取图像的特征向量，这些特征向量捕捉了图像的内容和结构信息。

索引构建

将图像的特征向量存储在ES索引中，每个特征向量对应于一个图像。

查询处理

当进行查询时，将查询图像的特征向量传递给ES，ES会计算查询图像与索引中存储的特征向量之间的相似性分数。

相似性排序

ES根据相似性分数对图像进行排序，以找到与查询图像最相似的图像。

结果返回

返回相似度最高的一组图像，比如最相似的Top10。

通过预训练密级标识库，计算每张密级标识图像的特征向量，得到一个ES图像索引库，又因为ES的近似计算和搜索功能，在实际操作过程中不断扩大图像索引库的覆盖范围，最终可涵盖国内各个年代使用的常规密级标识，以此库为基准并借助ES等工具开展密级标识检测、识别、向量相似度比较，以支持OCR识别中的检测与识别功能更准确地做出判断，使密级标识识别准确率提升至95%。

PART 04

人像识别

由于密级标识的敏感性，虽然通过智能OCR识别和“以图搜图”技术已将密级标识识别准确率提升至95%，但仍然不够，还是需要大量人工介入进行密级标识筛查，工作量并没有实质性降低。故需进一步提升密级标识识别精度，将识别准确率尽可能提升至接近100%（后续人工只需要按照一定比例抽检就可以了，从而大幅度降低工作量）。

此时就需使用到人像识别技术，尤其是人像打点技术。

人像打点

密级标识打点

人脸关键点打点是对人脸面部关键点进行标注、定位或者人脸对齐，标注出人脸面部关键区域位置，包括眉毛、眼睛、鼻子、嘴脸部轮廓等，常用来训练面部识别模型以及统计模型。

密级标识打点正是借鉴人脸打点技术，对密级标识关键点进行打点。密级标识关键点打点技术的优势有：

更精细

对比简单通过CNN进行图像区域定位与裁切，采用“人像打点”的方式定位与识别密级标识无疑更为精细。

更准确

从一个区域的定位、裁切然后进行文字识别，转换到直接识别图像与文字的点位组合，再进行特征向量比对，带来的是更高的识别率。

更全面

结合区域图像裁切和人像打点技术，优势互补，互相印证，全面提升识别准确率。

人像打点技术应用于密级标识识别时，通过图章打点来精准定位文字和印章，从而生成更加具体、精准、更符合实际需求的特征向量，大大提升识别准确率。经部分样本实际验证：70年代之后的密级标识识别准确率接近100%，70年代之前的密级标识识别准确率达99%。

PART 05

总结

综上，为全面提升密级标识识别准确率，前期需准备丰富多样的密级标识图像语料，预训练专门的模型，生成覆盖范围更广的特征向量集以匹配各种密级标识识别场景，用户现场部署后仍需结合实际情况进行微调和优化，进一步适配具体场景。系统设计时还需捋顺业务流程、技术路径、数据流程、集成框架，充分发挥各自技术优势，采取多路并行、反复迭代、整合兼顾的思路推进系统整体设计。

数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明，我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见，共同为人类文明的传承而努力奋斗！