-
非结构化数据处理难:许可证多为扫描件或照片,格式不一(分辨率、角度、光照条件各异),且包含大量手写体、印章遮挡及复杂版式,传统规则匹配或轻量级OCR难以准确解析。 -
人工审核成本高:大型医药企业日均需处理数百家新供应商/经销商的资质文件,人工逐字核对不仅耗时费力,且极易因疲劳导致漏审或误判。 -
动态合规风险高:许可证信息具有时效性,且经营范围、法人变更频繁,缺乏自动化手段难以实时发现资质过期或关键信息变更带来的合规风险。
-
针对扫描文档常见的模糊、倾斜、光照不均等问题,系统首先采用基于GAN(生成对抗网络)的图像增强算法进行去噪、超分辨率重建及透视校正,将非标准化图像转化为适合模型输入的高质量标准图。
-
目标检测(Object Detection):利用改进的YOLOv8或Faster R-CNN架构,精准定位许可证上的关键区域(如企业名称框、信用代码框、有效期框等),有效区分正文、印章、表格线等干扰元素。 -
序列识别(Sequence Recognition):采用CRNN(Convolutional Recurrent Neural Network)结合CTC(Connectionist Temporal Classification)损失函数,实现对中文字符、数字、字母的高精度序列识别。针对药品经营许可证特有的“国”字号字体、防伪底纹干扰,系统通过大规模微调预训练模型,显著提升了特殊字形的识别率。 -
版面分析(Layout Analysis):引入Transformer架构理解文档的全局结构,准确判断字段之间的逻辑关系,解决因印章遮挡导致的文本断裂问题。
-
企业名称:精确匹配工商登记全称。 -
统一社会信用代码:利用Luhn算法校验码机制进行二次验证,确保18位代码无误。 -
法定代表人:从复杂版式中分离人名,排除相似词干扰。 -
经营范围:完整提取多行经营范围描述,并进行关键词标准化映射。 -
发证机关与有效期:自动计算剩余有效期,预警临期证件。
-
真伪核验:将提取的“企业名称”、“信用代码”、“有效期”与国家药监局数据库或第三方工商库进行API比对,自动拦截证照过期、吊销或信息不符的企业。 -
经营范围匹配:自动分析供应商的“经营范围”是否涵盖拟采购的药品类别(如疫苗、麻醉药品等),规避超范围经营风险。
-
变更预警:若检测到企业名称变更、法人更换或经营范围变更,系统自动触发人工复核流程,确保合同主体一致性。 -
效期管理:提前30天自动提醒即将过期的许可证,避免业务中断。
-
识别后的结构化数据直接写入企业ERP或SRM系统,形成可检索、可分析的电子档案库,彻底取代纸质档案管理,满足GSP对追溯体系的严格要求。

