如今人工智能正全速赋能各行各业,与产业走向深度融合。AI应用规模化普及,不仅需要算法模型持续创新突破,同时也离不开稳固、高性能且能高效协同的底层算力与软件生态。对模型、应用框架做深度打磨,同时完成算力平台适配,已然成为AI落地应用、推动产业智能升级的核心关键。
此前昇腾系列产品一直同步支持业界主流模型,目前已完成全新PP-OCRv6系列模型基于昇腾环境的推理适配工作。适配后的模型运行稳定、性能出众,可为开发者与企业用户带来开箱即用的便捷体验,帮助大家在文本检测、文字识别等场景中,落地兼具高准确率与快推理速度的文档解析方案。
PP-OCRv6模型介绍和关键特性
PP-OCRv6模型是PaddleOCR中PP-OCR系列的全新迭代版本,采用了全新设计的 PPLCNetV4 作为检测和识别的统一骨干网络,在v5版本基础上进一步提升了能力的扩展和升级优化。如下评测图中,在文字检测和文字识别方面均领先上一代v5版本以及其他通用大模型。此外,PP-OCR系列首次发布了三档模型,包括tiny(1.5M)、small(7.7M)、medium(34.5M)。从浏览器端、嵌入式设备到服务器,三档模型涵盖从服务器到边缘部署场景,提供了更广泛的适用场景。
PP-OCRv6 与 PP-OCRv5 及视觉语言模型的性能对比
统一可扩展的模型族:提供覆盖1.5M至34.5M参数的三档完整OCR模型族。medium档达到86.2%检测Hmean和 83.2%识别准确率,可作为工业部署和大规模数据管线的高效生产级基础设施。
面向OCR的轻量级架构创新:提出一系列专为OCR任务定制的轻量级架构组件——(i) LCNetV4:集成结构重参数化的 MetaFormer 风格轻量骨干;(ii) RepLKFPN:利用膨胀可重参数化深度卷积实现大感受野的检测颈部;(iii) EncoderWithLightSVTR:基于局部-全局注意力和加性跳跃连接的识别颈部。
广泛的多语言与多场景泛化:单一模型扩展至支持50种语言和多种挑战性工业场景(如数码显示屏、点阵字符、轮胎印字等),显著提升了传统通用视觉语言模型难以覆盖的专业场景OCR性能。
PPLCNetV4骨干网络结构
昇腾适配与调优方案
基于Atlas 800T A2服务器,PP-OCRv6进行适配与调优。
基于昇腾的PP-OCRv6技术栈架构图
模型执行耗时分析:以PP-OCRv6 medium档位为例进行测试,并抓取Profilling分析发现,因为该模型为小模型,算子侧时间占比较低(2%左右);
同时使用昇腾性能数据采集工具Ascend PyTorch Profiler分析发现NPU侧free较多,主要瓶颈为host bound,因此主要优化方向是host侧。
性能调优手段
开启透明大页、开启CPU高性能模式、开启CPU细粒度绑核(如下图为细粒度绑核示例)充分利用鲲鹏处理器多核性能等手段,减少host侧下发瓶颈。
根据所使用的卡号查询Bus-Id
根据Bus-Id查询归属的NUMA node
根据NUMA node确定CPU核心范围,并使用细粒度绑核命令执行测试脚本
执行以下命令可开启透明大页:
echo always > /sys/kernel/mm/transparent_hugepage/enabledecho always > /sys/kernel/mm/transparent_hugepage/defrag
执行以下命令查看开启状态:
cat /sys/kernel/mm/transparent_hugepage/enabledcat /sys/kernel/mm/transparent_hugepage/defrag
显示为always表示成功开启透明大页。
最终测试结果
经过各项优化后,图片测试集在PP-OCRv6 medium档模型平均单次推理时间降低了9%。
PP-OCRv6各档位模型通过NPU和业界标杆识别精度的对比测试,误差小于1%,达成精度对齐。
基于昇腾软硬件,横向比较PP-OCRv6各档位模型和PP-OCRv5对应模型的性能测试,v6模型识别精度相比同档位v5有较大提升。
结语
本次PP-OCRv6模型基于昇腾的快速迁移适配,是昇腾AI基础软硬件平台对接主流深度学习框架与开源模型的典型实践。本次联调落地,验证了昇腾对行业内主流开源模型的稳定承载与深度调优能力,未来也将继续适配及优化业界主流模型,持续推进AI技术工程化与产业化,为各领域数字化、智能化升级,提供高可靠、高易用、自主创新的AI技术底座与整体方案,共同推动智能产业持续向前发展。
PaddleOCR官网:
https://www.paddleocr.com
PaddleOCR Github:
https://github.com/PaddlePaddle/PaddleOCR
PaddleOCR atomgit:
https://atomgit.com/paddlepaddle/PaddleOCR
PP-OCRv6 HuggingFace:
https://huggingface.co/collections/PaddlePaddle/pp-ocrv6
MindStudio Insight工具参考:
https://www.hiascend.com/document/detail/zh/mindstudio/70RC3/msinsightug/msascendinsightug/Insight_userguide_0002.html


