文档解析主要是指将扫描件PDF、多格式网页、图文混排电子书等非结构化、半结构化的文档,通过技术手段提取关键信息,并转化为机器可识别、可编辑的结构化数据的过程。其意义重大,是打通信息孤岛,将沉睡的数据变为能够深度挖掘、高效利用的数据资产的关键环节。
开源智能文档解析工具MinerU模型的出现,大大提高了文档解析的效率。联通元景万悟智能体平台开发团队联合昇腾团队,通过技术攻关,基于昇腾推出了业界领先的MinerU 智能文档解析服务,推理性能提升50%。目前该方案已上线GitHub和Gitee,极大便利了MinerU文档解析工具在昇腾NPU上的部署。
双方团队基于原生MinerU模型打造智能文档解析服务,完成三大核心升级,提供更强大的功能和易用性。对比分析如下:
功能对比 |
原生MinerU |
元景万悟 MinerU智能文档解析服务 |
本方案的优势 |
文档类型 |
仅支持PDF/图片 |
新增Word、PPT等格式 |
支持主流文档,未来还将支持WPS/OFD等格式 |
图片处理 |
返回本地文件路径 |
返回MinIO下载链接 |
图片调用更友好,方便云端应用集成 |
平台接入 |
无 |
作为模型服务直接接入元景万悟平台 |
零代码配置,兼容云端和本地服务 |
TorchAir(Torch Ascend Intermediate Representation)是昇腾为Ascend Extension for PyTorch(torch_npu)提供的图模式能力扩展库,支持用户使用PyTorch和torch_npu在昇腾设备上进行图模式的训练和推理。双方团队基于TorchAir对MinerU模型进行了系统性优化,实现了效率和性能的双重提升。具体包括以下两方面:
PyTorch图到GE图最优转换:基于TorchAir扩展库,在首次推理过程中,将PyTorch的FX计算图转换为昇腾GE计算图,实现在NPU上的PyTorch图模式推理,显著提升模型运行效率与整体性能。
前后处理优化:将部分算子替换成昇腾亲和的算子,轻量快速完成模型从GPU到NPU的迁移。另外,通过去除冗余操作,将多个算子下发合并成了一个GE图进行下发,减少总的算子下发耗时,进一步降低处理延迟,提升端到端推理性能。
经过以上优化,模型推理性能提升50%,相同的PDF文件,单页文档解析时间从优化前的0.46秒降低到现在的0.23秒。本次所采用的TorchAir优化方法,同样适用于小模型场景,能够在不改变模型结构的前提下,显著提升推理速度,具备良好的通用性与工程推广价值。
接入MinerU文档解析服务,只需简单两步:
(1)导入服务:在元景万悟平台的【模型管理】中,新建模型服务,选择“联通元景”供应商。可接入云端或本地服务,具体如下:
【接入云端服务】接入联通元景MaaS平台云端的MinerU服务,配置URL及API key等信息即可完成接入(可前往https://maas.ai-yuanjing.com/ 申请API Key)。
【接入本地服务】接入本地部署的MinerU服务,无需填写API Key,仅需将URL填写本地服务调用地址即可完成接入。
点击确定后,回到模型管理列表中可以看到刚才接入的:MinerU文档解析服务,表示已经接入完成。
(2)开启使用:在【知识库】中导入文件,解析方式选择【模型解析】,并选择已导入的MinerU服务,即可享受强大的解析能力。
升级后的元景万悟知识库,RAG智能解析与检索效果实现了质的飞跃。无论是文档的标题结构、复杂图表,还是令人头疼的数学公式,都能被精准解析和还原。
PDF原始文档 |
解析后的Markdown还原效果 |
|
|
欢迎各位开发者前往体验:
https://github.com/UnicomAI/wanwu
https://gitee.com/unicomai/wanwu
项目地址:
https://github.com/UnicomAI/DocParserServer
◆往期推荐◆


