

联通元景万悟基于昇腾发布MinerU 智能文档解析服务，推理性能提升50%！

华为计算

2025-10-31

文档解析主要是指将扫描件PDF、多格式网页、图文混排电子书等非结构化、半结构化的文档，通过技术手段提取关键信息，并转化为机器可识别、可编辑的结构化数据的过程。其意义重大，是打通信息孤岛，将沉睡的数据变为能够深度挖掘、高效利用的数据资产的关键环节。

开源智能文档解析工具MinerU模型的出现，大大提高了文档解析的效率。联通元景万悟智能体平台开发团队联合昇腾团队，通过技术攻关，基于昇腾推出了业界领先的MinerU 智能文档解析服务，推理性能提升50%。目前该方案已上线GitHub和Gitee，极大便利了MinerU文档解析工具在昇腾NPU上的部署。

双方团队基于原生MinerU模型打造智能文档解析服务，完成三大核心升级，提供更强大的功能和易用性。对比分析如下：

功能对比	原生MinerU	元景万悟 MinerU智能文档解析服务	本方案的优势
文档类型	仅支持PDF/图片	新增Word、PPT等格式	支持主流文档，未来还将支持WPS/OFD等格式
图片处理	返回本地文件路径	返回MinIO下载链接	图片调用更友好，方便云端应用集成
平台接入	无	作为模型服务直接接入元景万悟平台	零代码配置，兼容云端和本地服务

TorchAir（Torch Ascend Intermediate Representation）是昇腾为Ascend Extension for PyTorch（torch_npu）提供的图模式能力扩展库，支持用户使用PyTorch和torch_npu在昇腾设备上进行图模式的训练和推理。双方团队基于TorchAir对MinerU模型进行了系统性优化，实现了效率和性能的双重提升。具体包括以下两方面：

PyTorch图到GE图最优转换：基于TorchAir扩展库，在首次推理过程中，将PyTorch的FX计算图转换为昇腾GE计算图，实现在NPU上的PyTorch图模式推理，显著提升模型运行效率与整体性能。

前后处理优化：将部分算子替换成昇腾亲和的算子，轻量快速完成模型从GPU到NPU的迁移。另外，通过去除冗余操作，将多个算子下发合并成了一个GE图进行下发，减少总的算子下发耗时，进一步降低处理延迟，提升端到端推理性能。

经过以上优化，模型推理性能提升50%，相同的PDF文件，单页文档解析时间从优化前的0.46秒降低到现在的0.23秒。本次所采用的TorchAir优化方法，同样适用于小模型场景，能够在不改变模型结构的前提下，显著提升推理速度，具备良好的通用性与工程推广价值。

使用Tips，轻松拿捏

接入MinerU文档解析服务，只需简单两步：

（1）导入服务：在元景万悟平台的【模型管理】中，新建模型服务，选择“联通元景”供应商。可接入云端或本地服务，具体如下：

【接入云端服务】接入联通元景MaaS平台云端的MinerU服务，配置URL及API key等信息即可完成接入（可前往https://maas.ai-yuanjing.com/ 申请API Key）。

【接入本地服务】接入本地部署的MinerU服务，无需填写API Key，仅需将URL填写本地服务调用地址即可完成接入。