深度神经网络从发票文档中提取智能信息。
源代码
http://www.gitpp.com/pymanoid/invoicenet
深度神经网络从发票文档中提取智能信息。
长话短说
易于使用的 UI 可查看 PDF/JPG/PNG 发票并提取信息。
使用 Trainer UI 在您自己的数据集上训练自定义模型。
根据您的方便添加或删除发票字段。
单击按钮即可将提取的信息保存到您的系统中。

安装
乌班图20
InvoiceNet 已在Ubuntu 20.04上开发和测试,CUDA 版本:11.8、cuDNN 版本:8.9.7和Tensorflow v2.13.1。
要在 Ubuntu 上安装 InvoiceNet,请运行以下命令:
git clone https://github.com/naiveHobo/InvoiceNet.git
cd InvoiceNet/# Run installation script
./install.sh
install.sh 脚本将安装所有依赖项、创建虚拟环境并在虚拟环境中安装 InvoiceNet。
为了能够使用 InvoiceNet,您需要获取安装包的虚拟环境。
# Source virtual environment
source env/bin/activate

从发票文档中提取智能信息是一个典型的文档理解和信息抽取问题,深度神经网络在此类任务中表现优秀。以下是一个可能的技术方案:
数据准备:
收集大量的发票文档样本,这些样本需要包含各种格式、布局和字体。
对这些文档进行标注,标出需要提取的信息,如发票号、日期、购买方、销售方、商品列表、金额等。
预处理:
使用OCR(光学字符识别)技术将发票文档转换为可编辑和可搜索的文本。
对文本进行清洗,去除无关字符、噪声和冗余信息。
进行版面分析和文字定位,识别出文本中的关键区域和字段。
模型构建:
采用深度神经网络模型,如卷积神经网络(CNN)或循环神经网络(RNN)及其变体(如LSTM、GRU)来处理文本数据。
对于版面分析和文字定位,可以使用目标检测算法(如YOLO、SSD)或语义分割算法(如U-Net)。
对于信息抽取,可以使用命名实体识别(NER)技术来识别出文本中的关键实体,如发票号、日期等。也可以考虑使用基于规则的方法或正则表达式进行辅助抽取。
使用注意力机制(Attention Mechanism)来帮助模型更好地关注到重要的信息部分。
如果可能的话,可以考虑使用预训练模型(如BERT、ERNIE等)来提高性能。这些模型已经在大量的文本数据上进行了预训练,可以更好地理解文本语义。
训练与优化:
使用标注好的数据集来训练模型。
通过交叉验证、调整超参数和使用正则化技术来优化模型性能。
监控模型在验证集上的性能,防止过拟合。
后处理与验证:
对模型输出的结果进行后处理,如格式化、去重和纠错等。
使用测试集来验证模型的性能,确保它能够在真实的发票文档上准确地提取出所需的信息。
对于识别错误或遗漏的信息,可以进行人工校对和修正,并将这些结果反馈到模型中进行迭代优化。
部署与应用:
将训练好的模型部署到生产环境中,使其能够自动处理新输入的发票文档。
监控模型在实际应用中的性能,定期收集反馈并进行必要的调整和优化。
考虑与其他系统进行集成,如财务系统、ERP系统等,实现信息的自动化流转和处理。
深度神经网络从发票文档中提取智能信息。
源代码
http://www.gitpp.com/pymanoid/invoicenet
我们收集了 10000+ 开源项目 点击 阅读原文

