大数跨境
0
0

干货丨RPA+OCR如何提取电子合同信息

干货丨RPA+OCR如何提取电子合同信息 UB Store
2019-11-07
2
导读:RPA 电子合同中信息提取的总结与分享

随着UiBot的影响力在国内外不断增强,与合作伙伴签订的合同也变得越来越多,故此导致业务人员对合同关键信息的提取工作,变得日益繁重。


基于此,公司内部关于电子合同信息提取的自动化需求应运而生。


以下是关于电子合同信息提取的流程视图。


基于电子合同信息的提取,根据文件类型,分为两大类:Word和PDF


Word类

Word类的,会直接用RPA机器人UiBot从信息里面根据字符规则提取出关键信息,生成结构化数据,当然,也会遇见有些Word文档是补充协议等,没有相关要提取的信息,这类会根据业务规则直接在流程里面,根据模板判断划分出来。


PDF类

PDF类的,会根据里面信息分为两类,


一类是文字型,一类是图片型


文字的可以使用UiBot的窗口元素中的预制组件 获取元素文本 或者 文本中的获取文本 来提取关键信息。


(需要注意的是使用Acrobat的时候,需要在编辑中选择辅助工具来做如下图操作)


图片类的,就必须要使用OCR来进行识别,然后进行信息提取。因为上面有盖章等不同因素的影响,正确率并不能保证百分之百,甚至也没有关键性可以回流验证的信息,所以生成的结构化数据仍需要人工二次校验,才可以录入系统。


所以基于图片类的电子合同,并没有为业务人员节省多少时间,无非是图片类的电子合同占比并不高,所以影响不大。


当然此类电子合同都是使用公司固定的统一模板,所以总体业务并不复杂,但如果合同模板不能统一,各有特色,可能就需要根据各个模板的类型来做归类划分和业务异常处理。


另一方面,就技术上来说,也可以直接用源码模式来引用Office(Word,PDF文字类)的对象直接后台处理,相比较而言,处理速度会比较快一些。

END

UiBot

RPA专家

人机搭配,效率翻倍

好看的人都

【声明】内容源于网络
0
0
UB Store
让一部分人先用好RPA机器人
内容 1242
粉丝 0
UB Store 让一部分人先用好RPA机器人
总阅读1.6k
粉丝0
内容1.2k