大数跨境

OCR技术与档案数字化

OCR技术与档案数字化 紫软信息科技
2020-10-28
2
导读:什么是OCR? OCR是英文Optical Character Recognition的缩写,中

什么是OCR?

       OCR是英文Optical Character Recognition的缩写,中文含义为光学字符识别,也称为文字识别,是文字自动输入的一种方法。它通过扫描和摄像等光学输入方式获取纸张上的文字、图像信息,利用各种模式识别算法分析文字形态特征,与汉字的标准编码相比较从而判别不同的字符,并按通用格式存储在文本文件中,实现文本的编辑、检索和存储。

        OCR技术是一种快捷、省力的文字输入方式,实践证明其在档案信息数字化工程中的作用愈来愈显著。其运用过程一般使用扫描等光学输入设备读取纸张上的文字、图像信息到计算机能识别的格式,如JPG、FDF、TIF、BMP等,再通过OCR软件自动分析比较生成可编辑的文本文件。

工作原理

       OCR软件一般是由图像处理模块版面划分模块文字识别模块文字编辑模块等四部分组成。

       图像处理模块主要具有文稿扫描、图像缩放、图像旋转等功能。通过扫描仪输入后,文稿形成图像文件,图像处理模块可对图像进行放大,去除污点和划痕等处理,目的是为文字识别创造更好的条件,使识别率更高。

       版面划分模块主要包括版面划分、更改划分,即对版面的理解、字切分、归一化等,目的是使OCR软件将同一版面的文章、表格等分开,以便分别处理,并按照一定的顺序进行识别。

       文字识别模块是OCR软件的核心部分,主要对输入的汉字进行"阅读",对于汉字通常是一个字、一个字地辨认,即单字识别,再进行统一归类。文字识别模块通过对不同样本汉字的特征进行提取,完成识别,自动查找可疑字,具有前后联想等功能。

        文字编辑模块主要对OCR识别后的文字进行修改、编辑,如系统识别认为有误,则文字会以醒目的红色或蓝色显示,并提供相似的文字供选择,选择编辑器供输出等。所以随之OCR软件的不断完善和发展,越来越被图书、档案管理单位等需要成GB和TB容量的数据录入行业所倚重和青睐。

OCR技术与档案数字化的关系

       当前流行的档案数字化技术层面分析,档案的存储技术、载体性质、计算机运行和检索速度都在发生着日新月异的变化,但档案的检索技术从本质上还是没有改变,与传统手工目录检索一样依赖于档案案卷和卷内目录。

       随着OCR技术的不断完善,OCR软件的识别正确率趋向完美以及办公自动化软件的推广,档案检索技术得以突破目录检索的瓶颈,可以实现全文任何字符的检索。使档案信息检索技术实现了跨越式的发展,从更本上解决了档案用户面对浩瀚档案目录无所适从、束手无策的局面。

       从OCR技术的发明到实际应用一直没有脱离计算机数据库技术和文字输入背景,也就是OCR技术的产生是为了减轻批量文字输入、打印工作量、提高工作效率,而档案信息数字化的关键技术和工作也是海量文字的输入和检索,所以可以断定OCR技术的产生和发展是档案现代化管理或类似档案管理行业在发展过程中,存在批量文字输入计算机数据库时,代替人工单字或词组输入的最适合的方法之一。从技术层面讲两者的关系是相互依赖、相互发展、相互促进。

OCR技术在档案数字化中的应用

       主要过程是把纸质载体档案的信息内容利用高速扫描仪转换成计算机能识别的图像文件,如JPG、TIF或合成多页的PDF文件,再利用OCR软件的字符识别功能把不能编辑的图像文件和PDF文件中每个字符与标准的汉字数据库中字符对比,截取相同形状的字符并保存在文本编辑软件中,保持能编辑的状态,并可以进行自动标引或运用各类数据库软件的搜索引擎针对字符搜索,以达到档案信息的全文检索。

       在扫描生成页面后,OCR技术针对印刷体的页面文件一般识别率可达98%以上,在自动纠错、人工校对后,基本符合档案数字化的要求。从扫描和识别的速度分析,一般中档扫描仪每分钟扫描在40-60页面左右,配合主流OCR识别软件以及处理、分析、校对每页档案全文数字化用时在1分钟以内,装订50个页面的案卷数字化时间在30分钟左右。与人工单字符输入法相比,工作效率提高近十倍,工作强度成倍减少。运用OCR识别技术进行档案全文数字化,工作人员可以长时间连续工作,而纯人工输入连续工作的后果是差错率的居高不下,从而影响档案信息全文的检索和使用。

OCR技术的缺陷及解决方法

       经过OCR技术在档案数字化过程中的实际运用,其扫描高速、识别快捷、高效等优势显而易见,但是这毕竟是依赖于计算机和人工智能等技术,也存在一些先天缺陷,如针对手写字迹,特别是保存时间较长的历史档案,其识别率往往教低,甚至识别成一堆乱码,使人无法阅读

       针对这种OCR技术的缺陷,第一种弥补方法是进行扫描和OCR识别后,实行人工校对识别文字,尽量保持OCR文字与原始页面内容一致,虽然所需时间、精力较多,但毕竟可以实现档案全文检索,值得尝试和运用;

        第二种弥补方法是从OCR识别率极低考虑,从现在的OCR技术以及相关技术的局限性出发,只能考虑手工全文输入或扫描成图像文件后,放弃全文检索功能直接挂接到文件目录中,做到文件级目录检索。

        在针对一些陈旧纸质档案,页面泛黄、局部生有霉斑或受污染的档案,在OCR过程中也经常把其识别成文字或乱码。其弥补方法是在扫描成多页JPG或TIF或PDF文件后进行人工修复,把原来是文字部分以外的页面进行清洁处理(删除或复制成空白)。也可以对整个页面进行补光或柔化处理,使没有文字部分页面接近白色,识别过程中OCR软件不会把其当成文字或图像处理,从而达到档案信息数字化的要求。

总结END

       随着信息化社会的不断发展,计算机网络技术的不断普及,档案利用人群对档案信息的检索准确率、查全率的要求越来越高,而传统的案卷级和文件级目录检索技术已经无法适应当前网络时代的搜索要求,档案全文数字化是档案管理发展的必然趋势。

       采用高性价比的数字化方法,在最短的时间内把档案全文进行数字化是档案管理者必须考虑的发展战略,纵观并比较当前的各类档案数字化技术,使用高速扫描和OCR技术以及计算机全文数据库技术是实现档案信息数字化比较适合的方法。

(文章图片采集于网络;侵权告知删除)


【声明】内容源于网络
0
0
紫软信息科技
公司专业从事档案信息化相关业务的专业公司,为政府和企事业单位提供档案管理软件、档案整理、纸质档案数字化扫描服务及档案室建设咨询,建设项目专业档案整理扫描达标服务,以及相关的软件硬件产品及服务。
内容 261
粉丝 0
紫软信息科技 公司专业从事档案信息化相关业务的专业公司,为政府和企事业单位提供档案管理软件、档案整理、纸质档案数字化扫描服务及档案室建设咨询,建设项目专业档案整理扫描达标服务,以及相关的软件硬件产品及服务。
总阅读0
粉丝0
内容261