近日,国家档案局2024年度国家档案局优秀科技成果奖完成公示,汉王科技和杭州市档案馆携手合作的《OCR+NLP在档案数据化中的研究与实践》成功获选。此次优秀科技成果评审工作,由国家档案局组织并经过形式审查、专家评审、无记名投票等环节严格筛选,按照公平、公正、公开的原则,最终评审出25项优秀科技成果。

近年来,全国档案部门大力推动档案工作数字化转型,档案数据总量呈现指数级增长,海量档案数据资源不断汇聚,并以档案数据“来源可靠、程序规范、要素合规”的特性成为国家数据资源的重要战略资源。档案数据化是指从已归档数据即档案,基于一定的数据标准,经过资源、开发、业务融合和流通利用转化为数据要素赋能业务生产的过程,使之能够为机器可理解、可操作,并通过人机互动挖掘档案关系、规则与模式,为用户提供档案知识服务。
从档案数字化向档案数据化的深化与升级是当前档案领域的重要且急迫的工作,也是档案工作进一步智能化、协同化、关联化的重要支撑。汉王科技和杭州市档案馆共同承建国家档案局《OCR+NLP在档案数据化中的研究与实践》课题,旨在探索档案在步向“数据化”过程中,需要面对的传统数据资源体系重构、数据资源组织、描述与存储的新型技术规范问题,课题研究包括数据化过程中档案数据的表达、关联、存储、访问标准、档案的OCR数据输出标准,并对相关技术与模型开展了理论研究与软件研发。

课题的主要创新点,在于面向档案“数据化”建设需求,重新定义并构建档案内容语义囊括档案图像页-段落-文字块-文字的多层次细粒度聚合与还原能力,并实现对于档案图像版面布局、公文要素与段落等语义信息丰富的数据资源的揭示,从而支持深入档案内容层面,实现档案数据资源向细粒度的数据资源转化,以便进行检索、分析和挖掘。
同时,面向构建高效便捷的智慧服务场景的需求,对于构建档案知识图谱中的知识数据结构与标准进行框定,从而支持档案知识数据的表达、关联、存储与访问。总结了构建档案知识图谱的思路和流程,形成构建档案知识图谱的方法体系,便于后期不同领域的档案部门开展档案知识图谱建设。


