点
击
蓝
字
关
注
我
们
本篇是参加“琴海科技杯”第三届档案信息化公司业务与技术实力大比武(简称“大比武2025”)的投稿文章,来自上海互联网软件集团有限公司,作者:张春。
本文介绍的成果来自2023年度国家档案局科技项目“基于知识图谱的档案保护认知体系构建研究”,项目承担单位为上海市档案馆,技术支持单位为上海互联网软件集团有限公司。
一、问题的提出
档案作为承载历史记忆与文化传承的核心媒介,作为社会发展的原始凭证和人类文明的物质载体,需要得到持久乃至永久的保存。在长期保存过程中,档案材料受时间流逝、环境变迁、人为因素及载体自身老化等影响,普遍存在不同程度的损毁现象,部分珍贵档案甚至面临消亡风险,因此必须将档案保护置于优先地位。档案保护与修复是一项融合材料科学、化学工艺、生物技术等多学科知识的综合性专业技术工作,其核心目标在于最大限度延长档案载体的存续时间。
档案保护与修复工作涉及复杂多样的应用场景,不同损毁状况需要采用针对性的修复技术,这对专业人员的知识储备提出了极高要求。以常见的破损档案修复为例,其核心工序在于加固与连接处理。这一基础性修复环节中,修复用纸的选择、操作手法的精准度等细微差别都会直接影响修复质量。不当的修复材料或技术不仅可能影响档案外观,更可能对其长期保存造成潜在威胁。
基于此,建立系统化的档案保护知识体系显得尤为必要。本文提出了一套基于知识图谱的档案保护认知体系,并在此基础上研发了基于知识图谱的档案保护技术知识利用系统,为知识图谱技术在影像档案保护与修复领域的成功应用奠定了基础,可为档案保护与修复工作者提供便捷的专业知识检索渠道,从而有效提升档案保护与修复工作的科学性和效率。
二、技术实现原理
1
档案保护技术知识图谱构建
档案保护知识图谱构建流程如下图所示:
这其中,最关键的环节是知识抽取。知识抽取依据知识图谱的基本组成单位可分为实体抽取、关系抽取和属性抽取,需要自动化地从半结构化和非结构化数据中进行实体、关系和属性的抽取,并形成结构化信息。其中,实体抽取是从文本数据集中自动识别命名实体,因此也被称为命名实体识别;关系抽取是为了得到语义信息,从相关语料中提取出实体之间的关联关系,只有通过关系将实体联系起来,才能形成网状的知识结构;属性抽取的目标是从不同的数据源中采集特定实体的属性信息,采用数据挖掘的方法从文本中挖掘实体属性和属性值之间的关系模式,以实现属性名与属性值在文本中的定位。
在档案保护技术领域,由于几乎所有的原始信息均为来自标准、规范以及书籍等的纯文本信息,缺乏电子化的半结构化和结构化数据,难以进行直接应用。与此同时,由于档案保护技术领域的专业性非常强,在公开渠道也无法直接获取相关的结构化数据集。因此,档案保护技术知识图谱所需的实体关系信息在最开始需要档案保护技术领域的专家进行部分数据的人工标注,以人工标注的数据作为标准,在人工标注少量数据之后,采用机器学习领域专用的实体关系识别算法用于大量文献中的实体关系的知识抽取工作。
根据档案保护技术领域专家的建议,目前主要对5类档案保护技术知识进行人工标注,分别是:载体材料、破损等级、修复操作标准、档案虫霉、非纸质材料,每一类又细分为实体和关系,并以(实体-关系-实体)的形式进行展示。载体材料中的纸张实体分为宣纸、皮纸、竹纸、手工纸、机械纸、修复用纸等几大类,关系分为按加工方法分、按所含皮料比例分、按抄纸厚度分、按纤维种类分、按产品名称分、按用途分、包含关系等。
2
档案保护技术问答大模型微调
基于通用大语言模型的档案保护知识由于缺少对专业知识的训练和引用,往往缺乏专业性和准确性。通过适配器对大语言模型进行档案保护技术问答知识的微调,可以有效提升其在档案保护知识方面的专业性和准确性,最终得到档案保护技术问答大模型。
微调方式旨在创建一个更加专业的档案保护技术问答大模型,在微调过程中,使用了73892条档案保护技术问答数据作为训练集,这些档案保护技术问答数据用于更新大语言模型的权重,使模型更加精准地适应档案保护技术问答领域的语境和知识。
为了进一步增强模型的能力,采用提示学习策略,将档案保护技术知识库中的信息嵌入到模型中,通过检索知识库,大语言模型可以回答其原本能力之外的专业问题,从而扩展了其支持的问题范围。
三、系统主要功能
基于已经构建的档案保护与利用知识图谱以及微调之后的档案保护技术大语言模型,设计并研发了档案保护知识图谱与人机对话系统,提供基于档案保护与利用知识图谱的档案保护与利用技术知识服务。系统架构如下图所示:
以下简要介绍档案保护知识图谱与人机对话系统的核心功能。
知识图谱概览
该模块支持按载体材料、保护环境、病害状况、风险等级、方法技术等维度浏览知识图谱实体及其关联关系。用户选择特定实体类型后,系统将可视化展示对应的知识子图结构。
知识图谱专题
系统将知识图谱按保护环境、载体材料等主题维度划分为若干专题子图,每个专题独立展示相关节点的网络关系。用户可通过专题视图直观掌握不同维度的知识关联。
知识图谱切片
基于全域知识图谱缩略图实现动态定位导航,用户通过拖动定位点可实时查看对应区域的图谱细节。图谱细节面板会随定位变化动态更新,支持全景式知识探索。
档案保护与利用知识库
系统将《新档案保护与利用技术实用手册》等权威文献电子化后,通过文本分割、向量化处理提取关键信息,运用机器学习算法分析文本模式及其关联关系,最终形成结构化知识库。
档案保护与利用知识问答
当用户输入技术问题时,系统自动生成答案并标注权威依据(蓝色框为答案,红色框为依据来源)。回答内容直接关联至原文献对应章节,并通过红字标注增强依据的可追溯性。
档案保护与利用知识问答依据定位
系统在提供问题答案的同时,可精确定位至《新档案保护与利用技术实用手册》等文献的具体章节,通过红色高亮标注原文内容,确保技术依据的可验证性。
四、结语
本文介绍了档案保护知识图谱与人机对话系统的技术原理、总体框架和系统功能。系统使用15628条知识搭建档案保护知识图谱,使用了73892条档案保护专业数据集训练和微调档案保护技术大语言模型,作为人机对话系统的基础。
系统已于2024年10月份开始在上海市档案馆实际部署使用,可以提供档案保护技术的专业知识图谱,并针对档案管理过程中所需要的各种档案保护技术进行系统性、规范性的回答,取得了良好的应用效果,为档案保护业务领域专业知识的查找、问答和图谱展示提供了强有力的支撑,初步构筑起“知识图谱+智慧档案保护”的工作体系。
热文推荐
档案信息化
就看罗塞塔
高端交流群已开
加小罗,秒进群
点点“赞”和“分享”,给罗塞塔充点儿电吧~

