大数跨境
0
0

【大比武08】电子档案数据治理一体机的设计与实现

【大比武08】电子档案数据治理一体机的设计与实现 数字罗塞塔计划
2025-05-20
1
导读:我们经过深入思考并且跟各个领域的相关用户进行探讨分析之后,认为电子档案工作仍然需要这样的AI“一体机”产品。

DRP

  #大比武2025  

本篇是参加“琴海科技杯”第三届档案信息化公司业务与技术实力大比武(简称“大比武2025”)的投稿文章,来自上海昀层信息技术有限公司,作者:袁敬


2025年春节以来,“DeepSeek一体机”的概念风靡全国,很多企业赶热潮,纷纷推出各式各样的AI大模型一体机,热潮之下需要有“冷”思考。但是我们经过深入思考并且跟各个领域的相关用户进行探讨分析之后,认为电子档案工作仍然需要这样的AI“一体机”产品。

一、为什么需要“一体机”


1

解决电子档案服务能力碎片化的需要

档案信息系统建设容易,但是电子档案的数据治理与应用难。

异构系统的对接,捕获数据的整理清洗,四性检测的合规开展以及高效智能的开展检索、编研等工作,要使这一件件事情都能真正落地,哪一件都不是轻松的工作,更不用谈档案开放审核以及为领导提供决策服务了。

现有的各类档案信息系统往往很难在一个系统中搞定上述各个方面,所以总是形成一个系统加一堆工具,或者多个系统并行运行使用的局面。正是由于这一现状,无论从建设还是运行使用都增加了各单位档案部门的成本。此外,不同系统和工具间的对接和导入导出又是难题,这种“碎片化”的情形会大大阻碍档案信息化工作的深入推进。


2

应对行业挑战,重构竞争力的需要

当前复杂多变的经济形势对信息化建设的投入带来了很大的不确定性,传统的信息化项目在很多地方已经难以获得持续经费支持。究其原因,关键在于走定制化软件开发的路线长期以来被证明很难获得持续成功:需求难以持续覆盖,定制化形成的能力无法复用,维护成本越来越高,边际收益越来越小。

因此,在这样的形势下,通过技术能力+行业“Knowhow”打造专业化的产品不失为一条破局之道。也就是说,从整个行业的共性问题入手,抽象出有关服务能力,不断打磨形成可复制的产品,而采用软硬件一体化的产品形态又可以大幅降低产品的部署实施及应用成本。这样,通过对有关能力的整合重构,而非简单堆叠,快速形成全新的行业竞争力。


3

融入AI,开启可持续发展的需要

自2023年以来,大模型、知识库、智能体的发展路线已经在惊艳人们眼球的同时,开始渗透并会撼动传统的信息化框架。笔者认为下一代的信息技术框架以及服务能力框架必然会依托多智能体技术路线构建。

如果把传统的定制化、大投入的信息化平台(系统)建设比作白垩纪的恐龙,那么当环境恶化的时候,必然会面临消亡的结果,而随之发展起来的是更小、更灵活、更有智慧、更具协作能力的“智人”。

因此,采用多智能体架构的全新档案系统搭载在标准化的硬件平台之上,也就是所谓的软硬件“一体机”,这不仅使系统本身,也将使整个行业获得可持续发展的能力。


二、 “一体机”的构成与特点


1

“一体机”的构成

电子档案数据治理一体机包括:异构资源捕获整理服务,电子档案四性检测服务,电子档案生成式利用服务以及必要的基础设施,如下图所示:

异构资源捕获整理服务:

支持对前端异构系统的动态接入,捕获有关元数据及电子文件,支持对有关数据的清洗、完善和自动补录。

电子档案四性检测服务:

按照电子档案四性检测有关要求支持对文书档案、政务服务档案等门类开展全生命周期的四性检测。

电子档案生成式利用:

依托大模型提供AI知识库服务,并通过交互式窗口提供有关档案信息的智能问答、编研支持以及展陈方案设计支持。

基础设施:

包括多智能体框架、大语言模型、GPU算力卡以及硬件平台,是整个一体机的承载环境。

当然一体机并不等于数字档案室,但是可以根据需要将一体机提供的相关功能的SDK接口与数字档案室系统或其他应用系统对接,从而使用户可以直接调用一体机的相关功能。


2

“一体机”的特点

(1)开箱即用

通过可视化的方式开展异构资源对接与归档数据捕获、四性检测;通过桌面直接上传多模态文件的方式开展档案信息的智能问答和编研利用;

(2)合规可用

数据捕获整理以及四性检测均按照国家档案主管部门制定的有关标准规范执行,能够生成符合主管部门要求的档案信息包和检测报告。

(3)智能利用

一体机的最低配置可以基于qwen2.5-70B或Deepeek-32B大模型,实现本地化部署,将大模型的语言理解与生成能力落地到用户端,在确保用户数据安全性的前提下,为各类生成式服务场景赋能。

(4)深度利用

一体机提供API接口,可以围绕更多场景和需求开展深层次的应用,包括但不限于对接数字档案室,以及与传统档案利用模式的融合应用。


三、 “一体机”的应用场景


1

系统对接与数据捕获整理

通过可视化配置的方式,在不需要对前端应用进行改造的情况下,完成归档数据的捕获和整理。


2

电子档案的四性检测

按照档案主管部门的有关规范要求对电子档案开展全生命周期的四性检测,并生成检测报告。


3

电子档案的数据治理

支持对档案数字化副本进行识别和纠错。

(1)英文的识别与处理

下图为英文文稿的识别与纠错,英文天然有空格进行分词,可以获得良好的纠错效果。

英文纠错结果:


(2)中文的识别与处理

对于手写、竖排的中文处理可以做到尽可能的内容纠错,使得相关文件可以被用于检索。如下图所示:

中文纠错结果:


4

电子档案的智能问答

(1)概要性问题

(2)对比性问题

(3)细节性问题


5

电子档案的编研利用

(1)撰写提纲


(2)写完提纲后,可以进一步对每个章节进行详细描述:

(3)辅助编研

(4)辅助展陈策划


四、 “一体机”的发展方向


电子档案数据治理一体机具有广阔的发展前景。

(1)设备形态的发展

可以从单卡工作站向多卡工作站发展,通过对GPU算力的提升,满足更大模型(如Deepseek-70B)和更好的计算性能要求。还可以从单台设备向多设备集群发展,满足大并发用户的需求。

(2)智能化能力的发展

可以从文本模型向多模态模型发展,进而获得对多模态档案数据的综合处理能力。

(3)业务能力的扩展

可以集成包括但不限于档案智能开放鉴定的能力,为电子档案向纵深发展提供强有力的支撑。

(4)交互方式的扩展

目前绝大多数的应用系统采用图形用户界面(GUI)的表现形式,但是这种方式面临着应用越来越多,操作越来越复杂、用户使用越来越不方便的挑战。电子档案数据治理一体机会推动对话用户界面(LUI)的切入和发展,在不远的将来,依托多智能体技术,用户只需要通过语言指令就能驱动智能系统完成各式各样的任务。

数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明,我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见,共同为人类文明的传承而努力奋斗!


热文推荐

【大比武06】数据挖掘技术在档案管理中的智慧化运用

【大比武04】建设单位视域下的项目档案治理策略

【大比武02】档案系统变身“微型可信数据空间” ——企业数据管理新解法

【大比武03】照片和音像档案管理与AI的融合创新

【大比武01】通过档案数据治理实现决策智能的实践分享


档案信息化

就看罗塞塔

高端交流群已开

加小罗,秒进群

点点“”和分享,给罗塞塔充点儿电吧~

【声明】内容源于网络
0
0
数字罗塞塔计划
保存社会记忆,传承人类文明! 我们始终秉持中立的立场客观公正地分享和交流档案信息化与档案文化领域的知识和观点,致力于成为全国领先的档案”两化”新媒体平台。
内容 524
粉丝 0
数字罗塞塔计划 保存社会记忆,传承人类文明! 我们始终秉持中立的立场客观公正地分享和交流档案信息化与档案文化领域的知识和观点,致力于成为全国领先的档案”两化”新媒体平台。
总阅读375
粉丝0
内容524