点
击
蓝
字
关
注
我
们
本号自2022年8月建立私域高端交流群以来,三大群已汇聚近1400位同行专家,每天在群内探讨各种档案业务问题,分享看法和观点。从今年开始,小编对部分精选问题进行整理汇总,每月一期以问题汇编的形式发布,将群友们的精彩发言分享给大家。除分享已有回复或答案的问题之外,文末还预留了两个未解答问题供讨论,我们将选出最标准/最精彩的答案,各送出礼品一份。
|
第一期 |
目 录 |
|
热点问题一 |
“数据要素x”文件的起草单位中没有国家档案局 |
|
热点问题二 |
《AIP的逻辑结构与物理结构设计》相关问题 |
|
热点问题三 |
电子档案能否在100年之内取代纸质档案? |
|
热点问题四 |
关于智慧档案引发的话题讨论 |
|
热点问题五 |
大数据时代,数据档案化治理的实践 |
|
第六部分 |
其他问题拾萃 |
|
第七部分 |
有奖答题 |
1
热点关注问题一
1月4日,国家数据局等部门印发《“数据要素×”三年行动计划(2024—2026年)》,共给出“数据要素x”的十二个应用场景,联合发文单位中有国家文物局,却没有国家档案局,引发群友激烈讨论。
问
1、 “数据要素是指那些以电子形式存在的、通过计算的方式参与到生产经营活动并发挥重要价值的数据资源。”档案数据资源是不符合上述定义吗?
答
“数据要素X”是按领域(行业)纵向分类,而档案是每个行业(业务)的最后一个环节即“最后一公里”横向内涵,文件里边提到的“健康档案”内涵在卫健委行业(领域),国家档案主管部门、单位档案管理部门能否参与到“数据要素X”,大概率是有的能,有的不能,就看档案部门主观能动性和自创有利的小环境。已有参与其中的实践案例。
问
2、根据定义来分析只有两种可能,要么档案数据资源未参与生产经营活动,要么参与了但未发挥重要价值。
DRP
关于数据局和档案局的定位问题本号曾经发过一篇文章《高速公路VS茶马古道——数据局、档案局定位之我见》,感觉还是档案数字资源未直接参与生产经营活动。
群友
茶马古道的价值对大部分人基本可以忽略,逐步变成文物……
群友
档案工作的性质就是各项工作的后端,管理的都是前端人家形成的。
群友
我个人认为有以下几点原因:
1、档案数据资源参加生产经营活动的业务末端,很少为前端的生产经营提供反哺,没有头尾咬合,未形成闭环。
2、数据规模小,而且以文书档案为主,大量的社会、经济、文化、法制、生态等方面的业务数据没有归档。
3、档案行业容易自嗨,很少到其他行业体现档案的地位,从业企业规模小,在数字化领域缺乏影响力。
4、档案学界也是很少到其他行业论坛发挥和宣传档案价值。
5、档案行业被定为文化行业,以傅荣校教授的说法“不文不武”,说是文化也不像。
6、档案局的档案执法,目前还不够到位。
我们要在沉默中发声,不要被边缘化,求实、求新、高科技、求突破。
问
3、工作承接大概率到了网信办和IT部门,到不了档案部门,档案部门要参与其中吗?如何参与其中?
答
打破文件归档的概念,确立数据归档的概念,将归档对象颗粒度缩小至信息维度,信息就是数据的逻辑意义,符号的集合就是数据。这样一来,档案颗粒度变小了,就又可以跟各行各业愉快的玩耍了。
群友
档案目前的作用:
一是弥补集体记忆遗忘的缺失,比如几十年前的一些事,翻出来一说,让新一代的社会人倍感新鲜,可以受启发,也可以借鉴经验等。当然凭证作用,也可以理解为帮助某一社会单元(办事机构)的集体记忆复现确认。
二是满足人们的怀旧情绪。老旧的东西承载着个人或群体的情感,你可以理解成文化或是其它有意义的事物。所以,档案公布,大家的情感就被点燃了,无论忆苦还是思甜。
三是满足人们的猎奇心理。档案的属性决定了信息的不对称现象的必然发生。老百姓别说非现行阶段的文件(档案)不全能获取到,就是现行的文件又有多少人能轻松获取到呢。所以脱敏期过了的文件,随着档案公布的发生,老百姓的好奇心被满足,文史学者的好奇心和创作欲也被激发起来。
2
热点关注问题二
1月19日,本号发布《AIP的逻辑结构与物理结构设计》,为打算上长保系统的单位以及提供长保解决方案的厂商指路避坑,引起一波话题讨论。
问
1、为什么对于档案数字资源长期保存业界普遍不太重视?
答
我觉得到底达到什么技术标准,才能符合长期保存的要求,国家局没有个明确的技术要求,就算档案行业有,司法鉴定认不认还是个问题,大家不知道怎么做才能最后符合。同时,很多档案馆现在还是以纸质档案数字化副本为利用对象,长久保管主要就是把纸质件存好就行,没有建长保系统动力。
群友
换句话说,都没有倒逼到那个程度,因为体制内和体制外不一样。哪怕档案馆这个行业真的不存在了,现在有编制的人也会分流到其他体制内的单位,不会面临下岗失业。更何况现在哪个部门都不敢说,档案馆由于没有建长期保管的系统或者不符合相关要求,你的档案就不受法律的认可。这个就和档案工作一样,大家都觉得重要,但真正做起来都会往后排。
群友
说实话现在档案馆的数据绝大部分是档案复制件,做好原件长期保存才是根本,对于复制件的长期保存,有钱干干,没钱就放放。只有到了机关单位不再实行双轨制,电子档案必须单套归档并进馆的时候,电子档案成为真正的馆藏原件的时候,长期保存的市场就自然形成了。
群友
档案的生命是发挥作用,重存轻用的恶果就是生存空间受限。
问
2、档案部门是否应该更加重视档案数字资源长期保存?
答
电子档案长期保存肯定是属于重要但不紧急的事情。但是在各部门都进行数字化转型,档案部门的生存空间不断被挤压的情况下,还不紧紧抓住最根本的长期保存,到时候最后的救命稻草都没了。
群友
反过来讲,如果长期保存技术问题没解决,单套制是不是也推进不下去?档案保存机构始终会有后顾之忧啊!
群友
我倒是觉得不管有没有档案馆这个机构,或者将来数据由谁来保存,亦或者保存怎样的数据,这些都不重要,重要的是我们有没有能将数据长期保存下去能力,有没有这样的厂商,产业链条,配套政策,研发能力,存储实现路径,靠谱的产品,以及国产化和性价比等等。
群友
都重要,结果=意愿+能力,明确机构解决意愿问题,研究进展解决能力问题。
问
3、关于AIP包的封装格式和分体式设计展开讨论。
观点一
群友
目前就是面临着数字化成果进馆后,在管理过程中,发现数据有错,要修改多套;开放审核过程中要修改相应数据,一改又要重新记刻光盘库。其实我觉得可以将数字档案信息包版本化管理,以确保我们随时都能掌握数字档案更新后的最新版本是哪个!就像软件开发一样,不断更新迭代!要同步修改长期保存过程中的这些数据真是难到我了!需要一套操作性强的标准,一套自动化同步更新软件,减少人工操作失误。
DRP
每次更新可以通过管理过程元数据(过程记录)来实现,这篇文章主要解决的是少量管理元数据的更新导致需要大量重新制作备份副本的问题,这基本不可行,软件代码只有KB级,档案全文数据至少TB级
群友补充
单个数字档案版本化只有十几mb,件与件之间不关联的版本化。
DRP
是的,实际操作过程中不可能单个档案管理,基本上都是按照批次管理的。今年上海市档案局馆正计划启动这方面的研究,到时候我在征得领导同意的情况下可以进行相关成果分享。
观点二
群友
按GBT 42727-2023 政务服务事项电子文件归档规范,打成一个ZIP包呢,再版本管理。
DRP
这只是目录结构的区别,现在讨论的是以前版本刻盘之后的数据怎么办?不是都浪费了吗?这个可以不用ZIP打包,直接原始文件存储也可以。ZIP打包只是为了提高数据存取、交换效率。
观点三
群友
从利用出发ZIP包用于存储降低了利用的便捷性,ZIP包给四性检测也带来了计算资源的消耗,ZIP用于传输是有优势的,个人建议ZIP打包只为网络传输就可,存储层大没有必要ZIP,目前ZIP如此深入档案界的人心,是什么原因也是值得思考的。
DRP
前半句话认可,后半句话有失偏颇。ZIP并没有深入档案界的人心,而是深入广大程序员的人心。深入档案部门人心的依然是EEP。作为一个程序员,我在努力改变这种现状。相关观点可以参考本号前面发过的文章《EEP封装?METS封装?还是ZIP封装》。
3
热点关注问题三
1月24日,本号发布《历经500年取代竹简的纸质档案,会被电子档案取代吗?》,数字载体出来到现在也就50年时间,不知道能否在100年之内完成替代?引起一波话题讨论。
观点一
群友
1)技术的进步与应用,受制于诸多经济社会因素,却又急不得。这跟很多情况差不多。比如说,电动汽车一定会取代颠覆燃油车吗?恐怕不是。未来更可能是各得其所,不同应用场景适用不同的车辆。
2)电子档案的技术要求、存储条件、利用难度等,需要社会层面的配套条件,综合成本需要被社会承受。否则,大面积推广就会很困难,很缓慢。
3)还是应该把档案信息化放在整个信息化领域的大背景下来看待和考虑。
观点二
群友
—— 现在一些地方档案馆,尤其是区县一级的地方档案馆,好大喜功,或者是被厂商忽悠,嗷嗷叫喊着要建设数字档案馆,智慧档案馆,要争取通过国家级测评。然后申请上千万的庞大预算,制定了复杂而高级的方案。
—— 这些能不能推行下去?经费能不能落实下来?建成之后能不能运转下去,我都充满疑问。
—— 上次韩老师也讲,现在数字化成果,开放利用率低的问题。我一直也在思考这个问题。
—— 就凭那些县区档案馆那可怜的十几个人,他们能把这一个庞大的精细的系统玩起来,运转起来?
—— 有人说可以面向社会招聘公务员和事业编的专业人才,这些有技术有水平的年轻人能够运转起来。看看现在的经济条件和地方财政情况,三五年内,人事和劳动部门,编办,同不同意招人都不一定。
—— 所以我觉得还是要认真考虑当地的经济,社会发展水平和我们所处的时代的制约性,不能过于乐观和急躁。
观点三
群友
1)数字档案馆是受前端业务已经数字化转型而驱动(档案不数字化,收集都困难了,不可能让业务部门打印归档吧。如果前端业务没数字化,可忽略),智慧档案馆的路还有一段距离。
2)而且,前端业务线上化以后,为什么一定要归档到档案系统?归档以后还得存两份,加备份又得多几份?业务系统存的东西没有凭证效力吗(审计巡视也认可业务系统直接导出的东西)?。。。发票开始数据化了,数电票了,这个变化影响会更大。档案这个业务,变化自己是控制不了的,因为取决于前端怎么形成。
4
热点关注问题四
前一篇文章同时引出了有关智慧档案的话题讨论。
观点一
群友
个人觉得智能智慧只能在有限的场景下应用,好多场景下说这个其实就是个伪命题。可惜有些厂家现在遇到客户就推这个,纯粹是忽悠。
观点二
群友
文生图啊 文生视频啊 文驱动智能体什么的 这些可以提升生产效率,或则本身就是生产力。
观点三
群友
智慧档案的基础是完成数字档案建设。现在很多档案资源都没建设好吧?系统里的档案数据是不是需要治理?之前做的很多数字档案是不是质量太差了,无法向智慧档案迈进。个人感觉如果数字资源建设好了,智慧档案的场景应该还是很多的。
观点四
群友
1)智能更多的还是辅助或则部分取代脑力劳动,比如写小说 写公文 写剧本 写新闻,这些工作未来可能部分会由AI完成。包括同声翻译这种工作,大模型加智能设备是可以部分取代了。简单的体力劳动机器人已经可以干一些了。
2)国外大模型的训练,不需要做很多整理工作,只要确保内容正确,机器自己学,就理解人的语言,而且多种语言。
3)档案不一定是智能的必要条件,没有档案,也可以智能。对各种电子文件、视频图片去分类打标记,这种工作AI也可以做。
观点五
群友
利用AI技术,就没有必要给“分类打标记这种工作”,做“分类打标记这种工作”就是传统手工。目录检索方式很多情况下是找到档案情况下才要做的工作,AI可以找到这些档案不必要多此一举。
观点六
群友
AI大模型在档案领域应用的最大问题,人机交互的结果不知道真假。返回的都是似是而非、模棱两可的结果。在其他对“真实性”要求不是那么高的行业可以作为很好的助手和参谋,档案领域不行。
群友
1)通过RAG方案实现,在回复结果时,增加一个信息来源,直接可链接到原档案。
2)利用检索增强RAG可有效提高真实度,推荐体验。
观点七
群友
目前OCR识别结果针对新发布规范的文件很实用,对于不规范而且手写的老档案的识别准确度一言难尽,我们这些一线开放鉴定审核员每天都在吐槽。
群友
1)针对手写识别训练OCR模型。
2)可以试着训练大模型的纠错能力,把OCR文本灌给大模型进行纠错。好像PPOCRv4就是这么做的。
观点八
问
还有请教一个问题,页码有些在左上角,有些在右下角,有的在左下角,有的在右下角,有些是手写的,有的是页码机打印的,有的的页码机打印加上手写的(特别是拖杆页码),这些上面的case,OCR可以识别出准确的页码?能否做到精度95%以上?
DRP
这个需求可参考本公众号文章《密级标识智能识别技术路径探讨》。
5
热点关注问题五
由群友提出的话题探讨:先贡献一张PPT,说明下,数据也是档案的组成部分的依据,电子数据以档案方式管理,是否可以理解成数据档案化治理?建议档案界同仁不要在概念上去区分数据与档案,而是要在理念上理解怎样的数据才是档案。
观点一
群友1
在实践过程常碰到不同的档案局馆人员对档案概念有不同的认识,有以下几种:
①没有档号的不是档案,②没有版式文件不是档案,③没有进馆的不是档案,④电子数据不是档案,⑤电子文件不是档案等等.....如果从概念出发,讨论几个月也很难统一。可能更多说法。
群友
我觉得说的也有一定的道理,没有完成进馆的所有程序那确实不能算馆里的档案,只能算原单位的档案。
群友1
没有档号的,算不算档案?
群友
我觉得没有档号只能算是文件,说到档号我想起来个问题,请教大家。现在数字化以前的档案,用新的著录规则还是用老的规则呢?有的说用新的,又有人说新的用新的规则,老档案用老的规则。
DRP
这个问题专门问过起草组,确实是“说新的用新的规则,老档案用老的规则”。
观点二
群友
钱有余力的地方当然可以在档案保管利用方面做一些开拓性的尝试。如果用共享治理的理念做要求,显然数据的开发利用既不是形成单位的专利,也不是档案馆的专利。从信息流的时序角度看,从处置利用的优先权看,档案馆显然排在后面。
观点三
群友
目前,尤其是民生类档案,比如个税证明,如果不是因为出国或者其他资质证明要求,大部分公民可能一辈子都不直接跟税务局打交道。其一,进馆后的首要义务是“藏”,要求一定要能以备不时之需,查之即来还没那么迫切。换句话说,丢了坏了烧了明确要追责,查的慢,用的不够好,目前应该还没普遍的做硬性考核。其二、这大概就是为何在“用”这一块档案馆不着急的几个原因。
观点四
群友
目前民生档案是离散的,通常没有做主体化治理。普通老百姓没有档案,也不知道普通老百姓的档案在哪里。这恰恰是国计民生的基础,档案管理部门最近几年开始意识到这点,国家文件也提了“一人一档”,信息化软件企业要及时跟上,能力决定影响力。
6
其他问题拾萃
问
1、请教各位老师,OA系统和档案系统集成时,要求OA将契约锁或数字签章等技术算法解绑,具体哪个法规标准里有明确规定?GB/T 39362-2020《党政机关电子公文归档规范》5.3 中指出:“电子公文归档时应要求归档信息包中不包含非开放的压缩、加密、签名、印章、时间戳等技术措施,以减少技术依赖性”。
答
规范就是这个,文件还有一个《党政机关电子公文处理工作办法》,这个文件带密,主体要求可以看付华局长的《我国电子文件管理的四大进展》。
问
2、请问群里的老师,政务电子文件归档一般涉及到几张网?几个平台?几个系统啊?谢谢!
答
数字罗塞塔计划公众号发布的《政务服务电子文件归档与电子档案接收平台构建》一文为浙江省的经验参考。
问
3、可以再分享一下:01、政务服务类电子文件归档范围研究;02、政务服务类电子文件归档接口研究;03、政务服务类电子文件单套制归档研究;这三块内容吗?好想学习
答
数字罗塞塔计划公众号关于政务服务电子文件归档的内容较多,可搜索查阅,归档范围问题可以直接查阅GB/T 42727-2023《政务服务事项电子文件归档规范》。
问
4、在2024年可以重点分享一下多档案门类元数据库的建设经验不?档案元数据库系统的建设,这个是比较具体的技术实现架构,目前我还没找到过相关成熟的案例;国家局目前出了很多的元数据标准,但具体的实现思路和技术架构,目前没几个人能整明白;国家局目前出的各种元数据方案都是理论性的标准,在具体实施过程中,面临着很多技术难题,比如如何建设具备可扩展性的元数据库设计,表结构如何规划等等。要如何才能建设具备管理多门类电子档案全生命过程的元数据库?
答
这属于数据库设计范畴了,关系型数据库的E-R模型,但不适合写成文章进行分享,建议还是交给档案软件公司去搞定吧。
问
5、请教一个专业问题,在工作中形成的ppt文件,如果归档,可以归在哪个门类下面啊?档号如何编制?
答
这与文件格式没有关系,与文件所属门类有关,在哪个门类下产生的就归入哪个门类,档号也按照该门类编制。
群友
职能分类法细节会很多,档案员常常很难了解业务做好分类,类型分类法又过于简单模糊。三合一系统非常重要,没有三合一系统碰到类似问题就会仁者见仁了。杭州档案馆三合一系统用得不错,建议向杭州了解一下。国家局有指导性文件,档案分类需要体系化和系统化工作。
问
6、各位老师好,想请教下,现在招投标平台上出现GPZ格式电子标书,想请问下相关归档经验,是还是以pdf格式归档还是考虑接收GPZ格式?
答
从归档角度来说应该是pdf/ofd的格式进行归档,或者也可以将gpz文件一同归档。
问
7、请教大家一个问题,很早之前的文号用的是[ ],现在著录的时候需要改成〔 〕吗?
答
实际在档案中文件编号的年号两侧的符号有时是“()”、有时是“[ ]”、有时是“【】”等等,录入时应统一改为六角号“〔〕”。
问
8、是不是工作中所有的文件都值得归档至永久保存?如节假日值班表,公车封存表,会议签到表之类的。
答
支持应归尽归,工程项目档案成套性归档,形成一个完整事务记录的过程文件,档案“收管用”中“用”不管是纸质还是现在的数智最重要的也是挖掘这些档案里的事由,分析来龙去脉,为实际工作、生活提供参考和方法。
群友
一个较为经典的案例:1921-1949年间某次会议的签到表,在当时看来可能就是一张普通的签到表,现在却是成为了重点档案。
问
9、电子档案能不能修改?要不要去满足部分客户的要求让电子档案管理系统可以修改?如果档案可以被篡改,信用就丢了,怎么办?
答
档案系统中的数据确实不能随意修改,任何修改操作都要留痕,用户若发现档案数据有错误提出修改,需把档案退回整编库,重新归档,同一档号的,在版本中能找到被替换掉的原有档案,并在操作日志中记录修改日志。
问
10、有大佬解释一下,像这条的解释,是不是单位有防火墙,防火墙划分服务器区,管理区,办公区这种不同的安全域就能满足了。
答
是的,但要设置访问策略,满足等保要求。
问
11、请教一下各位专家:电子档案需要盖归档章吗?三维电子文件、视频、音频等....,电子章如何盖?
答
DAT 22《归档文件整理规则》里写得很清楚,要盖。
群友
电子档案不用盖归档章,盖了也没有意义,还改变了原文件。归档章只是原来纸质档案,用于证明该份文件为归档的档案及其属性而已。2023年,付局长还在群里给大家解答过此问题,可以只在显示时加上,并不改变原件。 所有电子档案都没有加,在元数据层面记录了这份档案的前世今生,连接收时的四性检测报告都跟着。
群友
GB/T 39362-2020《党政机关电子公文归档规范》附录A中有“归档章”的描述,但为“可选”需求。
问
12、数字化加工外包服务使用的设备是档案部门自己的,还是企业带来的?对这些设备有没有进行国产化替代?
答
一般都是企业带的,目前还没有国产化的要求。
群友
企业现在已经国产化替代了,所以现在开发的产品不支持国产化,还是很头疼的。作为企业会面临新建系统还没上线要国产化,厂家又不支持国产化适配,要重新选型,或者是刚建完又要国产化。重复建设,这两年要建设单位做好规划才行,国产化进程推送还是比较阵痛的。
问
13、请教大家对于电子文件的概念的理解,数字化扫描后再上传计算机系统进行管理的文件是否算是电子文件呢?
答
不能算,只能算是纸质档案数字复制件。
群友
要看本身这个文件是否要归档的档案,如果就是普通文件扫描的,那就是电子文件;如果本身是档案,扫描的就是档案数字复印件。
问
14、各位老师,有没有关于档案数字化微缩技术的说明呢?
答
具体可以参考三个行标和一个国标:
DA/T 21-1999《档案缩微品保管规范》
DA/T 29-2002《档案缩微品制作记录格式和要求》
DA/T 44-2009《数字档案信息输出到缩微胶片上的规定》
GB/T 15737-2014《缩微摄影技术 银-明胶型缩微品的冲洗与保存》
如果想进一步了解新一代缩微胶片(数字胶片)相关技术可以在公众号中搜索“数字胶片”,基本原理看这篇文章即可《数字胶片技术在档案数字资源长期保存中的应用》。
7
有奖答题
未解答问题,欢迎在评论区留言,并评为最佳答复者赠送双面相框一份。
问
1、各位老师,请教下关于涉密数字化加工场所的建设要求可以参考哪些文件?
问
2、想请教老师一个问题,最近国家档案局开展了档案统计年报工作,其中档案室基本情况表中,档案数字化成果数量统计的“万幅”统计单位,这个指的是什么?应该怎么计算呢?在网上查了相关信息,各种说法不一,希望看到的老师能帮忙解答一下,非常感谢另外能否出一篇关于档案统计年报相关统计指标解释的文章呢?
如果您在工作中碰到其他问题,可以通过以下三种方式向罗塞塔提问或引发探讨,我们将尽力为您解答。
01
公众号后台留言
数字罗塞塔计划公众号后台留言,在第一时间给出答案的同时,我们也会记录下问题,经过筛选,精选问题将于下一期汇编中发布。
02
向小罗提问
相信粉丝们对小罗已不陌生,在工作中遇到的难题,欢迎随时与小罗沟通,小罗会一一给予答复。
03
高端交流群内探讨
欢迎大家在群内多多交流,思想的碰撞下,凝聚共识,真理越辩越明,或许能够产生更多的火花。有兴趣的朋友可以扫描文末二维码加入高端交流群,与群内的大咖老师交流探讨,共同提高。
数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明,我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见,共同为人类文明的传承而努力奋斗!
热文推荐
档案信息化
就看罗塞塔
高端交流群已开
加小罗,秒进群
点点“赞”和“分享”,给我充点儿电吧~

