
大数据是近两年继Web2.0、云计算、物联网之后的一个新词汇,其引发了信息科技领域越来越多的关注。在庞大的新数据来源的支持下,量化的前进步伐将会踏遍学术、商业和政府领域,没有一个领域可以不被触及,大数据时代的到来,给档案馆也带来了极大的冲击。档案馆必须利用一切有效手段来分析现状与未来,做出正确的选择。
定义
大数据(big data)是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据有五大特点,即大量(Volume)、高速(Velocity)、多样(Variety)、低价值密度(Value)、真实性(Veracity)。它并没有统计学的抽样方法,只是观察和追踪发生的事情。
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
资源优势:
对档案馆而言,其最大的优势在于所拥有的资源。
首先,档案馆信息资源总量庞大且增长迅速。2008年,全国各级国家档案馆共保存档案1.93亿卷,较上年增加1769万卷,增幅达10%,到2020年各级国家档案馆馆藏将达到6亿多卷。
其次,档案馆数据资源种类繁多。在档案馆的数据资源中,既有数字化的纸质档案、接收进馆的电子文件、音视频档案等,也有用户利用信息、服务数据等数据资源。再次,档案馆数据资源价值很高。与其他数据资源相比,“档案是一种最真实、最可靠、最具权威性与凭证性的原生信息资源”,这就使得数据洪流时代档案的价值与作用更加凸显。
行业领先:
首先,各级国家档案馆是集中统一保管党和国家档案的科学文化事业机构,是永久保管档案的基地,是社会各界利用档案史料的中心。作为一种机构性存在与制度性安排,档案馆的公共性、服务性、公平性、永久性等特征,使得档案馆成为人们心目中最系统、最值得信赖的数据资源库。大数据时代,档案馆维护和传承记忆的功能将更加重要,构建一个“基于互联网的,以档案数字资源为主体,以文本、图片、音频、视频等为形式,为中华民族集体记忆的建构和传承提供文献支撑的‘中国记忆’数字资源库”将成为档案人新的目标与使命。
其次,档案馆在数据处理上具有丰富的经验。考察数据生命周期,涉及数据生成、采集、传输、处理、分析、应用等阶段,而这也恰恰是档案馆熟悉的业务范畴。
因此,档案馆可以通过模拟或借鉴传统档案处理的整套业务规范或流程来指导大数据的处理,“对知识规范性控制的思想和技术方法恰巧在大数据领域有了用武之地”。
认识问题:
作为一个档案大国,几千年档案工作的历史积淀在我国形成了丰富多彩的档案文化,也形成了一套独特的档案思维模式。
大数据时代,有可能出现两种认识问题:
一是没有大数据意识,即无视大数据时代的来临,采取固守原状的鸵鸟政策,这将使档案馆失去未来的发展机会,甚至会失去存在的意义。
二是泛大数据化,即不加鉴别地收集保存数据,从而使档案馆陷入数据沼泽,进而丧失自己的特色,显然这也是档案馆无法承受的。
因此,大数据背景下,科学认识大数据的内涵,合理地选择切入点,将是档案馆在大数据时代立足的首要问题,而这或许也是档案馆最难解决的一个问题。
人才瓶颈:
在档案事业快速发展的今天,我国的档案人才队伍建设却不尽如人意。
一是专业人才不足。从国家档案局新发布的2019年度全国档案行政管理部门和档案馆基本情况,全国各省(除台湾外)、自治区、直辖市各级档案馆中具备博士学位且毕业于档案学专业的工作人员仅74人,具备硕士学位且毕业于档案学专业的工作人员仅2142人,具备学士学位且毕业于档案学专业的工作人员26520人。
二是信息技术人才的匮乏。“大数据泡沫如果现在存在的话,恐怕并非数据的作用被过分夸大,而主要是由于真正具备资质的数据科学家数量不足导致的。
据统计,2018年美国面临150万个掌握大数据应用分析方法的技术经理和分析师缺口,另缺14万至19万具有“深度分析”经验的工作者。从目前来看,大数据成功的案例无不是特定的项目。
因此,现阶段档案馆人员最需要的是懂得用户的需求,因为数据越大,用户的个性需求就越多样,服务切口就越小。毫无疑问,这需要档案人员拥有极强的洞察能力。


