黑龙江省尾山农场 黑龙江黑河 164142
大数据与上世纪九十年代的互联网技术一样,一经产生就迅猛发展,目前已深入影响世界各国的国家政策制定、科学研究发展,教育资源分享和国家安全管理等领域。
一、档案数据采集安全
档案数据采集包括电子文档的收集和纸质档案的数字化处理两个部分。档案数据采集安全在强调数据收集的齐全完整的同时,也要考虑由于重复收集产生的数据冗余问题。
1、档案数据收集范围扩展
从某种意义上来说,“大数据”的一个重要理念就是掌握的数据量越大、内容越丰富,从中推断出的信息就越多、结论就越有参考价值。具体到档案工作,无论是从档案的凭证价值和情报价值,还是档案的现实价值和长远价值,抑或档案的第一价值和第二价值来考虑,就档案数据收集而言,可能需要重新思考收集的范围和形式。大数据往往是唯一的样本数据集。举例而言,那些测量交通、土壤酸碱、雨量、风力等物理信号的监控设备,或视频监控以及其他类型的器材所连续积累的时段性或实时性数据,都单独记录着一个唯一的活动片段,一旦数据丢失,这个片段就随之永远消失。只要具有业务价值、证据价值和背景价值,就可以认定为归档的文件。我国迄今为止虽对这类内容无具体的归档规定,但根据大趋势判断,各级各类档案馆的收集范围需要主动扩展。档案大数据也可以说是档案的“全数据”。相对于其他领域的数据收集,档案大数据更强调的是数据的“全”:收集业务范围内的所有档案数据。一个基层档案部门,只要收集了本机关、团体、企事业单位的全部档案数据,即使数据总量不大,也可以称之为大数据。因为在其后对这些数据进行的分析,将采取“样本=总体”的方法;凡采用这种分析方式的数据分析方法,就称为大数据分析。当一个机构拥有全部或者几乎全部的档案数据,就能从不同的“相关”关系而非“因果”关系中更细致地统计和研究数据的方方面面。
2、纸质档案数字化过程和结果安全
纸质档案数字化的过程安全是指在档案数字化过程中没有发生危害档案实体和信息安全的事件或行为。因此,一系列的规章制度和规范的操作流程是必要的。首先,要考察数字化服务提供单位的资质和信誉。其次,要建立完善的管理制度。例如,案卷不准擅自带离加工现场;当日数字化的案卷必须当日归库;案卷进出库有严格的交接、检查手续等等。
二、档案信息管理系统安全
从上世纪90年代国内最早的档案管理软件产生至今,已经经历了近20年的发展。随着计算机及网络技术的发展,在功能上则从单一的仅实现简单档案管理的软件、到档案管理软件与OA系统整合的数据库、再到现今的将数字化档案管理方式渗透到整个工作的数据库平台。档案大数据是在档案方面涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的信息。因此,档案信息管理系统的安全在很大程度上决定了档案信息的安全。
1、数据支持平台安全
国内外各行业大数据建设实践,构建档案大数据平台至少要实现四个层次的部署:(1)云服务商提供全面、可视化的服务,尤其是档案大数据服务委托方有权随时监管、分析基础设施中发生的所有事项;(2)收集海量档案数据,并解决各个数据库的兼容问题;(3)数据库有更快识别目标、锁定威胁来源和敌对事件的能力和相关设置。
2、数据计算环境安全
传统的数据库系统不能有效地处理大数据的原因在于,这些系统的设计无法应对现如今结构化数据所占比例越来越低,数据类型日益复杂的状况,以及传统的数据库无法既迅速又比较经济地对系统进行拓展。不仅是硬件程序的设计环节,从数据管理的角度来看,少量的数据样本容易进行单独的测试和监控,而档案大数据计算平台上存储的数据首先要有详细的类别划分,其次才是存储和计算。档案数据库的数据分析完成后,是要将结果呈现给不同的人群使用的。针对同一条查询指令,应该让不同角色的人群看到不同的结果信息,即查询所反馈的结果应该是不一样的:技术人员读取有关系统和设置管理的数据;档案工作人员查看、操作与自身业务范围相关的内容;普通利用者可以得到经审核公开的电子文本或目录。大数据时代的档案安全解决方案应该包括足够强大的、能够针对不同层次的人群提供不同的展现界面和工具。
三、档案数据提供利用安全
正如1893年立式文件柜的出现最终解决了纸质文件的存储和检索的困难,档案大数据必将对档案信息的查找利用带来颠覆性的变革:档案收集保管的最终目的是为了方便利用;档案大数据的核心不是拥有数据,而是拿这些档案数据去做什么。
1、档案咨询服务
档案咨询服务是网络社会在海量档案数据的收集、存储和处理技术基础上产生的一种具有前瞻性的判断和预测能力。众所周知,专家的价值往往在于因果推导,而大数据却放弃对因果关系的追寻,强调关注相关关系。也就是说,大数据在很多情况下只要求关注相关关系就足以产生正确的预测。当档案数据“大”到能对整个样本空间进行覆盖时,就足以减弱对理论和模型的依赖。例如,不再需要经历“从特殊到一般,再从一般到特殊”的传统认知过程,而是利用档案大数据去直接实现“从特殊到特殊”的判断和预测。换言之,此时的档案数据本身便是模型,也即大数据可实现全体而非抽样调查。档案大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些有较高价值的饱含历史意义的数据进行专业化处理。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。这种主动提供利用的档案信息不仅仅是提供原始的档案信息,还应该同时具有内容分析、结果预测、辅助决策等功能。举例来说,我们在购物网站上的查询、购买内容被记录后,经常可以收到商家的商品推荐;在搜索网站上的检索历史被记录后,经常会在该网站的界面看到相关的内容推送。对于这些“智能显示”,普通人往往有这样一种认识:对有利于己的,会觉得大数据方便实用;对不利于己的,会质疑是谁在后台收集了我的隐私。基于绝大多数人的行为是可以预测的,相似的产品和服务被推荐给我们,这在很多情况下是对的,但这是以真正个性化为代价的。所以,档案大数据在提供咨询利用服务时,也可以参考某些购物平台的设计,“购买此产品的人还购买了……”进行相关档案查询信息的推荐。再举个实例,对上海世博会期间的交通、人流、消费、生产等档案数据进行统计分析,不仅可以验证当时的管理措施在人流聚集时效果如何,还可以找出大型活动举办期间城市公共设施合理布局和有序运营的参数,对城市管理和规则出台提供参考,甚至对可能发生的灾害进行预警。如此大量的档案信息,如果档案管理软件在程序设计上能够达到数据实时成功抓取,档案利用服务的水平与今日相较必不可同日而语。大数据时代档案信息安全管理在于提供了一个确实存在的"概念+事实+关系"环境,通过计算运行,对数据进行逻辑推理,从而得出正确结论。
结语
档案信息安全是主动地提供档案数据安全保障,而不是等出现了无法挽回的损失再行补救。目前所有的相关研究都是基于这一目的的超前考虑。随着科学技术的进步及相关技术的发展,这些研究结果必将不断修正,以更好地为实际工作服务。