河南省中烟工业有限责任公司黄金叶生产制造中心 郑州市 450000
摘要:信息化发展至今,DT(数据技术)时代已经全面来临,保障数据质量发挥数据价值,已经成为衡量企业信息化是否成功首要条件。本文以改善卷烟生产环节数据质量为切入点,通过研究数据质量评价模型,建立数据质量评价标准、方法,提升系统数据质量,切实发挥系统数据资源综合价值,为企业创新发展提供丰富的基础资源和新的动力。
关键词:卷烟生产数据;数据质量;完整性;准确性;一致性;及时性
1 研究思路
依据数据质量的4个基本要素,细化数据评价指标,建立数据评价标准,构建数据评价模型。[1]
1.1 数据完整性评价指标
主要表示数据中的记录和信息是否完整,是否存在缺失的情况。以数据级D为例,数据质量完整性包括两个方面:
1.1.1 数据字段完整
对每个字段
.png)
而言,必须是完整的,没有缺失,即:
.png)
1.1.2 数据记录无缺失
对所有记录
.png)
而言,每条记录下的每个字段都存在,没有缺失,即:
.png)
1.2 数据准确性评价指标
主要表示数据中的记录的信息和数据是否准确,是否存在异常或者错误的信息。以数据集
.png)
,数据质量的准确性指的是对于同一个字段
.png)
而言,它的每个数值都正确,判断的依据分为两个方面:
1.2.1 数据正常波动
若字段
.png)
为随机波动数据,则保证
.png)
在其自身的范围内波动,即:
.png)
,其中
.png)
和
.png)
表示字段
.png)
范围的上下限。
1.2.2 数据合理增长
若字段
.png)
为累增数据,则需满足:
.png)
1.3 数据一致性评价指标
主要表示数据中的记录和信息是否符合规范,是否与前后及其他数据集合保持统一。以数据集
.png)
,数据质量的一致性指的是对于同一条记录
.png)
而言,必须满足字段与字段之间所对应的函数关系,例如:
.png)
,其中
.png)
为
.png)
,
.png)
,
.png)
之间的单位换算比例,统一计数单位
1.4 数据及时性评价指标
主要表示数据中的记录和信息从产生到可以查看的时间间隔,也叫数据的延时时长。以数据集
.png)
,数据质量的及时性指的是时间的采集频率
.png)
相同,使得数据能够及时更新,即:
.png)
其中
.png)
表示第
.png)
时刻,
.png)
表示第
.png)
时刻,
.png)
表示第
.png)
时刻到第
.png)
时刻所需时间,
.png)
表示采集频率。
1.5 数据质量评价标准
依据数据质量评价4个基本要素,最终的数据质量评价结果,即为四个分项的加权和:
.png)
其中,
.png)
为完整性得分,
.png)
为准确性得分,
.png)
为一致性得分,
.png)
为及时性得分,
.png)
为数据质量评价得分结果。
2 建立数据质量评价模型
以卷烟机数据集、包装机数据集为例,分别从完整性、准确性、一致性、及时性四个方面进行建模,其中涉及到的卷烟机和包装机的数据指标如下:
(1)卷烟机数据指标:
.png)
(2)包装机数据指标:
时间 主机产量
(包) 辅机产量
(包) 条包机产量
(包) 主机车速
(包/分钟) 辅机车速
(包/分钟) 辅机运行时间(秒) 主机运行时间(秒)
DateTime N052_70030 n052_70014 n052_70010 N052_70008 N052_70002 n052_70525 n052_70508
2.1 准确性模型
对于卷烟机数据集和包装机数据集,准确性模型的处理方法相同,时间不作为研究字段,具体步骤如下:[3]
(1)判断数据类型:随机数据、累增数据。
(2)随机数据,如"N002_50008"、"N052_70008"、"N052_70002"这三个速度字段
.png)
,不超过额定车速,即:
.png)
其中
.png)
表示车速字段,
.png)
表示第
.png)
个字段的额定车速。
(3)累增数据,除车速字段之外的字段均为累增字段,判断字段
.png)
数据是否存在异常:
.png)
(4)计算出每个字段的准确性得分:
.png)
其中
.png)
表示第
.png)
个字段;
.png)
表示第
.png)
个字段数据数值准确的个数;
.png)
表示数据集的总记录条数,也表示第
.png)
个字段的理论数据个数;
.png)
表示第
.png)
个字段的准确性得分。
(5)计算出数据集的准确性得分:
.png)
其中
.png)
表示各字段在准确性评价中的权重;
.png)
表示第
.png)
个字段的准确性得分。
2.3 一致性模型
对于卷烟机数据集和包装机数据集,一致性模型的处理方法是分别根据自身字段的特性而进行处理,时间不作为研究字段,具体步骤如下:
(1)卷烟机,确定是否为卷烟机指标,若是,则按以下规则判断指标间的一致性:
.png)
(2)包装机,确定是否为包装机指标,若是,则按以下规则判断指标间的一致性:
.png)
(3)字段数据填充,因为车速和运行时间数据记录不完整,需要按照一定的规则进行填充。车速和运行时间数据的缺失是由存储条件导致,在数值不变的条件下,数据的记录为空,所以填充的规则是,每个空缺值的填充值为上一个非空缺值。
(4)计算出卷烟机或包装机每个规则的一致性得分:
.png)
其中
.png)
表示第
.png)
个规则;
.png)
表示第
.png)
个规则一致性满足的个数;
.png)
表示数据集的总记录条数,也表示第
.png)
个规则的理论数据个数;
.png)
表示第
.png)
个规则的一致性得分。
(5)计算出数据集的一致性得分:
.png)
其中
.png)
表示各字段在一致性评价中的权重;
.png)
表示第
.png)
个规则的一致性得分。
2.4 及时性模型
对于卷烟机数据集和包装机数据集,都包含有时间字段,可以反映出数据是否及时采集或更新,在本文中,数据的采集频率为2s,即在2s内采集或更新的数据满足及时性要求,反之则不满足。[4]
计算数据集的及时性得分:
.png)
其中
.png)
为时间字段,
.png)
为满足及时性要求的数据点个数,
.png)
表示数据集的总记录条数,也表示
.png)
的理论数据个数。
2.5 数据质量评价模型
对于卷烟机和包装机的数据质量评价,可以概括为完整性、准确性、一致性、及时性四个方面的加权和,具体表达式如下:
.png)
其中
.png)
为最终的数据质量评价得分,
.png)
为完整性得分,
.png)
为准确性得分,
.png)
为一致性得分,
.png)
为及时性得分,
.png)
,表示完整性、准确性、一致性、及时性四个方面权重系数。
4 结束语
建立数据质量评价模型,是量化数据质量评价指标,实现数据质量评价的关键。借助信息系统,可以实现数据质量自动评价,满足大批量数据质量控制需要,从而有效提高数据质量,真正发挥系统数据的最大价值。
参考文献:
[1]朱宏涛.电网数据采集系统建模与数据压缩品质影响的研究[D].哈尔滨:哈尔滨工业大学,2010.
[2]常伟华.安全操作系统数据完整性与标记功能测评研究与实现[D].北京:北京工业大学,2008.
[3]赵文龙,黄雅娜,.一种提高数据采集系统精度的方法[D].南昌航空大学 信息工程学院,2015.
[4]王建萍,费跃农.嵌入式高速数据采集系统的实时性研究[D].电子测量与仪器学报,2006