摘要:本文解释了异常值的定义及造成异常值的原因,说明了计量检定中剔除异常值的意义,列举了剔除异常值常用的三个统计判别方法,包括拉依达准则、格拉布斯准则和狄克逊准则。同时,举例比较了统计判别方法的差异,及在计量检定中,怎样选择合适的统计判别法剔除异常值。
关键词:计量检定;异常值;判别;剔除;准则
一、异常值的定义及计量检定中造成异常值的原因
异常值又称离群值,指在对一个被测量重复观测所获的若干观测结果中,出现了与其他值偏离较远且不符合统计规律的个别值,他们可能属于来自不同的总体,或属于意外的、偶然的测量错误。也称为存在着“粗大误差”。
造成异常值的原因:震动、冲击、电源变化、电磁干扰等意外的条件变化,人为的读数、记录或计算错误,仪器内部的偶发故障、操作不当等。
二、计量检定中剔除异常值的意义
通过计量检定获得的数据中混有异常值,必然会歪曲测量结果,能将该值剔除不用,可使结果更符合客观情况,但若剔除了一些偏离较远但不属于异常值的数据,却适得其反,则不能真实地反映测得值的分散性,所以必须正确地判别和剔除异常值。
三、计量检定中异常值的判别与剔除
(一)物理判别法
在测量过程中,记错、读错、仪器突然跳动、突然震动等异常情况引起的已知原因的异常值,应该随时发现,随时剔除,即必须是已知原因的明显错误或突发事件造成的数据异常可以随时剔除。
(二)统计判别法
有时仅仅是怀疑某个值,对于不能确定哪个是异常值时,必须采用统计判别法进行判别,判定为异常值的才能剔除。判别异常值常用的统计方法有拉依达准则(或称3σ准则)、格拉布斯准则、狄克逊准则。
1.拉依达准则
拉依达准则又称为3σ准则。当重复观测次数充分大的前提下(n>>10),设按贝塞尔公式计算出的实验标准差为s,若某个可疑值与n个测得值的平均值之差的绝对值大于或等于3s时,判定为异常值,即应满足下式:
2.格拉布斯准则
设在一组重复观测值中,其残差的绝对值最大者为可疑值,在给定的包含概率为或,也就是显著水平为或时,判定为异常值时应满足下式:
——与显著水平和重复观测次数有关的格拉布斯临界值,该临界值需要查格拉布斯准则的临界值表。
3.狄克逊准则
设所得的重复观测值按由小到大的规律排列为:,,…,。其中的最大值为,最小值为。按以下几种情况计算统计值:
(1)在n=3~7情况下; ,
(2)在n=8~10情况下: ,
(3)在n=11~13情况下: ,
(4)在n≥14情况下: ,
设为狄克逊检验的临界值,判定异常值的狄克逊准则为:
当,,则为异常值;
当,,则为异常值;
否则没有异常值。
使用这一准则,可以多次剔除异常值,但每次只能剔除一个,并重新排序计算统计量或,然后再进行下一个异常值的判断。
四、三种判别准则的应用与比较
(一)三种判别准则的应用
例子:在计量检定过程中,重复观测某标称值为5kg的砝码共10次,测量过程中得到10个值,从小到大排列为:4.98kg,4.99kg,4.99kg,5.01kg,5.01kg,5.02kg,5.02kg,5.02kg,5.03kg,5.12kg。
①用狄克逊准则判别
测量次数n=10,选显著性水平=0.01,则查狄克逊检验的临界值表得临界值D(0.01,10)=0.635
由于是属于n=8~10的情况,所以统计量计算如下:
,D(0.01,10)=0.635,因而x10=5.12kg属于异常值。
②采用格拉布斯准则判别
计算实验标准偏差:s=0.039kg
查格拉布斯准则临界值:G(0.01,10)=2.410
最大残差绝对值:|v10|=0.101kg
G(0.01,10)·s=2.410×0.039=0.094kg
可见:|v10|>G(0.01,10)·s,因而x10属于异常值。
③采用拉依达准则判别
计算算术平均值:=5.019kg
计算实验标准偏差:s=0.039kg
可疑值xd=5.12与10个测量结果的算术平均值之差的绝对值最大,=0.101kg,3s=0.117kg。因 <3s ,故可疑值xd=5.12不属于异常值。
(二)三种判别准则的比较
通过上述例子可见,拉依达准则与格拉布斯准则、狄克逊准则得出的结果完全不同。
1.当3<n<50的情况下,使用格拉布斯准则剔除异常值效果较好,适用于单个异常值。格拉布斯准则有唯一的公式,方法简便,易于掌握。
2.有多于一个异常值时使用狄克逊准剔除异常值较好,但是使用这一准则,每次只能剔除一个,需要重新排序计算统计量和,然后进行下一个异常值的判断。狄克逊准则公式多,不宜记忆。
3.当n>50的情况下,使用拉依达准则(3σ准则)剔除异常值较简便,但在GB/T4883-2008《数据的统计处理和解释正态样本离群值的判断和处理》中已不采用此方法。
4.实际应用中,有较高要求的情况下,可选用多种准则同时进行,若结论相同,可以放心。当结论出现矛盾,则应慎重,此时通常选α=0.01。当出现既可能是异常值,又可能不是异常值的情况时,一般以不是异常值处理较好。
五、结束语
我们在计量检定工作中,为了避免异常值的出现,一方面要严格执行计量检定规程,另一方面要求计量检定人员在数据处理过程中对发现的异常值要采取合理的措施进行处理,要充分应用拉依达准则、格拉布斯准则、狄克逊准则等三种判别方法进行合理选择性使用,以保障计量检定数据的准确、客观。
参考文献
[1]《数据的统计处理和解释正态样本离群值的判断和处理》GB/T4883-2008。
[2]于陆军,侯松梁.气体涡街流量计校准结果的异常值剔除和符合性判定[J].计量与测试技术,2014,41(05):29-30.
作者简介:刘东平,(1983—),女,侗族,本科,工程师,修文县市场监督管理检验检测中心