1. 国网江苏省电力有限公司苏州供电分公司 江苏苏州 215000 2. 国网江苏省电力工程咨询有限公司 江苏南京 210000
摘要:电力设备作为电网重要的功能组件,其安全对电网安全、可靠、稳定运行意义重大。因此,对电网的相关设备及运行状态进行有效且准确的评估、诊断和预测,可以显著提高供电可靠性,并能够提升电网运行智能化水平。
关键词:数据挖掘;电力设备;运维与决策
1 数据挖掘
数据挖掘就是从大量的数据中挖掘出有用的信息,即从大量的、不完全的、有噪音的、模糊的、随机的实际应用数据中发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。近年来,数据挖掘技术的研究和应用发展迅猛,在商业和银行领域已有广泛的应用。随着相关学科的发展出现了各种数据挖掘算法。数据挖掘的一般过程包括以下5个方面:(1)数据选择指与要解决的问题有关的数据的选取,当前,数据可以很方便地通过互联网进行采集;(2)数据预处理即通过滤噪进行信息处理的过程;(3)数据转换将定性的数据转换成定量的数据,在某种意义上也叫特征提取;(4)数据挖掘寻找数据库中隐藏的重要模式,该步骤在知识发现的过程中起着关键的作用;(5)数据解释用来评价和解释通过数据挖掘获得的结果,即知识。从数据挖掘中发掘有关知识的规则需要具备以下4个条件:(1)有效性意味着规则或知识的重要性,得到的规则或知识应适用于未知的数据;(2)新颖性即与先验的知识没有关系,在实践中,重要的是要发现新规则;(3)有用性目的在于发现对用户有用和感兴趣的规则;(4)简单性即发现的规则应力求简单,应能够创建和容易解释复杂的数据。数据挖掘技术与其他的研究领域如统计分析、机器学习、数据库,以及可视化技术等密切相关。数据挖掘的方法和数学工具包括关联规则、统计学、决策树、神经网络、线性规划、模糊逻辑等。目前,数据挖掘在我国电力部门的应用还不多,它在电力系统中的应用包括电力设备状态评估、电力系统负荷预测和分类、电力系统的运行模式分类、电力系统运行状态、设备监控、电力设备故障诊断、电力调度优化、电力系统建模等。
2 电力设备运维管理与决策分析技术架构
2.1 数据预处理
2.1.1 数据表征
电网在运行过程中会产生多时间尺度、多时空维度的海量数据,在预处理环节,对于同一故障断面下的数据集进行表征如下,
式中,Dj,t表示在t时刻下发生第j类故障采集到的数据集,包含电气量数据EtDk∈Kt、环境量监测数据EvDl∈Lt、设备运行状态数据EqsDm∈Mt、安防监测数据SecDo∈Ot等;将上述数据进行统一化表示,
式中,m表示单一监测指标的个数,N表示在故障断面下采集数据的频率,T表示在故障断面下采集数据的时长.
2.1.2 K-means数据聚
K-means数据聚类的思想为:随机选取数据集中的k个点作为初始聚类中心,根据数据集中的各个样本到k个中心的距离将其归到距离最小的类中,然后计算所有归到各个类中的样本的平均值,更新每个类中心,直到平方误差准则函数稳定在最小值。
对于数据集,
(3)
则相关样本Ds、Dj的欧式距离为,
其平方误差准则函数为,
式中,xsi表示样本Ds数据集合中第i个个体,k表示聚类族数,ni表示第i族数据均值,ti表示第i族数据个数;
2.2 关联规则挖掘与知识发现
2.2.1 关联规则挖掘
由于传统故障数据比较有限,文中考虑采用SMOTE算法结合故障数据特征,生成合成数据,并扩充故障数据集进行后续分析。关联规则挖掘定义如下:定义1设I={i1,i2,…,im}是项的集合,事务数据库D是由一系列具有唯一标志TID的事务组成,每个事务对应I上的一个子集,即TI.关联规则可以表示为XY的逻辑蕴涵式,其中XI,YI,且X∩Y=。定义2关联规则XY支持度S是指事务数据库中包含X∪Y的事务占事务数据库D的百分比。定义3关联规则XY置信度C是指事务数据库中包含X∪Y的事务数与包含X的事务数之比。
根据上述定义,一般地,给定一个数据库,挖掘关联规则的问题可以转换为寻找满足最小支持度和最小置信度阈值的强关联规则过程,分为两步:1)生成所有频繁项集,即找出支持度大于或等于最小支持度阈值的项集;2)生成强关联规则,即找出频繁项集中大于或等于最小置信度阈值的关联规则。特别地,针对电力设备运维与决策关联规则的挖掘,借助于实验模拟以及历史运行的实际数据信息,利用Apriori算法挖掘发现与特定设备异常/故障相关的所有频繁多项集,并建立关联规则,利用关联规则形成评估设备运行状态的关键性能矩阵模型。
2.2.2 高维关键性能矩阵模型
对于采集到的多源、海量数据信息集Dt,包含电气量数据EtDk∈Kt、环境量监测数据EvDl∈Lt、设备运行状态数据EqsDm∈Mt、安防监测数据SecDo∈Ot等;如表1所示。
表1数据采集类型与数据采集量
表2关键性能评估矩阵与状态量集
文中利用Apriori算法发现频繁项集,从而挖掘采集量与故障类型之间的关联规则,建立关键性能评估状态量集如表2所示。
表2中Xf∈F表示故障f对应的频繁项集所组成的矩阵;F表示异常/故障集合;
表示采集量组成的频繁多项集,其需要满足以下约束,
对关键性能矩阵进行大数据表征,从而得到高维随机矩阵,对每一维的数据进行归一化处理,
式中,xi表示第i维状态量数据,μi,normal、σi,normal分别表示第i维状态量历史正常运行数据的均值与标准差。
结束语:
历史和实时的不同状态量数据得到了充分利用。对历史故障样本进行数据挖掘,寻找状态量间的关联;将运行历史中各时段的数据与实时数据进行比对分析,通过单维形状系数与多维谱分布函数曲线及圆环的变化反映设备的运行情况;将历史故障情况(包括实验与运行)与实时运行特征结合,反映设备的健康程度与重要程度。通过算例部分分析,本文中模型能够及时有效甄别不同设备运行异常/故障。
参考文献
[1]江秀臣. 盛戈皞. 电力设备状态大数据分析的研究和应用[J].高电压技术,2018,44(04):1041-1050.
[2]費思源. 大数据技术在配电网中的应用综述[J].中国电机工程学报,2018,38(01):85-96;345.
[3]刘科研. 盛万兴. 张东霞. 等.智能配电网大数据应用需求和场景分析研究[J].中国电机工程学报,2015,35(02):287-293.
[4]陈超金. 基于数据挖掘的电力设备状态检修技术研究综述[J]. 广东电力,2009,22(09):21-24.
[5]杨国庆. 张 宇. 数据挖掘技术在电力设备状态检修中的应用[J]. 上海电力学院学报,2012,28(02):176-180.