邹海涵
国网上海市电力公司浦东供电公司 上海 200125
摘要:近些年,在社会快速发展下,我国的科学技术水平不断进步。目前,电力公司存在较多异常用电情况,影响了电力的正常运营。本文以电力公司业务中心大数据平台为基础,提出利用大数据挖掘Spark组件对营销系统、用电信息采集系统的数据进行在线监测分析,开展公变台区异常用电行为中的台区电压异常、重载过载台区异常进行分析研究,通过数据选取、数据清洗、设定阈值规则实现异常数据筛选,运用Spark组件、并列数据库、云计算等技术实现对台区电压异常、重载过载台区异常信息提供精准定位及数据结果的可视化。
关键词:异常用电;大数据挖据;数据可视化;台区电压;重载过载
引言
随着智能电网的发展,用电数据的采集变得快速、便捷,而且随着数据分析方法的不断完善和相关技术的成熟,用电数据分析具备了广泛的应用前景。用电数据随时间和地区用电量的变化而变化,属于时间序列数据。许多专家学者在时间序列数据异常检测方面做了重要贡献,但目前已有很多算法的重点是时间序列数据中值的异常,很少针对时间序列的趋势异常进行分析。如何衡量电力数据的变化趋势是时间序列趋势分析的关键。常用的方法有分线段表示法、序列离散化等。其中序列离散化的处理较为简单,但存在严重的信息损失。分线段表示法能大体上反映序列的趋势变化,但是无法对不同变化时间维度下趋势进行对比。
1大数据挖掘算法
大数据挖掘是当今社会研究的热点问题,所谓数据挖掘,是指从大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。通常分为有监督学习算法和无监督学习算法。其中,无监督学习算法是对没有分类标记的训练样本识别其结构性知识,比如聚类分析。而有监督学习算法,是事先对具有标记(分类)信息的训练样本进行学习,再对样本外的数据进行分类预测,也称分类算法。常见的分类算法有决策树、神经网络、支撑向量机和贝叶斯等,不同的分类算法,由于原理的不同,存在各自的优缺点和适合的应用场景,各个算法的优缺点如表1所示
表1各个算法的优缺点
2售电数据挖掘平台的设计与实现
2.1建立精准预测体系
评价模型需要在海量数据环境下周期性地进行统计、计算、分析,对平台性能有很高的要求。考虑采用大数据计算的系统架构,基于分布式架构实现批量计算、流式实时计算,利用分布式消息总线技术实现多个节点的通信,利用分布式缓存提升读写性能,兼顾整体性能、可靠性与可扩展性。用户用电行为的时空算法,既根据用户的时间维度(小时、日、周、月、季、年)和用电潮流的空间维度,利用冻结电量算法、电流算法、电压算法、超容和私自启用算法,分析用户用电异常。
2.2冻结电量算法
将冻结电量表里的没有除以综合倍率的电量数据,和功率表里的通过用户编码、名称、电能表资产编号进行匹配,除以综合倍率(综合倍率为0的数据不处理),然后比较同一家用户的,电能表资产编号V开头的电量(终端虚表)和电能表资产编号非V开头的电量(计量表),比较后,统计出大于20%(用户可以在配置文件中设置)的异常数据,以列表的形式展示出来,支持导出excel表。同时,根据电量表的空间关系,进行空间维度分析。
2.3电压算法
将电压表和功率表相匹配后(按照用户编码、用户名、终端地址和电能表资产编号),凡是PT变比大于1的表,均为高功高计;凡是PT变比等于1的表,均为高功低计。其中高功高计的数据,凡是AC任意一项小于10,24小时内出现一次,均为异常数据。对于高供低计的数据:1、AC项任意一项均为0,为异常数据。2、A、B、C任意一项大于260或者低于170为异常,24小时内出现一次,均为异常数据。满足上述的电压异常数据,以列表的形式展示。同时,根据电量表的空间关系,进行空间维度分析。
3用电类别异常识别
3.1模型构建
采用70%的数据作为训练数据,分别采用决策树、神经网络、支撑向量机、朴素贝叶斯等算法建立了模型,并用剩余30%数据进行了测试。各算法建模参数和测试结果如图1所示。神经网络建模参数如图2所示。支撑向量机建模参数如图3所示。朴素贝叶斯建模参数如图4所示。
3.2模型结果
主要选取了总体正确分类率、Kappa统计量这两个评估指标作为模型评估参数,各算法建立的模型测试结果如表5所示。从结果看,神经网络算法得到的模型准确率最高,其次是决策树算法。
考虑到业务实际情况,除了需要知道哪些企业用电性质申报存在欺诈,还需要了解对方具有什么用电特征,因此相比神经网络为黑盒模型,决策树模型可以得到显性的业务规则,因此最终选择决策树模型作为最终的模型。通过决策树算法对用电数据进行分析建模,最终得到用电性质识别模型,决策树的根节点到每个叶子结点形成的路径就对应一条用电性质决策规则。
3.3用电数据趋势验证环境
用真实的用电数据验证算法的有效性。数据集是由电网公司的智能电能表收集的某一个测量点在一段时间内的实际用电功率数据,数据收集的时间间隔为1h,每天收集24次,数据集总共有1个月的数据。此数据集是1个标准的时间序列,本文中的方法可以直接在数据上面进行试验。为检验算法的有效性,将试验数据集分为两部分:前28天实际用电功率数据为第一部分,用做基准数据测试后面到达的数据变化趋势是否存在异常;最后3天的数据为第二部分。由于整个数据集的变化趋势是正常的,为验证算法的有效性,在后3天的数据中随机选择k个时间点数,并将这k个时间点对应的用电数据扩大为原来的m倍组成测试数据。认为选中的k个时间点对应的用电数据为可能引起趋势异常的数据,然后测试算法能否有效探测到这些异常数据点。
3.4创新拟合统计方法,精确预测用电行为
应当打破以往简单的电量预测流程,构建滚动化、准确化、智能化的电量预测体系,提高了公司的电量预测水平。目前,仅在收集年售电量数据的基础上,新型电量预测体系将预测的偏差率由原来的20%缩小至5%。随着未来数据量的增加,新型电量预测体系的准确率将持续提高。在准确预测电量的基础上,公司各项核心业务的管理水平也得到了极大提高。在公司统计线损管理中提高了线损管理水平,提高统计频率的同时通过自动生成报表减少了统计工作耗用时间,并且由于新型电量预测体系的闭环管理,加强了预测准确性的同时减少了预测工作的人力成本;在电费回收中降低了资金回收压力,使得用户售电量分析更直观、更准确、更清晰,有效降低电费回收风险,同时为个性化服务的开展夯实了基础,使得服务水平明显提升;在财务现金流预测中减少了售电收入的偏差,使得现金流预测更科学、更合理、更适应企业的长远发展,有效控制现金流量,缓解资金紧张,提高资金使用效率。
结语
文以电力公司业务中心营销系统、用电信息采集系统的数据,利用大数据挖掘Spark组件对公变台区异常用电行为中的台区电压异常、重载过载台区异常进行分析研究,通过数据选取、数据清洗、设定阈值规则实现异常数据筛选,运用Spark组件、并列数据库、云计算等技术实现对台区电压异常、重载过载台区异常信息提供精准定位及系统页面设计实现数据结果的可视化。
参考文献
[1]李皎.大数据时代到来对电力行业发展提出新要求[J].华北电业,2012,(04):82-83.
[2]董莉丽.基于大数据挖掘的客户用电行为分析[J].黑龙江科技信息,2016(4):45.