陈丹丹 吴浩然
国网江苏省电力有限公司镇江供电分公司 江苏 镇江 212000
摘要:在信息化技术和计算机网络技术的飞速发展下,也促进了城市信息化建设的步伐,近年来,随着智能电表的推广及用电信息采集系统建设的逐步完善,电网公司积累了海量用户用电数据,为大数据技术在电力领域的应用提供了基础。
关键词:售电市场环境下;数据驱动;用户;用电行为
引言
随着社会经济飞速发展,科学技术持续进步,我国逐渐走向信息化发展时代,数据云平台的构建与完善,大数据技术应用更为广泛成熟,实现了在数据采集、存储的同时,具备数据分析与应用的功能。因此,电力大数据的价值依托于大数据挖掘得到进一步的开发,为电力行业以及智能电网的发展提供重要帮助。
1用户分类
在传统的电力用户管理和服务体系当中,对用户分类的基本标准是用电模式、电压级别。例如,从用电模式等级来分,可以分为居民用电、商业用电、工业用电等,不同类型的用电用户所需电压各有不同。居民用电、商业用电的电压标准为10kV以下,而工业用电又因工业类型不同而有所差异,大型工业用电电压等级高达110kV,而普通工业用电一般为10kV-35kv。值得一提的是,不同类型电力用户除了在电压要求方面存在差异以外,对电能质量的要求也有所不同。通过电力大数据技术,对用电用户的分类则更有科学性,主要表现在于其融合了现代数据分析技术。比如,目前我国基于大数据技术的分类方法是,对收集到的各类用户用电规律数据进行处理,形成可视化曲线,然后对曲线变化进行分析,结合聚类算法等科学计算方法,来对用电用户进行分类。另外,部分情况下还可以使用逆向分析法,对用户用电的特点进行分析,得出各类用户数据权重,然后根据数据特点来确定用户类别。显然,通过电力大数据技术所形成的用户分类机制,不仅可以很好区别不同用户类别,还可以对用户用电行为和具体特点进行分析。基于大数据技术的科学化分类,有助于电力企业做好用户用电趋势预测、需求了解,便于对所拥有的电力资源进行合理化分配,为不同用户提供搞针对性服务。
2用电信息采集与聚合
用电信息采集系统的物理架构,主要由主站层、通信层和设备采集层组成,设备采集层采集用户信息后通过通信层发送至主站层,主站层服务器了解并判断实时运行情况,在不良情况发生时发出相应调整指令。用电信息采集的直接入口和边缘计算点主要集中于用户侧智能电表上。用电信息采集依托负荷用电细节监测技术实现。不同于智能电表仅量测总功率,负荷用电细节监测可监测具体到户内用电设备的用电信息。负荷用电细节监测可分为侵入式和非侵入式两种,其中:侵入式监测(ILM)为总负荷内部每一电器配备具备数字通信功能的传感器,再经局域网收集和发送用电信息,成本较高;而非侵入式监测(NILM)相当于配置一个具有附加功能的智能电表,它仅在入户端安装一个总传感器,采集并分析其端电压、电流等电气量,实现对用户总负荷的分解,以监测单个用电设备能耗信息。相比ILM,NILM采用了分解算法,对分项用电信息在线反馈,具有经济、简单等优点,易于大规模推广,其提供的用电信息可用性好、价值密度较高,为用电行为分析、能效分析、需求侧管理等高级功能的智能用电服务提供量化支持,具有发展为下一代AMI核心技术的潜能。基于NILM的用电信息采集和分析架构,NILM单元对居民或楼宇用户的用电数据(通常为秒级或更细粒度)整体采集并分解得单一用电设备能耗信息,通过有线/无线通信网络传输至能量管理系统,利用云计算技术存储与管理,并将具体的能耗信息反馈至用户可视化与远控终端,为开展高级应用和家庭能效管理提供基础。
3层次聚类
层次聚类利用构造聚类树的方式实现数据的聚类。层次聚类的核心是对相似度的选择,来衡量融合的类与其他类之间相似性大小。一般来说有3种衡量方式,分别为单链接、全链接和组平均。此外还有重心法、WARD法等,采用不同的相似性度量方法能够获得不同的聚类结果。其中,单链接、全链接、组平均和重心法一般以欧氏距离作为距离度量,且针对负荷曲线是在高维空间分布较为分散的数据,全链接能够使得类间分布更加紧凑,一般有更好的聚类效果。WARD法采用协方差和相关系数作为距离度量,与其余4类均不相同。
4数据预处理
数据预处理包括数据清洗、缺失数据值处理、数据归一化处理等。数据清洗是将样本数据中特别离谱的数据、标注不明确的无效数据等进行剔除,将赘余的数据过滤掉。原始数据中不可避免的出现缺失值的现象,尤其是用户电量、功率等参数的缺失将直接影响窃电分析和预测的准确性,常用的数据插补算法有K近邻填充(KNNI)算法、拉格朗日插值算法等。本文采用最小二乘法的拟合算法对用户日用电量进行缺失数据插补。数据归一化处理是根据窃电评价指标将原始数据进行标准化,一般将样本数据处理为0~1的数,数据归一化的公式如为:
.png)
式中:xi为样本数据中任意第i个样本值;xmin为样本数据中的最小值;xmax为样本数据中的最大值。
5电力大数据的挖掘
针对电力大数据的挖掘,应用基于云计算的K-mean算法,推动数据处理与开发的大规模开展,起到提升数据处理能力、提高数据处理结果精准性的作用。依托于K-means计算模型的构建,对数据库中特定用户数据进行分析处理,进一步提升用电行为分析的科学性与可靠性。正因此,数据采集分析平台开展数据处理时,基于云计算的K-means算法成为常用的处理方式之一。针对基于SparkR的K-means算法应用,可有效消除以往云计算处理方式存在的频繁访问Hadoop问题。此算法的数据引擎是以Hadoop大数据群作为依据,通过对K-means算法的融合应用,有效利用R语言与内存计算特征来提升数据分析能力。相较于传统用电行为分析,基于大数据挖掘的用电行为分析可以获取更为精准、科学、可靠的结果,明确掌握用电计划与规律。同时,基于大数据挖掘的用电行为分析,有着更为完善且全面的理论依据,可以全面、及时地分析用户用电行为。
6 GMM聚类
GMM聚类的思想是将多维数据看作多维空间的概率分布,通过高斯混合模型表示出其概率表达式,是一种按照概率聚类的软分类方法。高斯混合分布的构建需要度量每个维度的协方差矩阵,在聚类过程中,对协方差矩阵的处理有2种,一种是仅考虑矩阵的对角元素,另一种则是直接考虑全部的矩阵元素。GMM聚类也需要进行聚类中心的初始化,也可以采用类似k?means聚类初始化的方法。本文对协方差矩阵和初始化两两组合,得到以下4种聚类方法:一是对角元素?k?means++算法,记为GMEM?DIA?PLUS;二是对角元素-随机初始化算法,记为GMEM?DIA?RAND;三是全部元素?k?means++算法,记为GMEM?FULL?PLUS;四是全部元素-随机初始化算法,记为GMEM?FULL?RAND。
结语
随着智能电表的推广及用电信息采集系统建设的逐步完善,电网公司积累了海量用户用电数据,为大数据技术在电力领域的应用提供了基础。本文提出一种基于神经网络和决策树算法的窃电预测模型,从试验比对和验证结果看,基于优化的神经网络能更快的收敛并且准确性也相对提高。
参考文献
[1]吴迪,王学伟,窦健,等.基于大数据的防窃电模型与方法[J].北京化工大学学报(自然科学版),2018,45(6):79-86.
[2]庄池杰,张斌,胡军,等.基于无监督学习的电力用户异常用电模式检测[J].中国电机工程学报,2016,32(2):379-387.