辽宁省电力有限公司抚顺供电公司 辽宁省抚顺市 113000
摘要:电力营销业务开展过程中,海量数据随之产生,这些营销基础数据能够准确反映出电力营销业务的开展状况,结合大数据技术,对海量的电力营销数据进行获取、清洗、管理、分析与呈现,能够帮助电力企业从数据中发掘各类有用信息,从而完成电力营销服务水平提升,推动电力企业信息化建设不断深化。
关键词:大数据背景下; 电力营销; 信息化建设
一、电力营销数据存储与集成管理
HDFS对营销数据进行存储与管理,对数据进行集群分布式存储,满足大批量数据处理的需求。在HDFS集群中,底层有大量的廉价计算机端口(Personal Computer,PC端)通过光纤高速连接组成机架,集群中的机器采用主从结构。在HDFS 1.0中,1台机器作为主节点,即名称节点,其他的作为从节点,即数据节点。在HDFS 2.0中,2台机器作为主节点并进行分区管理,名称节点相当于整个集群的管家,为集群提供元数据服务,起到的作用类似于数据目录,而名称节点则负责存储具体的数据。
在进行数据存储时,可以将从各类传感器、国网SG186营销系统、用户信息采集系统、应用程序(App)、微信平台、线上客服中心等处采集到的数据存入HDFS。在客户端发出数据存储请求后,主节点会创建一个新的文件系统命名空间,并根据各个数据节点的可靠性做出存储响应,在存储数据时,名称节点会将数据进行分块,并为各个数据块创建副本,然后按照特定的存储策略将其存储到所分配的数据节点上,待数据节点返回确认信号与更新消息,即完成存储。
而在读取数据时,采取就近原则进行读取,客户端发送访问请求后,从名称节点处获得各个数据块副本存放的位置列表,明确数据块存放于哪一数据节点,然后HDFS通过特定的应用程序接口(Application Programm ing Interface,API)确定客户端和数据节点所属机架的身份标识号(Identity Document,ID),若某数据节点与客户端同属某一机架,则优先读取该数据节点上的副本。而且,在名称节点中,利用元数据镜像文件(Fs Image)和操作日志文件(Edit Log)2种数据结构,能够实现对数据的更新操作。当主节点启动后,会将存储元数据的Fs Image从底层加载出来,并与Edit Log中所存储的整个运行过程中的诸如创建、重命名、删除等操作进行合并,得到新的元数据,采用第二名称节点解决Edit Log不断增大的问题,以此来保证能够以较高的效率实现对数据的操作。利用Hadoop平台完成数据的集群分布式存储,不仅能够实现大规模数据的高效存储与读写,而且HDFS自有的备份机制,能够很好地保证电力营销数据的准确性、完整性、适用性。而若想要打破数据屏障,实现数据共享与交换,则可采用HBase数据库,对各种类型的松散数据进行集成管理。HBase使用四维坐标映射表对数据进行列式存储,利用库函数、主服务器(Master Server)、区域服务器(Region Server)这几个主要的功能组件,以HDFS为底层文件存储系统,实现对数据的存储与访问。
二、电力营销数据处理与分析
电力营销数据类型丰富,包括时序数据,如用户用电消费记录,其中由包含用户的电能消费时间、用户姓名、用电地址、电费单价、用电量以及联系方式等基础信息;时空数据,例如提供供电服务的电力企业电网布置架构与资源分配情况等;快速、持续流入和流出的流数据,在对海量、多元、异构的电力营销数据分析之前,可以先对数据进行预处理,例如,针对电力营销数据的数量级存在差别的情况,可以先对数据进行规范化,既能保证数据的完整性,还能实现最小化数据冗余。Z-score标准化方法适用于数据极值不确切的情况,通过数据的分布,确定数据的标准差σ与均值μ对数据进行规范化处理,Z-score方法的规范化公式为:
式中:Z为经过标准化方法处理后的数据;x为原始数据。
在进行电力营销大数据的处理与计算时有多种模式,不同的模式分别适用于不同的数据处理需求,需要针对数据类型、用途等进行选用,从而让数据与技术共同协作创造最大的价值。其中,分布式处理技术可以用来对大规模分布式存储的数据进行批量处理,流处理技术则主要用于数据的实时处理与快速响应,内存处理技术可以实现对数据的高速读取与处理,此处,以Hadoop平台提供的Map Reduce组件为例,分析如何对大批量的电力营销数据完成非实时的分布式并行处理。
Map Reduce采用非共享式架构,借助集群对大规模数据集进行并行处理,将待处理的数据集切分为独立的分片,即切片(split),为每一个分片单独启动一个map任务,通过多个map任务实现并行处理,集群中的计算节点可采用廉价的PC机,且任何一个节点出现问题,都不会对其他节点的运行产生影响,使对数据的处理更加高效、安全,运行成本降低,且遵循计算向数据靠拢的理念,避免频繁的数据迁移,使得对数据的计算可以直接在数据节点上进行,极大地节省了数据传输造成的开支,提升了程序处理性能。Map Reduce支持运行用户自己撰写的程序,在处理营销数据时,涉及了底层文件存储系统的Client客户端、HDFS、作业跟踪器(Job Tracker)、任务跟踪器(Task Tracker)、任务(Task)以及可插拔模块任务调度器(Task Scheduler),在执行具体任务时,Task Tracker通过心跳(heartbeat)方式将一些自己的资源使用情况、任务运行进度等发送给Job Tracker。
对大规模的电力营销数据进行处理时,需要先通过输入格式(Input Form)模块对数据进行验证与逻辑分片,然后记录阅读器(Record Read)根据分片信息从HDFS中加载数据块,并输出为键值对<key,value>,map函数将这些键值对作为输入,经由map函数中用户自己撰写的程序对数据进行处理后输出为一堆键值对,将这些键值对进行分区、排序、合并、归并,即shuffle,分发至不同reduce函数,reduce任务收到<键,值列表>,即<key,value-list>后,根据用户撰写的reduce函数中的处理逻辑完成数据分析,分析结果以键值对的形式借助输出格式(Output Form)模块输出到HDFS中。
三、电力营销数据挖掘与价值提升
在对电力营销数据进行管理时,不仅需要对数据进行简单的处理与分析,更需要进行深入挖掘。通过关联规则、聚类分析、统计分析、贝叶斯网络、神经网络、回归分析等手段发现数据之中隐含的信息,帮助完成对用电负荷、客户需求、电路线损的预测等工作,为实施精准有效的营销战略与策略提供支撑,完成数据价值提升。
以用电负荷预测为例,因电能具有无法大量储存的特殊性,电力企业在发电、供电、配电过程中能对用户的用电负荷进行预测,尽可能地保证供需平衡。否则,电量过多,会导致大量电能浪费,增加了不必要的生产和运营成本;电量过少,用户基本的用电需求得不到满足,各类设备无法正常运作。因此,针对影响用户耗电量的各种因素,以数据为基础进行深入地挖掘分析,发现各因素与电能供应之间的关联关系,能够有效提高电力企业的供电协调能力,降低企业的成本。例如,各个季节、各个工作日和节假日、各个时间段,用户的耗电量也不尽相同,因此,可尝试采用关联分析的经典算法——FP-growth来发掘用电负荷与时间之间的关联关系。FP-growth算法中最为核心的是FP-tree,在进行分析时,首先需要构建FP-tree,然后根据所搭建的FP-tree来挖掘频繁集。在搭建FP-tree时,第1步是要对数据库进行扫描,得到频繁项集(Frequent Itemset)F以及各个项的支持度,根据设定的supmin(最小支持度)对项进行筛选,去掉小于supmin的项,然后将频繁项集F按支持度进行递减排序得到列表L,并将原数据集中的项依照列表L中的次序进行排序与表示,然后为FP-tree创建根节点,并将其标记为“null”,再次扫描数据集,依照数据路径搭建FP-tree。在利用FP-tree产生频繁集时,依照自表尾至表头的次序对各个表项进行考察,不断递归,建立每个表项的模式树,得到关于每一个表项的频繁集。将FP-growth算法应用于Map Reduce模型中,能够帮助发掘用电负荷与季节、时间段、节假日等因素关联的紧密程度,从而针对关联度最高的因素,进一步采用预测模型进行短期负荷预测,实现电力营销精准化管理。
参考文献
[1]白亮.大数据平台背景下电力营销信息化建设浅析[J].数码设计.CG WORLD,2019,008(011):P.74-74.
[2]郑颖.浅谈大数据环境下电力营销信息化建设[J].中国设备工程,2019 (23).
[3]覃玉华,郭蓉.浅谈大数据环境下的电力营销信息化建设[J].通讯世界,2019,026(008):282-283.
[4]左航.浅谈大数据背景下的电力行业数据应用[J].百科论坛电子杂志,2019(1).
[5]许为,程修远.基于大数据背景的电力营销信息化应用探讨[J].轻松学电脑,2019,000(019):P.1-1.