大数据环境下电力信息系统监控预判的智能分析 曹敏

发表时间:2020/6/1   来源:《基层建设》2020年第4期   作者:曹敏
[导读] 摘要:为了满足各个行业对电力的需求,传统电网系统逐渐不能满足现代社会对电力的需求,智能电网逐渐取代了传统电网。
        国网内蒙古东部电力有限公司信息通信分公司  内蒙古呼和浩特市  010020
        摘要:为了满足各个行业对电力的需求,传统电网系统逐渐不能满足现代社会对电力的需求,智能电网逐渐取代了传统电网。另一方面,随着电力信息系统和基础设备的增加,电力信息系统和基础设备的故障也在增加。因此,如何避免信息系统和基础设备的故障也是电力系统中的一个重要课题。在信息系统和基础设备故障的研究中,故障预测是预防电力系统故障的有效方法之一。
        关键词:智能分析;告警;预判;信息系统;智能分析;
        随着电力信息系统和基础设备的增加,电力信息系统以及基础设备的故障也随之不断增长,因此如何避免信息系统以及基础设备故障的发生也称为电力系统中的一个重要课题。
        一、电力大数据关键技术
        1.集成管理技术。集成管理技术主要指将两个或两个以上相关项目的数据进行整合,从而建立应用软件的过程,它的功能会更加多样化。用另一种说法或解释就是,把原本不同性质、不同结构功能、不同格式的数据按照某种程序规则进行调整集合在一起,从而有利于相关体系提供更加科学有效的数据管理。集成管理技术在相关电力企业或部门应用的比较频繁,它主要是帮助企业解决电力系统内部比较繁杂的数据问题。
        2.数据分析技术。数据分析技术主要是把相关软件接收到的信息转化为相关数据,由专业人员对这些数据进行分析,从而将这些数据转变成重要的知识信息,企业再根据这些信息来进行下一步的计划或决策。通过利用大数据分析技术可以从电力系统众多的数据中,找出相关运行规律,能够更好的促进电力行业的快速发展。同时大数据分析技术是在传统数据分析技术的基础上进行不断发展创新得来的,因此它更适合现代社会的发展。
        3.数据处理技术。电力领域内的数据处理技术主要包括相分布式计算技术,内存计算技术,流处理技术等。分布式计算技术主要是指系统内的数据分布趋势以及计算方法;内存计算技术主要指对于众多繁杂的数据的整理存储,同时还能进行同步计算;流处理技术是指对于系统中的一些异常数据,例如没有及时处理或者有故障的数据等的一种处理方式。
        二、电力大数据平台的总体架构
        数据平台的总体架构是电力系统的关键核心部分,总体构架中的一点小失误就可能影响整个系统的运行,因此,需要相关工作人员对大数据平台的总体构架进行全面的检查,确保安全无误。Apache基金比较看重大数据平台总体构架的合理安全性,普遍适用于企业的电力规划。它的主要思想是利用特定的分布系统作为大数据的存储框架,利用MapReduce对数据进行相关处理。大数据存储主要是利用该框架本身的成本低和延展性能好的特点,进一步将相关数据存入到特定的服务器或电力系统中,一般而言,标准的存储系统或者虚拟机就可以构成该框架的终端服务器进行使用。大数据的储存框架和处理框架都是电力系统中的重要组成部分,它们都主要包括计算机语言Pig、数据储存工具Hive。文件传输工具等模块。对于现在的电力企业而言,现在的大数据处理技术要远远比传统的大数据技术更能满足他们的需要,传统的大数据与现代的大数据处理流程最大的区别在于:现代的数据处理流程能够处理的数据类型更加多样化,通常都运用MapReduce等方式进行。
        三、相关模型以及实现
        1.目标以及方法。由于研究存在较多状态,选用最为典型的3级告警转为5级告警的概率预测作为该次研究的范例进行说明。首先要从告警数据中提取正(3转5)负(3转3)样本。对于每个5级告警,其之前一天之内的所有3级告警均可构成一条正样本;而在每个5级告警之前5天(5天是为了消除短时间内VM—Storage性能的相似性)以上的3级告警之间均可构成一条负样本,并且正样本略少于负样本。本次预测模型选用,随机森林(Random forest,RF)算法,该算法属于集成机器学习算法,利用随机采样技术b00t—strap和节点随机分裂技术构建多棵决策树,通过投票得到最终分类结果。RF具有分析复杂相互作用分类特征的能力,对于噪声数据和存在缺失值的数据具有很好的鲁棒性,并且具有较快的运算速度,其变量重要性度量可以作为高维数据的特征选择工具,近年来已经被广泛应用于各种分类、预测、特征选择以及异常点检测问题中。
        2.数据预处理。(1)缺失值处理。数据缺失是数据分析中经常碰到的问题。缺失值产生的原因多种多样,主要分为机械原因和人为原因。机械原因是由于机器问题所导致的数据收集或保存失败造成的数据缺失,比如存储器损坏,服务器挂起所导致某段时间数据未能收集。人为原因是由于人的主观失误、历史局限等因素造成的数据缺失。对于缺失值的处理,从总体上来说分为删除缺失值和缺失值填充。缺失值填充的方法又有均值填充、中位数填充、众数填充,线性插值等方法。本次鉴于综合因素的影响,如果无特殊声明,选择均值填充的方式处理缺失值。(2)异常数据处理。经过数据缺失分析之后,需要对数据中的异常值进行检测。在处理数据的时候。常常会遇到个别数据值偏离预期或大量统计数据值结果的情况。如果把这些数据值和正常数据值放在一起进行统计,可能会影响实验结果的正确性。如果把这些数据值简单地剔除,又可能忽略了重要的实验信息。这里重要的问题是如何判断异常值,然后将其剔除。判断和剔除异常值是数据处理中的一项重要任务,异常值指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值。异常至少包括三个方面的异常:第一是类型不匹配异常,比如本来是number类型结果填了一个date类型;第二是大小不匹配异常,对于string类型可能出现非法字符,可能出现字符串太长或太短,对于number类型超过合理范围的最大值或最小值,整型变成了浮点型,对于date类型,出现类似2月30号这种逻辑上的错误取值;第三是分布上的异常,比如正态分布,取这个值的范围在3Sigma外可能是异常值。最重要的是要结合具体的字段含义来分析出现的值是否合理。对于异常值的处理可以参考缺失值的处理技术,删除或者填充。对于告警数据表列出的字段,并没有类型不匹配的情况。而大小不匹配、分布异常需要结合具体的业务意义来判断,业务意义需要逐字段与客户深入交流。
        3.数据模型的建立及调优。数据模型的建立及调优。使用随机森林算法建模,将数据集的80%作为训练集,20%作为测试集。使用随机森林的袋外错误率(0ut—ofBagError)作为标准,选择最合适的随机森林中树的规模。具体情形如图1所示。
       
        图1随机森林算法建模
        为了使模型尽量不产生过拟合现象,根据00B结果,随机森林采用92棵决策树。训练出的模型的特征重要程度如图2所示。
       
        由图得知,最重要的性能指标有:整体状态(黄),整体状态(红),已使用空间百分比(1小时前),已使用空间百分比(3小时前),整体状态(灰),已使用空间百分比(0.5小时前),剩余空间大小等。
        总之,模型使用方式是以告警数据和虚拟化平台存储性能数据作为输入,输出当前3级告警是否会在1天内转为5级告警,以及转移成5级告警所用时间。但是由于本次用于模型训练的数量较少,因此模型的性能受到样本过少的限制。后期通过积累更多的样本可以使模型的性能更加出色。
        参考文献:
        [1]王华.关于大数据环境下电力信息系统监控预判的智能研究.2018.
        [2]陆海燕.浅谈大数据环境下电力信息系统监控预判的智能分析.2018.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: