智能电网电力大数据高性能处理方法优化

发表时间:2021/5/6   来源:《中国电业》2021年1月3期   作者:杨玲玲
[导读] 现如今,我国是智能化快速发展的新时期,传统的电力大数据处理方法难以控制数据的全局变量,导致数据处理工作量过大,影响处理效率。
        杨玲玲
        贵州电网有限责任公司毕节市郊供电局    贵州省毕节市    551704
        摘要:现如今,我国是智能化快速发展的新时期,传统的电力大数据处理方法难以控制数据的全局变量,导致数据处理工作量过大,影响处理效率。为此,文中基于SaaS模式设计了新的智能电网电力大数据高性能处理方法。首先建立SaaS模式下的数据处理平台,并确认数据处理目标函数的最大值与最小值。在完成目标函数确认后,通过构建多维超立方数据模型控制数据全局变量,在此基础上,使用神经网络处理电力数据,通过消除数据偏差,保证处理后的电力数据可直接通过在平台上使用。实验结果表明,与传统处理方法相比,文中方法的载入和处理速度更快,充分证明了该方法的可行性。
        关键词:SaaS模式;电力大数据;目标函数;全局变量;神经网络
        引言
        大数据是科学技术发展至今的一项利国利民的重大变革,大数据基于收集整理分析诸多数据,可以有效地优化社会上的资源配置,为人们的生产生活提供方便。举例而言,我们平时网购时各大网购APP上都会有的一项服务“猜你喜欢”便是大数据在人们日常生活中的一个应用。根据这一发展趋势,各行各业都进行了大数据方面的改革,电力行业也不例外。本文从电力大数据的角度出发,首先对电力大数据这一概念进行了简单的介绍,然后分析了基于分布式技术的电力大数据存储和计算解决方案,最后进行了典型应用场景的性能验证,希望为分布式技术在电力大数据高性能处理中的应用提供一些新的思路,使电力系统更安全高效地完成各项生产与经营任务,促进经济发展,从而为社会主义现代化建设添砖加瓦。
        1大数据的应用
        目前,信息化、科技化技术正在不断的进行高速发展,各种各样的信息资源呈持续上涨趋势。人们在感受科技给生活带来的变化同时,也造成了数字信息全球化资源快速增加。根据国际上对该项数据的统计结果显示,在2015年,全球的数据总量已经达到了2.3ZB,并且预计,还会以平均每年50%的速度进行增涨。大量数据的增添,社会的各个层面皆开启了数据化时代。我国的电力企业是全世界排在前列的能源经济体系支撑,无疑大数据的时代早已在电力企业中开启。
        2智能电网电力大数据高性能处理方法优化
        2.1运维数据存储
        目前电网企业中主要数据存储介质类型包括内存和外存(磁盘、磁带、光盘等)等。根据运维数据类型和消费场景,可以选择不同的数据存储方式。主要数据组织管理方式包括传统的块级存储方式、NAS级文件存储方式、结构化数据库组织等。大数据特征和应用特点恰好和现实IT环境中的不同的存储介质和组织管理形式映射。传统的独占式存储只能向上扩展,很容易达到性能和容量的天花板。在这个大数据和信息爆炸时代,分布式存储已经成为大数据存储的主流技术,其性能与成本呈线性增长关系;各个节点相互冗余,可以物理分布在不同的数据中心,对外提供统一的存储能力,借助IP网络完成数据通信和数据传输。通过采用通用的标准化硬件,降低了单位容量成本,有效缓解数据的存储的容量和性能挑战,降低管理难度。相对于传统的SAN存储和NAS存储,分布式存储具有经济、高效、高可用等特点,快速取代了传统IOE体系的存储。文档存储以封包KV键值对的方式进行存储,是NoSQL存储的一种方式,相对于传统关系模型无需强制架构,支持嵌套,更加关注文档内部的结构,直接支持二级index高效查询。文档存储支持对结构化数据的访问。应用开发时做好检索封包等约定,或根据数据特点划分不同的文档集合。KV存储磁盘读写次数相对较少,比起传统的SQL数据库读写性能更加出色,不涉及太多数据关系的业务数据。列式存储将数据按行排序,以流的方式在列中存储所有的数据。

列式数据库非常适合大数据批量处理和即时查询场景,可以有效减少数据量读取I/O需求,降低系统负载提高处理效率。
        2.2多为索引
        (1)为了确保多为数据更好的实现查询功能,需利用数据集中的多为索引。多为索引中的过滤器以及refinement阶段构成了该查询分析。过滤器阶段是候选集选择,实行初级的过滤。过滤之后再利用refinement阶段,实现仔细的查找,获取最后的结果集。该数据索引建立在数据集的基础上,完成高质量的查询作业以及数据分析。经常使用的二级索而言,是建立在具体的维度上,在频率非常高查询时,可在维度上进行二级索引的建立。例如:建立B+树。进行查询的过程中,可直接利用一次二级将索引过渡,之后对需要的数据进行定位,极大的提升了查找的效率。(2)该平台突破了Hadoop只对单项索引进行执行的问题,实现了所列索引的应用,将系统的查询速度全面提升。为了加强不同应用系统的支持,平台能够支持Secondary、CCINDEX、IMPSecondaryIndex三种索引。在此基础之上,利用服务端的技术,通过服务器对数据结果实行计算,之后返还给查询方,提高了对于复杂查询的运算效率。
        2.3应用神经网络处理智能电网电力大数据
        在上述研究的基础上,利用降低神经网络实现对智能电网电力大数据的高性能处理。因在正式处理前,本研究使用了多维超立方数据处理模型对数据全局变量进行了控制,因此在利用神经网络进行数据处理时可以直接将数据接入输入层中。
        2.4关键技术模型
        (1)存储系统。分布式文件系统是电力大数据存储和计算解决方案关键技术模型之一,对电力大数据的存储和处理非常相宜。分布式文件系统通常分为master与slave两大单元,其中master适用于元数据信息的存储,slave则适用于数据信息。(2)计算系统。基于分布式技术的电力大数据并行计算主要利用了MapReduce计算模型进行大规模集群的计算处理,利用MapReduce在大规模集群上进行高容错的任务并行计算,还可以使SQL处理简单细节化,快速且高效。分布式MapReduce还可以智能的将任务统筹分类,在整合数据库资源后,再进行任务调配和并行处理,使得分布式并行计算平台以最优的方案完成任务。
        2.5监控数据采集
        即运维监控数据的获取,对业务质量的监控和告警。在构建立体化监控的过程中,收集数据并非最终目标,挖掘数据的价值才能体现运维价值所在,一般运维对业务质量保障的定义为几个维度。(1)监控,主要关注覆盖率、状态反馈、指标度量。监控需要从底层硬件到上层软件应用全覆盖。(2)告警,关注告警及时性、准确性、关联性等。业务越来越复杂,每一个监控点都会产生数据指标、一个点状态异常可能造成海量重复告警。通过引入算法有效分级、追踪、关联、收敛、抑制,是智能告警的重要一环。结合CMDB中运维对象的关联关系,以面向业务的视角,将低层次的指标收敛为高层次的指标,实现技术运营数据的价值挖掘。
        结语
        本文针对目前智能电网电力大数据处理方法进行了研究。通过使用多维超立方数据处理模型实现对电力大数据的全局变量控制,并结合单项运行的神经元算法提高数据处理的性能。但也正是因为本研究使用了神经元算法,需要进行大量的样本训练,影响了方法操作的便捷性,因此在这一方面还需进一步完善优化。
        参考文献
        [1]刘慧君,吴家菊,纪斌.基于数据模型的通用数据处理方法研究[J].电脑与信息技术,2020,28(3):22-25.
        [2]陆万荣,许江淳,李玉惠.考虑边界稀疏样本的非平衡数据处理方法[J].重庆邮电大学学报:自然科学版,2020,32(3):495-502.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: