黄志勇
广东能源集团科学技术研究院有限公司 广东广州 510620
摘要:发电集团在各项目单位生产实时监测系统的基础上,建设生产大数据分析平台,有效解决数据孤岛、满足数据分发共享、运行效率及关联性分析要求,并进行大数据挖掘,为生产设备、流程工艺远程诊断,生产经营辅助分析决策提供有力的支撑。
关键词:数据交换;指标管理;计算模型;统计报表;设备故障预警;机器学习
1引言
由于集团公司与所属各单位信息化发展不均衡,随着业务及管理需求的发展,信息系统的数据越来越多,数据类型也越来越复杂,关联性和实时性要求越来越高。
目前,发电集团在数据接口建设工作方面,尚未建成统一的,标准化、规范化的数据接口平台。集团公司内部、集团与项目各单位、项目各单位内部的信息系统数据交互方式都是采用独立一对一、单向的方式,即某一信息系统需要提取另一信息系统相关数据时,都单独进行数据接口开发,进行单向单方面的取数,这必然导致信息系统之间的接口拓扑成蜘蛛网状的形式,存在重复建设、资源浪费、复杂、不便于统一维护及管理,不便于信息系统双向共享与交互,形成数据交互不对等,相对性信息孤岛等问题。因此,发电集团急需在建立统一数据交换平台的基础之上建立大数据分析平台。
2建设目标
大数据分析[1-5]平台建设采取主站集中部署,子站集成的方式。以集团所属各单位现存的信息系统为子站,以统一数据交换平台为数据枢纽,以发电集团广域网为传输媒介,汇集项目各单位相关信息系统数据,建立集团统一数据交换平台。实现大数据的采集、存储、计算,解决因为数据量、计算复杂而造成无法计算或需要消耗很长时间才能得到计算结果,并通过大数据计算进行机器学习、智能优化,实现传统分析无法实现的关联性分析。
3大数据平台优势
1)易用性,数据接入、处理、存储、分析、展现、机器学习的拖拽式全链路大数据开发。
2)可靠性,数据节点分布式部署,可选多份备份。所有系统控制节点主从热备,故障秒级切换。
3)企业级大数据存储,支持块存储、分布式文件、对象存储、SQL、NoSQL从GB到PB量级的存储解决方案,存储系统高可靠容灾设计, 用户按需选择数据热备数量,支持冷热数据分治,支持数据冷备策略自定义。高可扩展设计,存储系统可动态随企业数据量增加从GB到BP级的动态扩容,支持系统不停机动态扩容。
4)离线批处理计算,支持MapReduce、Hive等批处理计算作业。支持Spark分布式内存计算框架,以支持复杂的数据挖掘算法和图算法。支持丰富的作业调度策略,包含分钟、小时、天、月级周期或非周期的任务执行策略。
5)实时流处理计算,支持Storm流式任务作业引擎,覆盖实时要求极高的流式作业场景。支持基于Spark上的Spark Streaming,满足毫秒级的实时计算场景需求,如实时推荐、用户行为分析等。
6)文本检索及检索分析,万级纬度、千亿数据规模下向用户提供毫秒级高性能检索分析服务,满足用户的检索分析场景需求。基于Lucene的文本搜索服务器ElasticSearch向用户提供友好的RESTful接口的分布式多用户能力的全文搜索引擎,支持TB级别的全文检索应用。
7)机器学习,集成Spark机器学习框架,支持图计算和深度学习。内置分类、回归、聚类、关联规则等60余种丰富算法。
8)性能提升,以往都是计算单个机组、一天的几个指标值,如果同时计算多个机组、多天的几百个指标值,并带上条件过滤,计算效率就会很慢,需要消耗很长时间;采用基于Hadoop、Spark大数据平台则可以提高到几十秒内完成。
4系统功能
生产大数据分析平台按功能可细分为:指标管理、指标填报、大数据计算、设备故障预警。
(1)指标管理
维度管理:为大数据计算、统计报表分析设置指标分析维度,用户可以灵活扩展。
口径管理:为大数据计算、统计报表分析设置指标统计口径,提高指标不同口径的计算方法。
指标定义管理:用户可以自定义建立指标体系,包含指标的分析维度、口径,指标的计算公式,指标的验证公式,大大提高了指标的灵活性。
(2)指标填报
指标下发管理:用户可以自定义实现指标的填报模板、填报人、提交人、审批流程、前置条件、催报时间,指标填报的权限可以分配到具体某个人。
指标填报:系统将根据填报人、填报周期,自动生成需要填报的表单。
指标审批:系统将根据审批流程、审批人,自动将需要审批的流程展示。
指标下发管理实现了填报指标模板化,用户可以通过自定义填报指标,指标与人实现了关联,填报模板与审批流程实现了关联,大大提高了指标填报的个性化,不同填报表单可以有不同的审批流程,为未来填报指标的变化提供了灵活调整的方便性。
(3)大数据计算
离线计算模型:模型主要实现了从数据库中获取原始数据,根据指标体系,实现了任何时间点、任何指标的变化,系统都能自动将与当前变化指标相关联的指标进行关联计算,并将计算结果输出到大数据仓库中。离线计算模型不仅仅实现了当前填报指标的计算,更重要的是实现了与当前填报指标相关联的指标进行了重算,大大提高了数据的准确性、及时性。
实时流计算模型:模型主要实现了从kafka中获取实时数据,并根据用户自定义公式进行实时流计算,并将计算结果输出到大数据仓库中。以往的数据计算都是离线定时计算,大大降低了数据的实时性,采用实时流计算模型,只要数据发生变化,系统就实时进行计算,用户可以实时观看到最新的数据,大大保障数据的实时性。
统一任务调度:提供了可视化的任务调度,用户可以自定义离线计算模型的任务调度。
(4)设备故障预警
系统提供了设备故障预警模型,并定时的进行自动训练,并将训练模型发布到设备故障预警功能当中,设备故障预警功能根据训练好的模型进行设备故障预警,实现了机器学习。传统的设备故障模型,都是基于数学模型,人工采样来进行数据计算,采用了机器学习算法后,系统将自动根据历史数据进行模型训练,涵盖的数据量、异常数据比较大,系统通过不断的模型训练,使得模型的准确率越来越高,大大降低了人工参与,提高了计算的准确性、实时性。
5结语
发电集团的大数据分析平台是基于统一数据交换标准的,对发电集团所属各单位多种数据类型接口进行有效整合,实现多种类型数据星型安全可控、自定义、关联性交互及存储,在此基础上,结合相关管理制度的标准化、规范化要求,并利用大数据计算进行实时大数据、结构化数据、非结构化数据的大数据处理、计算、智能关联性分析,报表统计分析等。
[参 考 文 献]
[1]闫亚宁,基于Hadoop的数据处理平台设计与开发研究[J].现代信息科技,2019(3):5-7
[2] Big Data,Viktor Mayer-Sch?nberger, Kenneth Cukier[M],Recorded Books,2014,UK
[3]Bleiholder J,Naumann F.Data fusion[J].ACM Comput Surv,2009,41(1):1–41.
[4]J Dean,S Ghemawat.Map Reduce:Simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107
[5]孟小峰,慈祥,大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-149
作者简介:黄志勇(1983年4月),男,汉族,广东省河源市,广东能源集团科学技术研究院有限公司,本科,工程师,研究方向:电力通信与信息方面