基于大数据的电力企业运维技术应用袁晓慧

发表时间:2020/6/17   来源:《中国电业》2020年2月4期   作者:袁晓慧
[导读] 在大数据时代,海量数据在处理、分析以及运用等几方面有着新的特点和要求
        摘要:在大数据时代,海量数据在处理、分析以及运用等几方面有着新的特点和要求,这使得基于大数据的电力企业运维管控技术应用设计有着特殊性。基于大数据的电力企业运维管理技术应用有着一般运维管理技术所没有的优势。对于大数据时代背景下的电力企业运维管控技术应用应当满足新时代的要求,运维管理、控制应用架构的设计也要符合现实状况。要将大数据运用到设计工作中,对电力企业运维管控技术应用设计进行创新。依据现实需求对电力企业运维管控技术应用进行设计和架构,使管理应用高效运转,发挥其安全保护作用。
关键词:大数据;电力工程;运维管控
1现状与存在的问题
        随着大数据的不断发展和应用,各电力企业内的多种经营业务以及运营系统和平台不断增多,其规模也在不断壮大。电力企业正在逐步形成主要由服务器主机、数据库系统、互联网设备、安全设施以及应用软硬件系统等组成的数据信息运行系统,关系到企业内部各个重要业务系统。但是在数据信息管理系统以及运用安全保护方面,电力企业现阶段大多数运用的是分布式的多个点管理的方式,却少了对服务器主机、数据库系统、互联网设备等登入账号全面管控的系统。没有办法对登录账号建立、授予权力、权限更改以及登录账号注销或冻结的全过程进行追踪和管控;没有办法对长期使用的账户、密码强度较弱的账户、长时间没有修改密码的账户进行分析和处理,非常易使登录账户的密码遭到泄漏,进而可能对电力企业的内部系统的稳定、可持续运转产生非常大的威胁。因而,电力企业十分需要一个非常有效果的办法来对内部数据信息进行保护。
运营维修部门目前存在的主要问题有:(1)运行维修的工作人员数量十分有限,但是承担着企业内部许多服务器和数据库的安全保护责任,非常需要先进的手段措施来提高工作人员的效率。(2)每天对运行维护工作进行的安全管理一般是通过抽取审计工作簿来完成的,由于缺少目的性,因而难以发现其中存在的问题。(3)通常要对安全基线配置状况进行抽取检查和对比审核以及检验,耗费时间耗费精力而且效果不显著。(4)在运行维护安全管理控制这一板块中相对重要的登录账号管控部分,使用者只是用堡垒机对账户密码进行托管,并没有十分好的管控方法。
2系统架构设计
传统的KNN算法的系统逻辑图如图1所示。



系统管理模块包括:数据采集模块、数据存储模块、批量分析计算模块、知识库模块、自助客服模块五部分。
3.1数据采集模块
主要在指定主机服务器目录下采集加工处理后的运维体系工单数据。该部分需要实现以下功能:(1)采集器对数据采集时间间隔的定义,本系统采集间隔时间定义为1 h;(2)采集 的数据文件类型Source,本系 统 采用TXT文件;(3)对采集文件的编码定义,被采集文件为UTF-8编码格式;对Hadoop建立数据接口,在数据采集的同时存储于Hadoop文件系统上。
3.2数据存储模块
利用Hadoop分布式文件系统来实现文件存取功能。具体需要实现的功能如下:(1)分布式文件读取,根据分布式文件系统路径和文件名来读取到文件内容;(2)分布式文件写入,根据分布式文件系统路径和文件名写入文件;(3)目录规划,根据运维体系中“所属应用系统”划分分布式文件系统目录路径。具体划分依据为:ERP人资与人资管控;ERP物资与电子商务系统;ERP设备;ERP权限变更;门户目录;ERP项目;基建管控;ERP财务;生产管理;GIS;经法OA系统办公等;帮助(意见与建议);桌面运维;值班长(不接电话);投诉受理。在数据库建立数据字典,创建字典ID,字典名称、字典描述、序号等信息,在分布式系统下创建/ics/字典名称/yyyymmdd/字典名称_yyyymmdd.txt文件;(4)操作日志表selfservice_ld_file,主要字段包括,数据日期(datatime yyyymmdd)、唯一编号、文件HDFS路径、文件大小、文件名、文件保存时间、spark处理时间等字段,在文件进行写入到分布式文件系统时需要在该操作日志表添加一条相应的记录。
3.3批量分析计算模块
该模块是整个系统分析计算的核心,主要针对分类的工单运维体系进行分析,通过分析历史运维工单数据,得出数据之间的聚类关系与相似度关系。当用户需要检索时输入问题,在问题处理模块,首先分析用户问题所属分类,分析问题中语法、语义、词,结合一定数据算法,检索到与问题匹配精确度比较高的解决答案来。并且最终返回给用户的一个过程。短文本相似度计算,基于词义词典的方法,将短文本分解成一系列的词,然后基于语义词典计算词与词之间的语义相似度,最后将词与词的语义相似度综合起来得到文本与文本的语义相似度。其中,语义词典起到十分重要的作用,只有通过它,才能够计算词与词之间的语义相似度。当用户提出一个新问题时,采用以上方式把它映射到语义空间中。新问题和问题集的某个问题的相似度可以通过它们对应向量的余弦相似度得到。

3.4知识库模块
        知识库模块存放运维工单数据经过相似度量化分析后的数据以及系统中用到基础数据,这些数据包括:(1)数据字典信息,有Hadoop定义存放文件路径信息、“所属应用系统”划分大类信息:ERP人资与人资管控、ERP物资与电子商务系统、ERP设备、ERP权限变更、用户目录、ERP项目、基建管控、ERP财务、生产管理系统、GIS、经法OA系统办公等、帮助(意见与建议)、桌面运维、值班长(不接电话)、投诉受理等;(2)使用系统用户信息,有用户名、登录密码、所属部门、岗位等信息;(3)操作日志信息记录表。
3.5自助客服模块
自助客服模块是基于Web浏览器页面,对大数据智能分析技术在客服运维体系中的研究与应用平台所需要的基础数据进行维护,对客服运维智能化分析平台结果进行展现的部分。

3.5.1问题处理模块
问题处理模块,需要对用户的问题进行分类。问题对应答案的类型,当对问题进行分类后,对应的答案也应该属于该类别中。问题的焦点,需要通过语义、语法分析,提炼出用户问题的核心。本系统以问题关键字的集合,作为短文本索引的查询输入。
3.5.2信息检索模块
信息检索模块的目的是获得和问题相关的信息,主要包括信息收集和信息过滤两个步骤。信息收集是通过查找内存或者数据库找出相应的信息。
3.5.3答案抽取模块
        答案抽取模块从信息检索模块得到信息然后提取出精确的答案,并且返回给用户展现在自助客服页面。
结束语
该设计从客服实际需求出发,以提供良好的服务为目的,以提高公司信息运维。利用智能客服和自然语言处理的技术设计搭建该智能客服系统。当客户不能及时解决问题时,能有效自助地获得解决方案,使用户满意度提高,从而加快信息处理的速度,公司业务运维更加流畅。从公司的角度,该设计加快了信息化建设,降低了公司的运营成本,使公司的运营更有效率。
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: