自动化运维管理系统故障处理机制的设计与实现

发表时间:2020/9/10   来源:《建筑实践》2020年11期   作者:段成龙
[导读] 目前,我国是信息技术快速发展的新时期,随着信息化建设的深入,企业IT系统日趋复杂

        段成龙
        210122199402153***辽宁 沈阳 110000
        摘要:目前,我国是信息技术快速发展的新时期,随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、储存设备、中间件、业务系统让运维人员难以轻松应对,迫切需要自动化的运维管理服务,可以提供自动化的故障处理机制,实现故障感知,故障预警,故障自愈及故障自动排查,来实现高效的运维服务。
         关键词:自动化运维管理;系统故障;设计与实现
         引言
         随着信息技术的持续发展,信息运维已经成为信息服务的重要组成部分之一。传统的人力手工运维方式,存在工作烦琐、效率低下、人员要求高、出错率高、面对异常难以快速恢复等缺点。单靠人工已经无法满足在技术、业务、管理等方面的要求,自动化运维管理的技术越来越被人们所重视。本文所研究的内容是针对作者参与实现的自动化运维管理系统而编写的,项目组针对用户的业务需求和特点,分析并开发出一套自动化运维管理系统,能够综合管理各厂家设备、业务,可以快速规划、配置网络,对各种设备的运行状态、系统性能、设备故障进行有效监控和管理。
         1概念解析
         (1)自动化运维。自动化运维就是把具有高效规律性的工作由系统来进行统一操作,一般来说有应用系统维护自动化、巡检自动化和故障处理自动化这3个方面。自动化运维如今与智能技术有效地相结合,从而达到更好的功能输出。(2)IT运维管理。是指单位IT部门采用相关的方法、手段、技术、制度、流程和文档等,对IT软硬运行环境、IT业务系统和IT运维人员进行的综合管理。企业将IT部门的职能全部或部分外包给专业的第3方IT外包公司管理,集中精力发展企业的核心业务。简单来说,就是企业在内部专职IT运维人员不足或没有的情况下,将企业的IT外包服务流程,包括全部办公硬件、网络及外设的维护工作转交给专业从事IT运维的公司来进行全方位的维护。(3)生产作业计划。生产作业计划是生产计划工作的继续,是企业年度生产计划的具体执行计划。它是协调企业日常生产活动的中心环节。与生产计划相比,生产作业计划具有计划期短、计划内容具体、计划单位小3个特点。它的主要任务包括生产作业准备的检查、制定期量标准、生产能力的细致核算与平衡。
         2自动化运维管理系统故障处理机制的设计与实现
         2.1故障数据分析
         故障处理的核心是对故障数据的分析。数据分析是对数据的一种操作手段,用适当的统计分析方法对收集到的数据进行处理与分析,提取有价值的信息,通常都是得到一个指标统计量结果,如总和、平均值等,将这些指标数据与业务结合进行解读,发挥出数据的价值与作用。通过对数据的分析提取,可以对将来的趋势和行为进行预测,运维管理系统可以在故障发生之前,提供预警信息,结合策略管理,帮助人们做出科学的决策,使得系统和业务得以持续性稳定运行。对于大量采集的原始数据,需要进行以下步骤的预处理:首先剔除异常环境下产生的流程不完整的数据;然后依据故障现象和设备类型,完成对数据的划分分类;接下来需要量化故障信息,针对故障设备、故障原因和排查情况进行数据转化;最后,对故障现象进行建模、关联、挖掘。通过以上步骤,能够在大量数据中提取故障的关键要素信息,然后进行分析统计。
         2.2维护监测自动化
         维护监测自动化主要包括异常事件自动化处置、配置变更自动化监测和故障自动化诊断,从而提高运维效率降低运维成本。异常事件自动化处置需要建立一个事件处置知识库并与“运维”工具进行联动执行。

当异常事件发生时系统通过事件特征类型的比对查找出对应的解决方案,再调用关联的“运维”工具执行解决方案,从而减轻“运维”人员的负担和缩短异常事件的处理时间。配置变更自动化监测需要建立配置管理数据库,对各类资产的配置进行实时监测并自动对配置管理数据库的数据变化进行监测记录。同时配置变更自动化管理,需要对监控规则进行定义,定期执行监控任务采集系统的配置信息,对配置变更的情况自动生成待办任务,通过与历史版本的对比分析将配置变更的影响范围和依赖关系展示出来。故障自动化诊断需要建立一系列的故障诊断处理策略,故障监测系统实时收集系统的日志信息,然后依据故障诊断策略对信息进行分析处理,并自动根据处理策略判断故障问题提供处理方案。故障诊断通常通过对日志信息分析进行判断,因此要实现故障自动化诊断,就要实现对系统日志的自动化收集和分析,并通过策略关联处理方案自动执行,从而实现对故障的自动化诊断处理。
         2.3故障预警
         本系统建立故障预警机制,对同一种设备故障按照故障部件和影响程度对故障进行分级管理,建立不同故障等级的应急处理机制,对故障提供精准、丰富的故障预判信息。在故障发生前为用户提供决策依据,以阻止更大的连续性故障的发生,使故障从被动反应到可以主动预防。对设备性能及其他参数实现了测量阈值的监控,当采集到的参数信息超出了指定阈值范围,给用户告警提示,并转入故障处理流程,用户还可根据需求手动调整阈值大小。通过对系统设备的全面监控,做到了故障早预警、早发现、早解决,将故障隐患消除在萌芽期间,确保网络和应用连续、可靠、安全运行,降低故障发生的概率,提高系统运行管理水平和服务保障能力。
         2.4故障知识库
         知识库用于存放数据分析所需要的领域知识,包括故障预警策略、故障自愈策略和故障排查方案,本运维系统支持知识库直接导入,便于用户操作使用。故障预测功能需要有明确的故障预警策略。基于对运维对象的经验认知,故障策略管理模块把运维故障抽象出来,模拟出一些常见的故障场景,通过对待处理的需求、待解决的问题的理解,按设备类型、业务类型、阈值范围制定一系列的故障预警策略。通过监控系统获取业务运行指标、智能异常检测、网络异常事件,在故障预警策略池中进行分类筛选匹配,对故障进行预警,并结合策略及运维对象的状态反馈来适时调整执行规划。要想实现故障自愈,首先得有明确的故障自愈策略。同样是基于对运维对象的经验认知,将经常出现的故障及其自愈方案加入到故障自愈列表中。监控到出现故障后,先在自愈策略中寻求故障匹配,如果找到自愈策略,则根据策略对故障进行自恢复,否则转入故障排查阶段。通过故障信息的收集分析处理和故障策略知识的应用,可以构建各种故障的自愈能力,通过及时的发现异常,快速的恢复,能够有效的提升业务的可用性和质量。
         结语
         通过信息运维中心自动化管理可以更好地辅助应用系统自动化运维体系建设。通过两者的有效联动,既保障了运维安全性、规范性,也提高了运维效率,最终实现信息化运维高效化、自动化程度,从而更好地实现运维效率的整体提升,并为其向价值的转型提供了更为明确的思路与导向,为数字化运维中心体系建设迈进。
         参考文献
         [1]马幸飞.数据中心自动化运维管理及平台的建设研究[J].科技创新与应用,2017(36):103-104.
         [2]郭威,陈秀千.数据中心自动化运维管理及平台的建设[J].电子技术与软件工程,2017(16):132-134.
         [3]万明.自动化运维中网络拓扑发现技术的研究与实现[J].计算技术与自动化,2019,38(4):47-51.
         [4]彭玉林.网络运维流程管理与故障管理流程的关系[J].电子技术与软件工程,2019(10):15.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: