数据中心自动化运维平台设计与实现

发表时间:2020/12/31   来源:《科学与技术》2020年9月第26期   作者:史军艇
[导读] 针对传统人工运维方式已无法满足业务发展需求的问题,借助自动化运维技术管理海量服务器,
        史军艇
        中国移动通信集团浙江有限公司, 浙江 杭州 310000
        摘要:针对传统人工运维方式已无法满足业务发展需求的问题,借助自动化运维技术管理海量服务器,并建设系统运维云,提升数据中心的服务响应速度和管理效率。分析了数据中心自动化运维平台的层次结构,阐述了自动化运维平台的建设方法。
        关键词:数据中心;自动化技术;运维平台;设计;实现
        引言:随着大型集团企业信息系统建设不断发展,数据中心内的服务器、存储设备、网络设备和数据库服务器等设备的种类和数量与日俱增,IT软、硬件承担的责任越来越重。这对企业信息化部门的系统安全运营和维护管理工作提出了更高的要求,因此迫切需要建设综合性、自动化的综合运维管理系统对其进行支撑。
        一、自动化运维管理概述
        计算机运维技术由来已久,在运维技术发展初期,仅有的几个服务器中所存有的数据信息极为有限,时至今日,信息技术的发展,为数据中心的建立奠定了基础,在此基础上,计算机运维技术也得到了很大程度的提高。研究人员根据用户需要,设计出与之相适应的管理软件,从而实现了有人参与下的数据中心自动
化运维管理。自动化运维的实现,大大减小了传统人工运维管理下的时间延迟,将人们从反复性的工作中解放出来,大大提高了工作效率[1]。
        二、设计目标及原则
        (一)设计目标
        为实现运维自动化,就要求运维相关的IT设备、软件、运维人员和相关流程等要素能够充分地实现联动。因此,平台的设计目标往往简单地概括为追求“大
而全”。这样的目标当然不可能一步到位的实现,因此支持模块化和横向扩展的平台架构设计成为必然选择。平台的设计目标也可以更准确的概括为首先追求建立一个能够支持和承载“大而全”式功能扩展的平台框架,之后基于该平台不断丰富和完善具体功能。
        (二)设计原则
        1.开放式设计
        平台应采用开放标准,开放结构,开放系统组件和开放用户接口,充分满足用户投资保护和业务扩展、系统维护等方面的需求。平台应具备优秀的管理扩展能力,能够充分利用已有资源,集成相关系统,兼顾未来发展,以适应行业信息化运维业务的变化。
        2.一体化整合
        平台的设计还应充分借鉴程序开发中的面向对象思想,这并非是从平台的编程实现意义上的面向对象。而是在对平台所涉及环境的一种建模。比如平台所管
理的操作系统就是一类典型的对象,这类对象都有主机名、IP地址等属性,也都有开机、关机等行为。只有通过这种面向对象思维的分析,我们才能对平台所辖的各种类型的对象、IT的软件和硬件资源进行管理,才能更方便地处理平台与管理对象之间的关系。在面向对象的基础上,进一步延伸出统一编程的思想。通过引入图形化、符合BPMN2.0规范的流程编排工具来进行平台的统一“编程”。
        3.服务化赋能
        服务化的设计是该平台与工具的重要区别。平台中的所有功能应以服务的方式来呈现,通过平台提供的一项项服务来增强平台自身的能力。同时运维人员
也通过对服务的使用来增强自身的能力,最终使整个数据中心的运维能力得到提高。平台应采用以服务为中心的设计,将各种服务作扁平化处理,平台对服务提
供标准化的支持。同时,通过服务组合来进行权限的划分、完成与数据中心组织现有组织体系的匹配。


        三、系统设计
        (一)顶层架构设计
        根据企业已有运维系统的使用情况,在不影响现有架构的前提下架设一套自动化的综合管理平台,以图形化的界面灵活管理所有核心业务系统及日常运维工作。
        (二)底层数据抓取设计
        系统基础信息采集模块作为监控模块的重要组成部分,不仅能帮助运维人员了解系统当前的健康程度,同时还是衡量业务服务质量的依据。例如,系统资源吃紧会直接影响业务的服务质量和用户体验。此外,获取设备的流量信息也可让运维人员更好地评估带宽和设备指标数据,包括设备、系统信息和网络地址库等信息。在采集到这些数据后,即可全方位了解系统服务的状态,再结合告警机制,可在第一时间响应,使得异常现象及时得以处理[2]。
        (三)自动化运维功能设计
    1.日常巡检管理。以工作表单的形式记录汇总所有数据中心值班人员和系统运维人员对基础设备、系统环境及数据库系统的常规健康检查工作,若遇到故障事件,通过单点登入相应的事件管理系统进行后续事件跟踪。
    2.运维监控管理。以图形化的方式实时监控核心业务系统及数据库的可用性;异地/本地灾备环境的数据库同步也以简化繁琐的专业化命令行代码为前提,实时展现其同步情况,并细化到其进程状态,以便非专业的运维值班人员一目了然地发现问题。
    3.设备资产管理。通过集中化的平台和规范的变更流程细化并归档所有硬件物理设备、网络设备及虚拟化服务器的信息,并通过对各业务系统进行归类划分使信息化部门的运维管理人员可即时查到所需的服务器信息。
        四、功能实现
        (一)自动化平台内置CMDB
        在可自定义信息收集项、人工维护项和展现项的基础上,以实用为标准逐渐构建了CMDB模块。将纳管对象的性能、配置、工单都集中在一起进行展示,让运维人员能够集中查看相关的信息。同时该模块具有配置比对、通知提醒功能,极大方便了配置信息的维护和使用。
        (二)支持分布式高可用部署
        为了满足大规模运维管理范围,且有跨网段的需求,一体化运维管理平台支持分布式的集群部署。通过分布式来解决被管对象分属在不同网段的问题,通
过集群解决规模庞大且对数据实时性和准确性要求较高的问题。集群设计主要为了满足高可用、负载均衡的需要,服务层或交互层集群内的服务器根据需要分配不同的权重。正常运行的情况下,前端发出请求之后,结合权重、负载情况自动分配一台服务层服务器接收并处理请求,服务层根据作业信息,查询心跳的状态,使用负载均衡算法,选择对应的交互层下发指令,同理,返回的信息和数据,经过交互层上传到相应的服务层服务器进行逻辑处理;异常情况下,可调整服务器权重配置,由运行正常的服务器接收、处理请求[3]。
        结束语
        综上所述,自动化脚本是自动化运维实现的基石,源于运维人员长期的工作积累。通过构建自动化运维平台完成大型企业日常繁琐、重复的IT基础运维管理工作,是较为高效、稳妥和即时的解决方案。
        参考文献:
        [1]刘洋.数据中心自动化运维平台设计与实现[J].现代商贸工业,2018,000(020):195-198.
        [2]蔡毅清.金融数据中心自动化网络运维管理系统的设计与实现[D].2012(13):5-6.
        [3]谷川.数据中心自动化运维管理及平台的建设研究[J].建筑工程技术与设计,2018,000(026):3176.
       
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: