大型数据中心智能化系统的运维优化探讨

发表时间:2021/8/25   来源:《工程管理前沿》2021年第7卷第4月11期   作者:罗龑
[导读] 随着移动互联网发展的兴起,大型数据中心的数量日益增多,如何利用这种情况来领航新基建,做最智慧的数据中心,值得不断探索。
        罗龑
        中通服公众信息产业股份有限公司  新疆乌鲁木齐市 830000
        摘要:随着移动互联网发展的兴起,大型数据中心的数量日益增多,如何利用这种情况来领航新基建,做最智慧的数据中心,值得不断探索。基于此,本文详细分析了大型数据中心智能化系统的运维优化。
        关键词:数据中心;智能化;运维优化
        一、数据中心运维目标
        数据中心运维目标是通过建立标准化、先进的运维服务体系,充分发挥数据中心的基本服务功能,为数据中心的信息系统建设和部署、日常运行和回收提供全生命周期的资源、通信和安全等服务,实现IT业务价值,提高数据中心用户满意度。运维系统应具有前瞻性的风险预测能力、智能动态服务能力和人工智能决策能力。为了保证数据中心的安全稳定运行,数据中心的运维管理主要以数据中心的合规性、可用性、可靠性和经济性为目标,建立完整、科学的管理体系,从而使整个数据中心运维工作有一个规范的管理章程,严格的管理制度,高效、负责、训练有素的运维团队是数据中心运维成功的关键;从大型数据中心长期运营的角度来看,可持续改进和有效的成本控制是现代化数据中心科学管理的必要条件。
        二、数据中心智能化系统架构
        1、系统架构。大型数据中心的智能化系统一般由基础设施管理系统(DCIM系统)和多个监控子系统组成,每个监控子系统独立运行。监控子系统可分为动态监控系统、空调群控系统、智能配电系统、安防系统、视频系统、消防系统等。
        由于数据中心的大型化、规模化、智能化发展需求和客户管理需求,DCIM系统逐渐成为大型数据中心的标准配置。DCIM系统数据来源及各监控子系统,各类客户自有监控平台提出的基础设施对接需求也将通过DCIM系统统一对接,减少各监控子系统接口对接的工作量。
        2、系统接口。监控子系统与管理系统间有多种接口。与小型数据中心不同,大数据中心必须考虑接口数据转发的效率,避免管理系统在数据分析和输出上的困难。以动态环境监测系统与DCIM系统的对接为例,目前有两种主流方案:一种方案是按数据库对接方式,使用C/S架构在监控服务器上提供一个套接字接口,运营商常用此种方案。第二种方案是采用SNMP协议、统一的报文结构及字段发送数据,互联网公司常用此种方案。
        数据库对接是数据的统一采集和传输;而SNMP是分布式传输和接收,支持主动报送,因此SNMP更适合于数据量大、实时性要求高的场景。在实际测量中,数据库对接报警延时约为10~20s,SNMP对接报警延时小于3s。
        3、组网结构。数据中心智能化系统一般有两种组网方式:园区统一组网和不同系统物理隔离组网。通过比较发现,园区采用网络系统的方案更适合大型数据中心的管理,过多的物理网络会影响DCIM系统与跨网子系统的互联互通,也会增加集中维护的难度。
        大型数据中心的网络规划和建设遵循层次结构清晰、故障处理方便、单点故障不影响整体运行的原则。楼层弱电间放置的数百台盒式交换机的路由配置应尽量减少,端口隔离可通过第二层VLAN实现。
        在保证安全的前提下,考虑到数据中心智能系统的远程访问和维护,需同步规划和建设安全控制系统。为了实现CMNET网络访问和操作内网设备功能,需规划建设4A平台或堡垒机,做到操作留痕。

若只访问页面数据,可规划和构建WAF应用防火墙和入侵检测系统。
        三、大数据中心智能化系统的运维优化
        1、加强资源管理智能化、精细化建设水平。对企业网络运维工作来说,资源管理的主要问题是资源管理数据不准确,无法实现资源数据的动态管理,因而在应用资源数据时会降低其应用效果。久而久之,这种恶性循环将导致参与网络运维工作的各级作业人员,对维护资源数据的积极性大幅降低。因此,在大数据背景下,应在智能运维系统中增加自动资源发现引擎,改变以往传统的资源数据录入模式,由人工录入变为自动检索录入。这样,企业在进行网络运维工作时,资源数据可始终处于动态更新的水平,资源数据与网络情况可高度一致,企业在开展业务工作时可得到更准确的数据,并使业务能快速开通。在此基础上,生产流程的增加可将运维系统收集到的资源整合到企业开展的各种生产运作任务中,大幅提高数据资源的流通性和应用效果。另外,要实现资源配置的自动化,充分实现资源配置和配置过程的标准化与自动化,减少人工作业及由此导致的人工影响因素的出现。
        2、优化工作环境。企业需密切关注自身的信息化运维管理模式,对数据进行全面、科学、合理的详细分析研究,并需要一套具有科学知识的最终决策体系,以保证后期项目的顺利进行。平时要积极开展数据中心运维管理相关工作,优化数据工作环境,工作人员应学会观察业务环境,然后找出环境与各种信息系统间的关系。比如,大数据平台运维应用的关键是全面优化网管软件,在各种网管软件的应用中,需将相关的设备管理模式层与监控层结合起来,这样能大幅提高信息设备管理效率,实现网管应用软件的集成。在各个环节实际运行中,数据服务器系统及应用技术能有效结合并显示在主用户界面上,有效实现了超视距协同管理,基本保证了相关信息软件系统的整体运行效率。
        3、部署网管系统。随着企业的不断发展,企业局域网的规模将不断扩大,而随着局域网规模的扩大,服务器、交换机等设备也将随之增加,从而使网络管理工作量不断增加。为了有效地实施高效的网络管理,必须在企业局域网中部署网络管理系统。在网管部门,通过可视化的网管控制界面,网管人员可随时监控企业局域网中的各种设备。通过对局域网设备的全面监控,可及时发现具体设备中的各种问题和故障,从而更方便网管人员解决。同时,网管系统还可利用自动故障排除功能,对企业局域网中的轻微故障进行自修复,大幅减轻网管人员的管理工作量。最后,网管系统还可科学地分析企业局域网的运行状况,为网管人员提供直观的视图,帮助他们一目了然地掌握企业局域网的运行质量。
        4、建立健全信息管理制度。为了有效地保证计算机网络运维系统的可靠性及安全性,有必要建立一个比较完整的信息管理系统。信息管理系统的内容分析主要包括:首先,验证用户身份,必须采用实名制,科学有效地验证用户身份,只有保证用户身份的可靠性与特性,才能保证运维系统的安全性。其次,要建立保密系统,有效防止个人生活的泄露,特别是对用户信息的个人保护。最后,要切实保障安全管理的规范化,相关责任人要按相关标准与要求,严格执行运维系统的规范化运行,提高系统的安全特性,有效防范系统漏洞,从而有效保证系统稳定运行。除了现有的计算机系统,还需进一步完善及改进服务机制,确保用户信息的可靠性及安全性。此外,还需授权用户使用相关技术,确保信息的完整性、可靠性和安全性。系统上的各类信息也必须严格把关,若发现问题信息,必须及时解决,只有这样,运维系统才能正常、稳定、可靠地运行。
        5、完善合规运维制度,确保系统平稳运行。在集中运维管理模式下,通过建立安全完善的合规运维体系,创新运维技术手段,规避运维过程中违规操作的风险,逐步实现运维流程从经验到规范的转变,最终保证应用系统的顺利运行。通过构建一体化运维管理平台,利用其完善的监控、审计、调度等功能,可有效防范运维风险,减少人为误操作,逐步建立快速反应、分析、处理系统问题的运维响应机制,降低系统运行风险,提高系统业务连续性保障水平。
参考文献:
[1]戎立民.大型数据中心智能化系统的运维优化探讨[J].工程管理前沿,2021(04).
[2]张晓艳.大型数据中心智能化系统的运维优化探讨[J].江苏通信,2021(02).
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: