中国电信股份有限公司孝感分公司 湖北孝感 432100
摘要:近年来,随着经济的发展和社会的进步,云计算、大数据、物联网产业的不断壮大,作为信息地产之根基的数据中心犹如雨后春笋般的兴盛起来,各种规模的数据中心层出不穷、日新月异。若要在最大程度上保障数据中心各设备安全、稳定、可靠的运行,构建一套完善的动力环境监控系统是十分必要的。我们不仅可以通过它来对各机房设备及动力环境进行实时监控,还可以对历史数据进行统计分析,这对优化数据中心各系统运行参数,降低PUE起着不可替代的作用。
关键词:动环监控系统;数据中心;应用和发展
引言
动力环境集中监控系统,简称"动环监控系统",是一个网络化的集成系统,它将各个局站内的动力设备及环境运行数据通过前端采集器进行数据采集,再通过传输网络将采集到的数据上报到监控中心,通过对采集到的数据进行分析和处理,依靠“遥测、遥信、遥控、遥调、遥视”等五遥控制,实时运行和告警信息的采集、呈现、存储和管理的基础功能。动环监控系统是电源维护人员对通信电源系统、空调系统、环境监控系统进行远程集中维护与操作的基本支撑工具,是动力运维专业运维管理支撑能力建设的基础信息采集平台。
1 动环系统特点
随着自媒体时代的到来,后端数据服务器需求越来越多,为满足需求数据中心规模不断扩大,导致可装设备数量增大,从而导致用电负荷的增加;设备集成化程度增高,单机架功耗增加,同等面积下机房用电负荷增加;单机架功耗增加的同时其散热量随之增多,要求空调的制冷量需求增大,为保障设备的正常运行而增加机房空调,空调系统更加复杂,空调设备安全与管理难度剧增,同时空调系统用电负荷增加;以上三个方面都会加大设备安全和管理难度,增加各自自身风险和供电系统的风险。随着单体能耗的增加和安装房间的密度的增加,单体能耗平均在4kW以上,机房功率密度为200W/m²。如果采用模块化或仓库结构,单体模块的功率密度可以增加到300W/m²。R为挑战空调系统,空调终端制冷量从45-100kW,机房空调引入冷水池,空调、门板、柱间液管或冷冻水,延伸到房间,甚至直接连到架子上。中央空调单台机组的机组制冷量也由500增加到1400。大数据中心动态环系统考虑了投资和节能的影响,并引入了中压设备,如高压柴油机和高压制冷机组。中央空调水温为7℃,从12℃的回水温度到14℃的水温,回水温度为19℃,外壳的供气温度由最初的温度为13℃-19℃,最高温度为18℃,冬季室外空气温度低于某一湿球温度,冷却塔循环和热交换用于实现自由冷却系统。通过上述发展,动态环系统在冷却系统中的集成使其更加复杂,结构水平更高,设备安全水平更高,设备之间的逻辑关系更加复杂。
2 动环监控系统在数据中心的应用和发展
2.1 动力监控
①柴油发电机监测,通过柴油发电机所带的智能数据接口,对发电机的三相输出电压、三相输出电流、输出功率、输出频率、启动电池电压、液位、工作状态等进行实时监控和显示。同时,也可对发电机的工作方式(手自动)、自动转换开关(ATS)状态、柴油泄露、启动失败、过载、紧急停车等各类故障进行监测和报警。②开关电源监测,通过智能数据接口对开关电源实现三相输入电压、三相输出电流、输入频率、输出母线电压、整流模块单体输出电流、总负载电流、蓄电池充电电流、主要分路电流等参数进行实时监测。通过开关电源的智能接口,采用总线的方式将信号接入数据采集器,由监控平台监测机房内的开关电源运行情况。③配电柜、列头柜及开关监测,监测信号线连至列头柜、UPS输入柜、UPS输出柜、二级空调配电柜的自带智能接口电量仪,纳入统一监控平台。监测各配电柜总进线三相电源的相电压、线电压、电流、功率因数、有功功率、无功功率、频率等参数,同时可监测各回路开关和ATS开关状态。
2.2 系统功能深度挖掘
对于数据中心来说,随着机房规模扩大,监测点位增多,IT负载增加,相应地对机房动力及环境要求也越来越高,同时服务客户的需求也越来越多样化。因此,如何持续构建一个智能化、高可靠性、高稳定性的动环监控系统,越来越成为一个至关重要的课题。相信结合大数据、人工智能等先进技术的辅佐,未来的动环监控系统将是云数据中心中的一套智慧“大脑”,除了监测、控制等功能外,还将具备更多的智能分析功能,为运维人员提供高价值的参考数据,进一步提升系统功效,主要有以下几点期望:①预警功能。通过对历史数据及能耗的分析,针对阈值接近或超过告警上下限的设备进行故障预警,并对发展趋势生成图表。由专业工程师进行现场确认,便于及时对供电、制冷等系统的设备进行处理或进行参数优化。如此以来,不仅可以降低PUE值,节约运营成本,而且能够进一步加强安全管控,防患于未然。②告警溯源。当数据中心主路输入市电发生停电或主备负载切换等情况时,通常会伴随着一系列的关联告警发生,而且告警数量较多,导致监控人员无法及时判断故障根源。系统采用人工智能等先进手段增加告警逻辑关系分析,从而能够及时提供告警关联信息时,将会有效解决这一问题。例如:告警溯源功能,划分主次告警,确定告警产生设备的对应关系,减少平台告警显示条目。当告警发生时,可以更加直观,简洁的确认告警产生的原因。③系统兼容性。数据中心的动环监控系统不论是前期的投资还是后期的维护,成本都是巨大的。为节约成本,适应规模增长和技术发展,动环监控系统应具备开放性、标准化、可扩展的特性,提高其兼容性,以便前期平台能够与后期升级技术更好地衔接。
2.3 空调设备故障及影响
空调设备的正常操作主要是为了确保机房的环境温度和湿度可以适应服务器的操作。设备的进气空气温度需要现场技术条件:温度E室内环境温度,湿度水平标准22+2°C,B标准15°C-30°C,C标准10°C-35°C,环境湿度水平标准的45°C-65°C,B类标准40°C-70°C,C类标准30°C-80°C服务器CPU通常是45°C-65°C。75°C-80°C以上,为了检查散热,一些cpu可以保护自己和自动减少频率(通常是一半的标准频率)在高温下。硬盘的温度通常是30°C-60°C。单人房的空调设备是错误的,一般不会引起室温波动。只有当引擎有几个或所有的空调,房间的温度是在短期内控制的。这种情况主要是由于三个原因:①电力设备在同一时间;②结束的水冷空调冷源在最后;③水冷却系统管道或阀门破裂。中央空调冷源设备集中冷却设备,如果有备用机,一般不会产生错误,但是一旦机器停止,整个数据中心将完全失去了冷源,造成机房温度加速升高,如不能及时修复,将引起整个机房内的设备无法正常运行,给数据机房所服务的用户造成重大影响。所以面对这种风险,在建设机房空调系统的时候,可以考虑设计两套空调系统,且每套系统均采用两路供电线路,以减少因空调系统故障引发的风险。
结语
数据中心动环监控系统将实现多机房、微模块远程联网集中监管,工作人员在总控中心即可统一对数据中心下属多个机房和微模块进行统一管理,实时监控动力设备和机房环境的状态,及时检测各类故障并通知相关人员操作处理,可远程进行维护、数据备份、升级,提高机房无人值守的安全可靠性。同时,能对数据中心园区、每栋建筑、每个机房、每个微模块乃至每个机架机柜的能效进行计量展示,协助制定合理的节能方案,从而为提高PUE值、降本增效奠定坚实的基础。
参考文献:
[1]罗绵辉,宋广浩,纪楷鸿.动力环境监控系统的优化探讨[J].信息通信,2015.
[2]侯永涛.动力环境监控系统若干问题的探讨[J].电信工程技术与标准化,2010.
[3]肖奇良.动力环境监控系统的发展及前景分析[J].计算机光盘软件与应用,2012.