浅谈 IDC 机房维护

发表时间:2020/4/17   来源:《科学与技术》2019年20期   作者:刘智君
[导读] IDC机房就是互联网数据中心机房,IDC机房维护分为五个方面,主要包括:设备监控、数据统计、硬件、系统、网络维护。
        摘要:IDC机房就是互联网数据中心机房,IDC机房维护分为五个方面,主要包括:设备监控、数据统计、硬件、系统、网络维护。保证设备及系统的正常运行,就是IDC机房的维护。以下我们主要机房及系统两个维度进行说明IDC机房维护。
        关键词:IDC、机房、时间、维护
        IDC机房维护主要包括:机房巡检和系统巡检,以下我们从这两个方面浅谈IDC机房的维护:
一、机房巡检
        机房设备巡检:巡检人员针对现场情况定时对机房设备进行巡回检查。发现隐藏你给的系统或者设备故障,及时的进行排查隐患,降低概率的故障的发生概率。设备巡检的内容主要包括:设备各接口连接情况、主机日常维护、应用程序运行情况检查、数据库日常检查等。
1、机房巡检规范
        适用范围:IDC硬件设备区域
        适用人员:IDC机房值班人员
        目的:为保证IDC机房各区域的设备安全及设备工作环境稳定。
        工作内容:
        (1)检查机房温湿度并记录。
        (2)检查机房的卫生情况及机房布线是否符合规范。
        (3)检查各设备指示灯、电源等有无异常现象,保证设备运行状况,并做好记录。
        (4)接到使用单位故障电话后及时检查配合相关单位处理问题。
        (5)故障监控系统,发现故障告警及时处理
(6)对出现的所有故障详细记录,其中包含故障报警人、故障出现时间、故障出现原因、故障处理过程、故障恢复时间、故障处理人等。在值班交接时做好交接和记录。
巡检频率:8:00~18:00两小时巡检一次,18:00~8:00三小时巡检一次。
        2、IDC硬件设备部分
(1)巡检范围:私人服务器区域、网络线路区域、小型服务器区域、大型服务器区域
(2)巡检标准
1每天检查面板信息:各类设备无错误信息包括代码、状态显示;
2每天检查指示灯:所有设备指示灯显示正常;
3每天检查有无异常报警声:各类设备无报警蜂鸣声;
4每天检查有无散发出烧糊的气味:无烧糊的气味;
5每天设备周围有无出现静电火花:设备周围无静电火花出现;
6每天设备有无冒出烟雾:设备无烟雾冒出;
7每周设备物理外观是否完好:未受物理碰撞,无撞击痕迹。
8每周设备现场是否就位:设备无移动痕迹,保持原地位置;
9每天是否有风从设备吹处:有风从设备吹出;
        3、IDC环境部分
(1)巡检范围:IDC机房环境温度、物理环境安全隐患、水灾、火灾以及老鼠、虫子等隐患方面
(2)巡检标准:
1、机房室内温度是否正常:开机状态:夏季23±2℃;冬季22±2℃(参考GB 50174-93);停机状态:5℃-35℃;每天观察
2、机房室内湿度是否正常:开机状态:45%~65%;停机状态:40%~70%;每天观察
3、机房室内有无水患:机房下部的地面、四周墙体、上面的顶墙均无水浸蚀;每天观察
4、机房地面的进风口是否有新风吹出:有风吹出;每天感应
5、机房室内是有鼠害隐患:机房室内无老鼠、蟑螂、等其他小动物进出痕迹;每天
6、机房建筑上部的吊顶表面是否有安全隐患:掉落的石膏板、天花板等物是否存在
7、机房的墙体和玻璃隔断等有无安全隐患:机房建筑的四周墙体、底部地面、中间的玻璃隔断等无断裂货裂痕的等痕迹;每周观察
二、系统巡检
        (1)IDC系统设备巡检:通过IDC运营管理系统网络监控子系统对机房内网络设备(路由器、交换机和防火墙)和主机进行实时监控,网络设备、电路或主机出现故障时须及时响应并解决,对于影响较大的故障必须立即上报。
        (2)视屏监控平台巡检:IDC维护人员每天通过视频监控平台,实时监控IDC机房整体环境安全,包括监控IDC大楼内所有区域的闭路电视,发现问题,立刻报告相关人员。另外,需定期检查安保录像系统的存储情况,确保图像数据安全。
        (3)网络稳定性巡检:每天定时利用Ping等网络工具测试IDC机房出口路由器至骨干网和域名服务器DNS的速率、丢包率是否正常。
        (4)服务器性能巡检:每天定时检查服务器、主机CPU运行状态、磁盘空间使用率,对重要数据必须进行备份。
        (5)客户业务质量巡检:每天对重要客户的网络业务流量、访问情况进行监控统计。对网络的安全防范情况每天都要进行检查,对已经发生的网络攻击和其他可疑的相关网络活动进行分析。


1、故障处理的常规要求:
        1、IDC机房提供7×24小时自动监测网络监控子系统,并提供7×24小时人员相应,能够主动发现故障并及时处理。
        2、故障处理原则是:先从本端开始在到对端检查,先检查设备后检查线路,先重点检查主要区域后检查一般区域,先保证业务恢复后查找故障原因。
        3、接到用户故障后及时检查相关路由器数据及电路状态或者主机状态,根据故障的不同等级按要求上报,全程配合合作单位、客户、有关部门进行检查。
        4、对出现的所有故障详细记录,其中包含故障报警人、故障出现时间、故障出现原因、故障处理过程、故障恢复时间、故障处理人等。在值班交接时做好交接和记录。
        5、在对所有故障处理过程中,都应该每隔20分钟向相关涉及单位报告故障处理进度。
2、故障分类:
        分为客户设备故障和IDC设备故障;
        1、客户设备故障:由于各种原因客户系统不是能运行,按照对业务的影响程度进行分级:
        (1)限制级客户设备故障:客户自己的系统不能正常使用,但是不影响其他客户的设备及系统的使用,仅仅影响客户本身的自己问题。
        (2)影响级客户设备故障:不仅仅影响客户自己的设备及系统;还对其他相关单位的设备和系统有影响,一般影响范围较大,涉及面较广。
        2、IDC机房设备故障:IDC设备的主用设备和备用该设备无法正常运行。
3、故障级别:
        针对IDC机房设备故障一般分为重大故障、严重故障和一般故障三类。
4、IDC机房故障等级根据不同的设备故障类型划分为三个等级,具体如下:
        1、重大故障定义:IDC机房核心交换机故障,造成IDC所有业务中断。在1:00---6:00,业务故障历时超过一个小时;在除以上时间的其他时间段,业务故障历时超过半个小时。
        2、严重故障定义(发生下面任何一种):
        (1)IDC机房交换机故障,导致所有业务中断,在1:00—6:00,中断时间1小时;其他时间段中断半个小时。
        (2)由于机房原因导致数据质量下降,业务运行的相关指标低于考核指标超过2小时,比如数据抖动,丢包率,网络的时延较长等低于正常情况的一般。
        (3)由于机房原因导致部分客户业务中断了2个小时。
        (4)IDC机房的路由器冗余设备发生故障不能正常使用后,还没有影响业务但是可能会有安全隐患的前提下,设备故障历时超过了1小时。
        3、IDC一般故障定义:不包括重大故障、严重故障外的其他所有故障均为一般故障。
5、针对网络故障,报告故障信息的时限要求为:
        1、对于特别重大故障,应在达到故障标准后立即口头报告,在达到故障标准后3小时内提供简要书面报告,在故障处理完毕后2日内提供专题书面报告。
        2、对于重大故障,在故障发生后的2个小时内要及时上报上级部门可以口头汇报也可以书面汇报;24个小时内要进行书面说明原因、解决办法、影响区域、具体损失、相关责任方;48个小时内要提供专业性报告详细说明以上所有问题。
        结语
        随着电子商务的不断发展,企业用户会把越来越多的业务通过互联网进行处理,这让企业可以更好地节约成本、提高效率。所以做好IDC机房的维护就是所有企业的基础性工作,也可以更好的为企业发展服务。
        参考文献:
        1王蓓蓓,张锦.浅谈IDC技术的应用和发展[J].中国新通信,2019(14):28
        2范云晶,于京.联通IDC网络安全问题及对策[J].信息与电脑;2017,4(18):36
        3张华云,楼珍珍.IDC系统治理之网络治理方案浅述[J].数字技术与应用;2014,9(06):04
        4苏汉辉.IDC网络安全常见问题与应对策略研究[J].硅谷;2013,6(11):17
       
       
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: