通过业务平台综合网管实现远程应急故障处理

发表时间:2020/6/5   来源:《建筑科技信息》2020年2期   作者:霍琼
[导读] 中国电信业务的快速发展,依托于后端各个业务系统的稳定运行,当重要的业务系统在运行中出现紧急故障时,短时间内会造成很大的影响,短短几分钟就可能造成大量的投诉和经济损失,因此快速响应和故障恢复的速度显得尤为重要。
一、背景需求
        中国电信业务的快速发展,依托于后端各个业务系统的稳定运行,当重要的业务系统在运行中出现紧急故障时,短时间内会造成很大的影响,短短几分钟就可能造成大量的投诉和经济损失,因此快速响应和故障恢复的速度显得尤为重要。可是有时候在故障发生的时候,业务系统的管理员不能及时赶到现场或者无法进行远程操作,这种情况下就会延缓故障恢复的时间,因此我们需要一种更加快捷的解决方案来应对那些特殊的故障场景。
        二、方法分析
        当故障发生时,需要有系统管理员现场或者远程,及时的通过指令操作来解决和恢复故障,如果这时候系统管理员不具备快速登录操作的条件,就会延误故障恢复时间,为了提升特定条件下故障处理的及时性,我们将一些特定的故障场景和解决方法模版化,把某些指令预存于软件系统中,通过短信或其他指令来触发,达到远程操作指令的效果。
        根据河北电信业务平台现有条件,使用上行短信的方式,进行远程指令调用,通过业务平台综合网管系统的短信接口,通过对上行短信的解析,调用相关业务的操作接口来达到故障应急处理的能力。
        在业务平台综合网管系统中建立一套短信故障应急处理系统,通过短信上行的方式,将与设定的指令发送到业务平台综合网管,网管系统对指令内容,手机号码进行验证和鉴权,再通过与设定的专有短信接入码进行二次确认,提升可靠性和安全性,对二次确认的短信内容确认无误后,通过远程接口调用指令,实现远程故障应急处理。
        三、案例实现
        1、定位平台数据库双机切换
        1.1、背景需求
        定位平台的数据库双机系统中,当主节点出现故障只能手动操作进行切换时,管理员可以发送短信到业务平台综合网管,进行数据库双机切换操作,同样通过手机短信上行的方式进行定位业务测试。
        1.2、实现方式
        ●在网管系统中设置场景模板,模板中定义短信指令内容,鉴权手机号码,远程指令接口等信息
        ●管理员使用手机编辑短信“dw-dbqh”发送到10659031911;
        ●网管系统收到短信后,对手机号码和短信内容进行鉴权;
        ●若鉴权不通过不予处理,鉴权通过后下发二次确认短信;
        ●管理员回复二次确认短信后,网管系统调用远程接口进行远程双机切换操作;
        ●远程双机切换操作完成后,网管系统将操作结果信息通过短信下发到管理员手机;
        ●管理员通过编辑短信内容“dwbc”发送到10659031911;
        ●网管系统收到短信后进行号码和指令鉴权后进行短信二次确认;
        ●管理员发送二次确认短信后,网管系统进行拨测接口调用,进行定位拨测任务;
        ●拨测结束后将拨测结果通过短信方式下发到管理员手机上;
        ●管理员通过拨测结果可以确认业务是否恢复正常
        1.3、实现效果
        在特定场景下,通过短信上行的方式,可以快速的进行数据库双机切换操作,及时处理数据库双机故障,从双机切换到业务测试完成,整个过程可以在3分钟内完成。在整个操作过程中,首先系统对手机号码和短信内容进行鉴权,然后进行短信的二次确认,保证整个操作的安全性。
        2、IPTV增值管理平台一键免检权
        2.1、背景需求
        IPTV增值业务平台系统故障后,需要登录VPN,再登录4A系统,登录主机开启免鉴权,业务恢复速度比较慢,影响IPTV点播内容观看。


        2.2、实现方式
        ●在网管系统中设置场景模板,模板中定义短信指令内容,鉴权手机号码,远程指令接口等信息
        ●管理员使用手机编辑短信“iptvrc_start_noauth”发送到10659031911;
        ●网管系统收到短信后,对手机号码和短信内容进行鉴权;
        ●若鉴权不通过不予处理,鉴权通过后下发二次确认短信;
        ●管理员回复二次确认短信后,网管系统调用远程接口进行免检权操作;
        ●免检权操作完成后,网管系统将免检权的操作结果通过短信下发到管理员手机;
        ●待故障恢复后,管理员使用手机编辑短信“iptvrc_stop_noauth”发送到10659031911,重复鉴权确认后可以关闭免检权功能。
        2.3、实现效果
        当IPTV增值管理平台出现意外故障时,通过短信上行的方式,可以及时的进行开启或关闭免检权功能,最小限度的影响IPTV点播业务的故障时间。
        3、业务进程远程重启
        3.1、背景需求
        程序或进程运行过程中,有时会出现假死或服务中断的情况,如果是在业务忙时,会没有时间来排查和定位具体原因,可以通过重启进程的方式快速恢复业务,后续在通过查看业务日志等方式定位和分析故障原因。
        3.2、实现方式
        ●在网管系统中设置场景模板,模板中定义短信指令内容,鉴权手机号码,远程指令接口等信息
        ●管理员使用手机编辑短信“nms_restart_nmscoll”发送到10659031911;
        ●网管系统收到短信后,对手机号码和短信内容进行鉴权;
        ●若鉴权不通过不予处理,鉴权通过后下发二次确认短信;
        ●管理员回复二次确认短信后,网管系统调用远程接口进行进程重启动操作;
        ●进程重启动操作完成后,网管系统将进程当前状态通过短信下发到管理员手机;
        3.3、实现效果
        当业务进程僵死后,会出现业务中断,业务数据丢失的情况,此时往往会伴随业务端口或业务日志的告警产生,通过短信上行的方式快速重启进程,可以及时恢复业务,减少故障时间。
        4、网络Ping通断性测试
        4.1、背景需求
        设备网络出现闪断或中断时,会伴随网管的ping通断性告警,这时管理员需要在第一时间确认业务系统网络是否只是闪断,是否已经正常可用,远程登录系统或主机在系统中执行ping命令也许会错过最佳探测时间。
        4.2、实现方式
        ●在网管系统中设置场景模板,模板中定义短信指令内容,鉴权手机号码,远程指令接口等信息
        ●管理员使用手机编辑短信“ping 192.168.122.11”发送到10659031911;
        ●网管系统收到短信后,对手机号码和短信内容进行鉴权;
        ●若鉴权不通过不予处理,鉴权通过后直接执行短信内容中的ping操作,默认发送2个ping包,并将ping的结果以短信方式下发至管理员手机;
        4.3、实现效果
        通过短信方式进行设备的ping测试,可以快速判断业务网络是否可用,在故障排查中争取时间,另外也可以作为日常维护中的网络测试工具。
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: