一、背景需求
中国电信业务的快速发展,依托于后端各个业务系统的稳定运行,当重要的业务系统在运行中出现紧急故障时,短时间内会造成很大的影响,短短几分钟就可能造成大量的投诉和经济损失,因此快速响应和故障恢复的速度显得尤为重要。可是有时候在故障发生的时候,业务系统的管理员不能及时赶到现场或者无法进行远程操作,这种情况下就会延缓故障恢复的时间,因此我们需要一种更加快捷的解决方案来应对那些特殊的故障场景。
二、方法分析
当故障发生时,需要有系统管理员现场或者远程,及时的通过指令操作来解决和恢复故障,如果这时候系统管理员不具备快速登录操作的条件,就会延误故障恢复时间,为了提升特定条件下故障处理的及时性,我们将一些特定的故障场景和解决方法模版化,把某些指令预存于软件系统中,通过短信或其他指令来触发,达到远程操作指令的效果。
根据河北电信业务平台现有条件,使用上行短信的方式,进行远程指令调用,通过业务平台综合网管系统的短信接口,通过对上行短信的解析,调用相关业务的操作接口来达到故障应急处理的能力。
在业务平台综合网管系统中建立一套短信故障应急处理系统,通过短信上行的方式,将与设定的指令发送到业务平台综合网管,网管系统对指令内容,手机号码进行验证和鉴权,再通过与设定的专有短信接入码进行二次确认,提升可靠性和安全性,对二次确认的短信内容确认无误后,通过远程接口调用指令,实现远程故障应急处理。
三、案例实现
1、定位平台数据库双机切换
1.1、背景需求
定位平台的数据库双机系统中,当主节点出现故障只能手动操作进行切换时,管理员可以发送短信到业务平台综合网管,进行数据库双机切换操作,同样通过手机短信上行的方式进行定位业务测试。
1.2、实现方式
●在网管系统中设置场景模板,模板中定义短信指令内容,鉴权手机号码,远程指令接口等信息
●管理员使用手机编辑短信“dw-dbqh”发送到10659031911;
●网管系统收到短信后,对手机号码和短信内容进行鉴权;
●若鉴权不通过不予处理,鉴权通过后下发二次确认短信;
●管理员回复二次确认短信后,网管系统调用远程接口进行远程双机切换操作;
●远程双机切换操作完成后,网管系统将操作结果信息通过短信下发到管理员手机;
●管理员通过编辑短信内容“dwbc”发送到10659031911;
●网管系统收到短信后进行号码和指令鉴权后进行短信二次确认;
●管理员发送二次确认短信后,网管系统进行拨测接口调用,进行定位拨测任务;
●拨测结束后将拨测结果通过短信方式下发到管理员手机上;
●管理员通过拨测结果可以确认业务是否恢复正常
1.3、实现效果
在特定场景下,通过短信上行的方式,可以快速的进行数据库双机切换操作,及时处理数据库双机故障,从双机切换到业务测试完成,整个过程可以在3分钟内完成。在整个操作过程中,首先系统对手机号码和短信内容进行鉴权,然后进行短信的二次确认,保证整个操作的安全性。
2、IPTV增值管理平台一键免检权
2.1、背景需求
IPTV增值业务平台系统故障后,需要登录VPN,再登录4A系统,登录主机开启免鉴权,业务恢复速度比较慢,影响IPTV点播内容观看。
2.2、实现方式
●在网管系统中设置场景模板,模板中定义短信指令内容,鉴权手机号码,远程指令接口等信息
●管理员使用手机编辑短信“iptvrc_start_noauth”发送到10659031911;
●网管系统收到短信后,对手机号码和短信内容进行鉴权;
●若鉴权不通过不予处理,鉴权通过后下发二次确认短信;
●管理员回复二次确认短信后,网管系统调用远程接口进行免检权操作;
●免检权操作完成后,网管系统将免检权的操作结果通过短信下发到管理员手机;
●待故障恢复后,管理员使用手机编辑短信“iptvrc_stop_noauth”发送到10659031911,重复鉴权确认后可以关闭免检权功能。
2.3、实现效果
当IPTV增值管理平台出现意外故障时,通过短信上行的方式,可以及时的进行开启或关闭免检权功能,最小限度的影响IPTV点播业务的故障时间。
3、业务进程远程重启
3.1、背景需求
程序或进程运行过程中,有时会出现假死或服务中断的情况,如果是在业务忙时,会没有时间来排查和定位具体原因,可以通过重启进程的方式快速恢复业务,后续在通过查看业务日志等方式定位和分析故障原因。
3.2、实现方式
●在网管系统中设置场景模板,模板中定义短信指令内容,鉴权手机号码,远程指令接口等信息
●管理员使用手机编辑短信“nms_restart_nmscoll”发送到10659031911;
●网管系统收到短信后,对手机号码和短信内容进行鉴权;
●若鉴权不通过不予处理,鉴权通过后下发二次确认短信;
●管理员回复二次确认短信后,网管系统调用远程接口进行进程重启动操作;
●进程重启动操作完成后,网管系统将进程当前状态通过短信下发到管理员手机;
3.3、实现效果
当业务进程僵死后,会出现业务中断,业务数据丢失的情况,此时往往会伴随业务端口或业务日志的告警产生,通过短信上行的方式快速重启进程,可以及时恢复业务,减少故障时间。
4、网络Ping通断性测试
4.1、背景需求
设备网络出现闪断或中断时,会伴随网管的ping通断性告警,这时管理员需要在第一时间确认业务系统网络是否只是闪断,是否已经正常可用,远程登录系统或主机在系统中执行ping命令也许会错过最佳探测时间。
4.2、实现方式
●在网管系统中设置场景模板,模板中定义短信指令内容,鉴权手机号码,远程指令接口等信息
●管理员使用手机编辑短信“ping 192.168.122.11”发送到10659031911;
●网管系统收到短信后,对手机号码和短信内容进行鉴权;
●若鉴权不通过不予处理,鉴权通过后直接执行短信内容中的ping操作,默认发送2个ping包,并将ping的结果以短信方式下发至管理员手机;
4.3、实现效果
通过短信方式进行设备的ping测试,可以快速判断业务网络是否可用,在故障排查中争取时间,另外也可以作为日常维护中的网络测试工具。