基于主网调度自动化系统运维的典型故障分析

发表时间:2021/8/27   来源:《城镇建设》2021年第4卷10期   作者:鲁城娟
[导读] 调度自动化系统对于确保电力系统的安全、稳定、优质
        鲁城娟
        国网青海省电力公司国网黄化供电公司 青海尖扎 811200
        摘要:调度自动化系统对于确保电力系统的安全、稳定、优质、经济运行以及提高电网调度运行管理水平来说非常的重要,特别是调控一体化实施以来,集中监控对自动化系统的要求越来越高,调度员的指令和决策越来越依赖于自动化系统强有力的技术支撑。在此前提下,自动化系统的安全稳定运行就显得越来越重要。但是,目前很多建设完成的主网调度自动化系统在实际应用中,由于设备众多引发故障点众多,各种类型的问题频发,使得电网运维的人力投入过高,但实际效率低,所以,在技术方面存在很多需要总结改进的地方。基于此,本文主要分析了基于主网调度自动化系统运维的典型故障,希望能够提供参考价值。
        关键词:主网;调度自动化系统;运维;典型故障

        一、主网调度自动化系统典型故障点的分类及分析
        (一)主网调度自动化系统典型故障的具体分类
        1.计算机硬件类故障:工作站的CPU、服务器、硬盘以及内存等硬件。
        2.系统类故障:服务器平台、进程假死,导致功能不可用。
        3.网络故障:交换机故障;交换机端口故障;系统中的某台主机断网,并且“刷新时间”不更新。
        4.数据库故障:硬件故障导致ORACLE数据库不可访问;参数设置故障导致系统出错;网络故障导致ORACLE数据库不可访问。
        5.厂站类故障:硬件故障导致常规通道退出;网络故障导致网络通道退出;天文钟故障导致天文钟通道退出。
        6.人机界面故障:图形文件打开对话框无图形文件;图形网络保存失败;在图形浏览器下,应用所属右键菜单无法是示挂牌等;遥控监护员窗口弹不出;某台机器画面操作(逼控、置数)。
        7.报表故障:报表服务应用启动后,报表服务程序反复被拉起、退出;报表客户端浏览报表时,提示“调用GetReport接口失败”;报表客户端浏览报表时,浏览器打开失败。
        8.告警类故障:某台机器告警窗上看不到实时告警;告警不能发语音;告警不能推画面。
        9.Web服务类故障:Web客户端登录时提示“无法连接数据库”或登录很慢;Web客户端无法浏览网页内容;Web客户端图形显示数据不刷新,或显示的内容与I区不一致。
        (二)总结分析主网调度自动化系统典型故障点
        分析、消除、总结自动化系统的故障,是提高自动化系统安全运行水平的有效措施,在此基础上,梳理分类以往的自动化典型故障,针对自动化主站的不同故障类型,整理出其中具有代表性的典型故障,详细分析故障产生的原因、排查和处理的过程,并总结经验,最后提出预防此类故障重复发生的措施。
        
        二、基于主网调度自动化运维的典型故障
        (一)责任区设置错误导致系统未告警
        1.故障现象分析:以某220kV变电站为例,该220kV变电站出现10kV线路测控装置通信中断告警,但是监控工作站未发出语音告警,也未在告警窗提示,直至运行人员至现场巡视时才发现。
        2.故障排查分析:首先,排除工作站本身告警的问题,其次,检查该变电站的二次遥信告警设置是否正确,通过模拟信号工具in_test加以验证,最后,检查该变电站责任区划分是否正确。
        3.处理过程分析:调度工作站能正常发出其他变电站的告警信息,可以排除工作站本身告警问题。检查该变电站二次遥信告警设置均正确,但是,通过模拟信号工具in_test验证时,发现使用监控用户账号无法收到告警信号,换成具有全系统权限的管理员账号测试时,可以正常收到告警信息。检查该变电站的责任区划分,发现责任区设置错误,正确修改后,再次通过in_test工具验证,故障消除。最后,经过总召报文,复位该信号。


        4.经验总结分析:责任区对于监控运行关系重大,如果发生责任区划分错误,会导致监控人员无法收到变电站上送的保护告警信息,甚至是事故信息,对系统安全运行极为不利。因此,在责任区维护时,务必仔细谨慎,特别是一个厂站设备分属多个责任区的情况下更应引起高度重视。
        (二)通道误码导致厂站通道频繁投退
        1.故障现象分析:某个新厂站投产前测试时,发现新厂站的常规101通道中有一个通道频繁出现投退现象。
        2.故障排查分析:厂站通道在一定时间内收不到通道报文或者收到的通道报文误码太多时,系统会判断该通道故障。因此,对于此类故障需检查主站与厂站端的通道报文,同时检查前置通道参数中的接收超时限和误码率阈值。
        3.处理过程分析:检查通道报文发现新厂站的通道误码率较高,继续检查该通道的前置通道参数,发现接收超时限设定为5s,误码率阈值设定为0%。由于系统判通道故障的时间设定过短,误码率阈值设定过低,加上通道存在误码,导致厂站通道频繁出现投退情况,修改接收超时限为30s,误码率阈值设定为5%,并通知通信运维班组检查通道状况,采取措施降低通道误码,故障消除。
        4.经验总结分析:前置通道参数设置是否合理直接关系到厂站通道的正常运行。由于实际运行中通道误码不可避免,因此,在消除通道误码前,合理设置系统判断通道故障的时间,适当提高误码率阈值,可以避免系统频繁出现通道投退告警。
        (三)表空间满导致Web浏览不能调用历史曲线
        1.故障现象分析:用户通过Web界面进行网页浏览时,发现无法查阅历史曲线。
        2.故障排查分析:Web浏览不能调用历史曲线有两种可能,一是电力安全系统生产控制大区中的控制区,也称为安全I区,数据没有传输到安全III区,二是电力安全系统生产管理区,也称为安全III区,接收到安全I区数据,但是没有正常存储。可以检查安全区之间的数据传输是否正常,是否有文件堆积,同时可以检查Web服务器上为什么数据无法存储,是否磁盘满或表空间满等原因。
        3.处理过程分析:检查安全I区和安全III区均没有文件堆积,数据传输正常,安全I区的历史曲线可以正常调用,检查安III区Web服务器的磁盘空间已用40%,可正常存储数据,继续检查Web表空间,发现Web的表空间已满,分别对Web主备机执行扩表空间操作,重启应用,并从安全I区补全数据后,Web浏览可正常调用历史曲线,故障消失。
        4.经验总结分析:Web服务器所在的安全III区出现系统运行异常时,安全I区的监控工作站和自动化维护工作站上均不会提示告警,因此,对于Web服务器只能依靠人工巡视才能发现问题,需要从管理角度上采取防范措施,加强日常值班巡视。
        
        三、结语
        总而言之,在运行的过程当中,主网调度自动化系统不可避免出现各类故障的情况,这些典型故障的存在会导致调度自动化系统功能缺失,甚至影响电网安全稳定运行,因此,相关人员必须要重视自动化系统故障的处理,从流程上做好把控,每月回顾,避免问题长期累积和重复出现,总结经验,提高效率,最大限度降低系统故障对电网安全、稳定运行的影响。
        
        参考文献
        [1]许军.基于配网自动化运维的典型缺陷案例分析[J].无线互联科技,2018(14):27-28.
        [2]钟文军.试析电力调度自动化系统故障的检查方法与评价标准[J].中国标准化,2017(08):23.
        [3]魏征.电网调度自动化系统故障分析[J].山东工业技术,2018(18):184.
        [4]夏雨潇.电网调度自动化系统安全运行的风险分析探究[J].中国新通信,2018(07):16
        [5]郝佳音,陈槾露,何润泉.基于专家库技术的远动数据治理工具设计与应用[J].机电信息.2020,(36).36-37.
        [6]杨自兴,李志民,李子乾,等.电网信息系统运维管理自动化探索与研究[J].长江信息通信.2020,(12).192-194.
       
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: