王思懿
巴陵石化大成检修安装有限责任公司 湖南 岳阳 414000
摘要:本文基于同时配备服务器和控制器的DCS系统服务器故障而做的处理方案研究。根据实际案例,DCS系统服务器故障时,工程师站完全失效、无法组态,此时操作站能显示现场生产过程数据、控制现场阀门等设备,但是无法打开报警记录、历史趋势、事件记录以及其他系统的通讯点,数据信号跳变且为不定期跳变,通讯数据严重失真。针对此情况, 及时有效地恢复服务器正常工作显得尤为重要,结合服务器故障时检测报告,对所发生的问题进行分析,并且逐项检查测试,最终制定DCS服务器故障处理方案,解决工厂生产安全,避免由于不便调节生产数据而引发的生产减产,甚至爆炸的可能。
关键词:DCS;PKS;服务器;故障处理
1 前言
1.1课题研究背景
基于现代自动化产业率上升及国家2021年全国两会等支持高度自动化政策,进一步推动自动化水平,实现高质量发展的趋势。DCS控制系统将普及至各个化工工业生产及生活中。DCS控制系统将普及至各个化工工业生产及生活中,而DCS系统服务器平稳运行则是保证工业生产安全的基础。
1.2课题研究意义
根据实际案例,DCS系统服务器故障时,严重影响工厂生产安全,避免由于不便调节生产数据而引发的生产减产,甚至爆炸。如何快速查出问题并恢复DCS服务器,对安全工业生产更为重要。结合服务器故障时检测报告,对所发生的问题进行分析,并且逐项检查测试,最终制定DCS服务器故障处理方案。
2 DCS系统简介
2.1 DCS系统简介
DCS系统是集散控制系统的简称,他有一个集成控制中心,是当前最可靠最安全的工业控制系统。以Honeywell PKS系统为例,PKS系统主要由PKS服务器、工程师站/操作站、C系列控制器防火墙、C300控制器、C系列I/O卡件、网络通讯设备、第三方通讯设备、打印机、电源及机柜等辅助设备组成。
2.2 DCS服务器简介
DCS服务器是数据集中采集、分发、组态命令的控制中转中心,正常运行中A、B服务器相对冗余、数据同步,一主一备同时工作。服务器数据库来源有3部分:1)现场控制器采集到的现场仪表实时数据;2)其他系统/PLC采集到的通讯数据;3)组态数据。这些数据正常情况下A/B服务器是相对冗余的。
3 DCS服务器故障
3.1 DCS服务器故障分类
第一类:对DCS系统进行升级改造后,系统常常会时间不同步、DCS反应时间加长、DCS测点可能存在死机或DCS系统无法立即上线等异常,影响后续正常运行。
第二类:网诺负荷、系统控制器硬件负荷、操作频繁度、历时数据库等大都会影响DCS运行。
第三类:硬件电源故障时系统全部黑屏,全部服务器停止工作。
第四类:施工人员、工艺或其他人员等误操作造成系统故障。
第五类:服务器使用时间或运行环境等不合理,或者FTE网诺故障等服务器故障。
3.2 DCS服务器故障处理
对于DCS服务器升级故障处理,首先应尽量降低网诺负荷,对历时数据定期进行清理,减少数据备份所占用的网诺资源;其次从硬件改造着手,旧的软件和设备落后时及时更换新的卡件,并对软件进行重装等,并对系统冗余配置。
对于网诺负荷、系统控制器硬件负荷、操作频繁度、历时数据库等合理分配,定期检查通讯,重复性的通讯点位可删减,对不合理的趋势组等数据进行修改,可减少负荷影响。
供电系统应提供两路UPS 电源,一路GPS市电电源,DCS系统电源均应冗余配置,正常操作时每个电源的负载不应超过其能力的50%。工艺人员按失电应急预案处理工艺大型设备等,系统维护人员立即检查DCS总配电柜内至各机柜空开状态,由电气专业人员检查是否存在接地短路现象,消除故障后恢复正常供电。
当服务器服务器本身故障时,立即系统登录及账号密码,打开Station,自动运行后按截图路径打开检查服务器状态,打开任务资源管理器:检查确认CPU负荷及CPU进程,按情况选择下面方法处理;
3.2.1 A服务器故障处理
当A故障时,主服务器会自动切换至B,过程持续10秒左右,此时操作画面会出现10S左右的离线、卡顿现象,之后B为主正常时工程师站和操作站都能正常操作。然后注意检查一下几点:(1)查看服务器A/B运行状态,A红B绿;(2)检查操作画面是否运行流畅、卡顿;(3)当服务器卡顿时,立即查看CPU哪些进程占用较高负荷,便于后期分析原因,并停用一些与系统无关的进程以释放内存占用率。(4)检查A网络状态LINK0是否绿色,绿色软重启(在线),红色时断A网线并关机断电源持续10s后启动主机。(5)启动后,linkO为绿色,状态为Runing,此时AB先不同步,需等候系统运行一段时间网络稳定后再同步,10~20分钟后再切主服务器至A。
3.2.2 B服务器故障处理
工程师站工程师站和操作站能正常操作但是无法组态。然后注意检查,与A服务器故障区别在于服务器运行状态为B红A绿,其余操作参照A服务器故障处理。
3.2.3 A、B服务器同时故障处理
工程师站完全失效、无法组态,此时操作站能显示现场生产过程数据、控制现场阀门等设备,但是无法打开报警记录、历史趋势、事件记录、其他系统的通讯点数据。
此时应立刻断开A或B其中一台服务器网络,保证操作站能正常连接现场控制器。并立即冷启动2台服务器,查看机器是否运行顺畅、未断网服务器状态LINK0正常连接显示绿色、状态为Runing,若该服务器无法正常启动应断开该机网线切换至另一台服务器。
(1)将另一台服务器网线接上,同样查看服务器状态LINK0正常连接显示绿色、状态为Runing。
(2)若其中一台启动正常后另一台机器也启动正常,查看该机CPU负荷是否正常,若负荷高需检查原因,负荷低可将该机网线接上一主一备正常运行。
(3)若其中一台启动正常另一台机器无法启动需检查原因,不能将该机联网,保持单机运行等后续处理。
(4)若2台均不能正常启动需继续保持2台服务器不连网线,从而确保不影响操作站正常连接现场控制器能正常显示和控制操作,检查机器硬件是否故障。
(5)以上所有故障均需同时检查机器网络接口状态、交换机及其接口运行状态、网线和光纤是否正常连接,确认物理连接正常和其他检查同时进行。
4 DCS服务器故障处理结论
DCS应配备冗余服务器,交换机冗余配置,电源冗余配置,接地系统进行合理处理,正常运行中系统状态为A主B备,出现任何异常情况均需立即联系系统相关人员及工艺。按上述分析正确选择合理方式处理问题。
(1)冷启动和热启动:热启动指主机不断电源的情况下操作画面里直接Restart,一般情况下能将CPU中的进程自动关闭,不排除一些异常程序扔保留在内存进度中无法停止,需断电源释放。冷启动指画面正常关机后断开主机电源10S之后送电,主机按电源键启动机器的操作;冷启动能将热启动进程中关不掉的程序强制关闭,将CPU进程中关不掉的程序强制关闭退出,降低CPU占用率。
(2)关机、断两路电源。
(3)检查服务器主机两路网络接口状态等是否正常、网线接触是否紧固,绿色线表示交换机A路,黄色线表示交换机B路,状态灯显示绿色。排除系统FTE网络异常状态。
参考文献
[1] 李正军.现场总线与工业以太网及其应用技术[M].机械工业出版社,2011.
[2] 胡寿松.自动控制原理[M]. 科学出版社,2007.
[3] 齐金成.自动化设备集散控制系统故障与维护管理方案设计[J].南方农机,2019(06)
[4] 朱寅明.DCS系统常见故障及对策[J].中国高新技术企业,2013(31)
[5] 陈海涛.DCS系统应用中的常见故障分析[J].中国城市经济,2011(26)
[6] 何彦虎.集散控制系统故障及其诊断技术[J].工业控制计算机,2009(01)
[7] 秦猛.关于DCS技术现状和未来发展趋势的探讨[J].石油化工自动化,2007(03)