广州地铁集团有限公司 运营事业总部 广东广州 510006
摘要:知识城线综合监控系统自2019年12月起出现多起FEP前置处理器(以下简称FEP)故障,主要表现为软件频繁切换、关闭后无法正常开启或出现只读无法写入等现象。经过对FEP进行深入检测分析后确定了故障原因为DOM卡擦写寿命耗尽,磁盘变为只读状态无法写入数据,并针对性提出了优化策略。
关键字:FEP DOM 磁盘
1、引言
广州地铁知识城线综合监控系统采用了MOXA FEP前置处理器,在2017年12月正式投入运行,在经过了2年运行时间后,开始出现了DOM卡故障的情况,主要现象是FEP软件频繁切换、关闭后无法正常开启或出现只读无法写入等。
2、FEP介绍
FEP前置处理器设置在中央级、车站级综合监控系统,专门用于数据采集、协议转换和数据隔离,接入BAS、FAS、PSD、PA、ACS、EMS、SIG等接口专业,实现与相关系统的数据通信和接口功能。FEP采用嵌入式Linux系统,配置4GB DOM卡作为存储设备,DOM卡型号为EDC 4000,采用SLC闪存颗粒,擦写寿命约10万次。
3、检测分析
3.1 对故障的FEP拆卸DOM卡进行外观检测,外观查看,无明显损伤。
图1 故障DOM卡
3.2 上机透过iSMART读取SMART信息,发现磁盘SSD的ECC Error数过高,且Corrected ECC Error无法修正回来,正常是要两者一致。
图2 DOM卡SMART信息
3.3 透过开卡工具对DOM卡重新MP,对SSD重新初始化,进行BurnInTest(性能测试)失败,发现ECC也是异常偏高,导致ECC纠正错误。
基于以上对FEP DOM卡检测情况,分析判断为闪存颗粒寿命接近耗尽,不再适合现场使用。
3.4 对FEP读写规律进行分析,读写依照JEDEC enterprise 规范,测试每日写入4GB数据,透过工具推估,预估写入放大率WAF为76.2,预估可写入数据量为11.9TB(1TB = 1024GB),预估使用年限 8.2年。但实际 WAF 亦受多种因素影响,EDC 4000该产品的算法是 Block mode,在实际的运用中会加快颗粒寿命的消耗。而知识城线综合监控系统FEP在新线调试及运营期间,设置了较高日志级别,不间断的大量打印系统日志,导致使用两年左右,FEP出现故障。
写入放大率WAF:在磁盘写入过程中,实际需要写入的数据量跟本机写入的数据量是不一致的,例如当前存储块有63个页写入了数据,还留下4KB空间,此时如果写入4KB数据,理论上正好填满整个存储块,但是磁盘不能直接覆盖写入数据,其他63个页的数据必须先复制到内存中,然后将整个存储块清空,要写入的这个4KB数据会在内存中与前面的63个页中的数据混合到的一起,然后再重新写入到一个存储块中。写入数据前必须先进行擦除,而闪存的最小擦除单位就是存储块。每个存储块是由数百个页组成的,页是闪存当中能够读取和写入的最小单位。
4、优化策略及结果
4.1基于上述检测分析,进行以下优化:
1)采用新版本DOM卡(EDC 1SE2 4GB),现场试点更换并测试新版本DOM卡。新版本DOM卡(EDC 1SE2 4GB)依照JEDEC enterprise规范,测试每日写入4GB 数据,透过工具推估,预估写入放大率 WAF为9,预估可写入数据量为46.7TB,预估使用年限为32,实际WAF亦受多种因素影响,以现场测试为准。
2)降低FEP软件日志打印级别,由小文档连续写入改为 256KB 以上数据的批次写入方式。
4.2测试结果
在知识城线选定试点站汤村站进行更换FEP DOM卡及降低日志级别,经运行一周后,读取磁盘参数进行分析,按现场测试环境以及擦写次数寿命为6万次推测(一般SLC闪存颗粒的擦写次数约10万次),预计使用年限为51年,可以满足使用需求。目前已经对全线进行推广。