张博 邢闯 史丽君
国网山西省电力公司输电检修分公司 山西省太原市,030000
摘要:无人机和巡检机器人技术尚未成熟,采用这些方法反而对输电线路带来较多的安全隐患。因此,从监控的角度保证电力系统的安全稳定运行是非常值得研究的方向。在监控视频中迅速发现异常,检测出各种异常目标,就能够快速预警防患未然。因此,输电线路异常目标检测能够预防和减少事故发生,对提高输电系统安全性、稳定性起到十分重要的作用。
关键词:输电线路;异常目标;检测
1 高分辨率特征融合的异常目标检测
1.1 高分辨率特征的提取与融合
目标检测首先需要得到用于描述目标的特征来表示不同的目标。不同类别的特征差别应较大,才能较好地区分不同的目标,特征表示的优劣对目标检测非常关键。而卷积神经网络可以对输入图片提取出特征,网络不同层级得到的特征不同,浅层特征倾向于目标的表观信息,深层特征倾向于物体语义信息。因此,本文充分利用浅层的表观信息和深层的语义信息,主要包括HRNet高分辨率特征提取、HRFPN高分辨率特征信息融合。
1)HRNet高分辨率特征提取。在目标检测网络中,多采用ResNet作为主干网络与FPN结合进行多尺度特征提取。但ResNet网络只得到不同层级的特征,并未进行不同层级信息的融合,仅依靠结合FPN[18]从高层向低层方向进行融合,限制了目标检测器的性能进一步的提升。本文采用HRNet作为主干网络,该网络能够在整个过程中维护高分辨率的表示,从高分辨率子网作为第一阶段开始,逐步增加高分辨率到低分辨率的子网,形成更多的阶段,并将多分辨率子网并行连接。在整个过程中,通过在并行的多分辨率子网络上反复交换信息来进行多分辨率的重复融合,因此,用HRNet输出的不仅包含高层语义信息,同时也融合了低层表观信息。
2)HRFPN高分辨率特征融合。在传统的FPN中,FPN是将ResNet在不同层级输出的特征,各自通过一层1×1的卷积降低通道数,由高层到低层依次放大2倍后相加,在每个低层上实现与上一层的语义相融合。与FPN只单向融合多尺度特征的方法不同,HRFPN能够得到更高质量的特征。HRFPN先将各层的特征图用双线性上采样到与最大的特征图相一致的尺度,拼接到一起形成一张新的特征图,然后将特征图依次池化成不同尺度的特征图即可。提出的检测方法是在4个尺度上预测,因此还需3个池化层获得不同尺度的特征图,池化层卷积核大小依次是[2,4,8],池化层步长与池化层卷积核大小相对应,依次也是[2,4,8]。
1.2 RPN提取ROIs
对HRFPN得到的特征图,输入到RPN网络,在每个层级中,使用滑动的锚点anchors来生成兴趣区域,根据区域得分和回归位置,裁剪得到多尺度的感兴趣区域ROIs。此阶段的损失函数如式(1):
其中,i表示在一个小的训练批次中anchors的序号,pi是预测第i个anchor为目标的概率,pi*用于区分正负锚点,ti表示RPN阶段预测得到的边界框,ti*表示目标真实的边界框位置,Ncls为训练的一个小批次的大小,Nreg是anchors的数量,λ是平衡参数,用于平衡分类损失和回归损失。Lcls1分类损失函数采用了指数损失,而Lreg1回归损失函数则采用smooth L1损失,如式(2):
其中,参数x是预测结果与真实值的差。
在RPN网络中,根据anchors与目标真实区域的交并比(IoU),把锚点区域分为正锚点和负锚点。然而,当输入的图片中只有小尺度目标,并且目标的数量也比较少的情况下,通过RPN区域建议网络得到的负锚点的数量会远高于正锚点,这会让网络提取到较多的背景语义信息,却忽视了对于前景目标的特征提取,从而使训练得到的目标检测器更加偏向于对背景的识别,并减弱了对前景目标的识别,进而对最终的目标检测器造成干扰。
基于这个问题,本文的检测方法随机去除部分负锚点,使其数量不超过正锚点的3倍,进一步均衡了RPN阶段产生的正负anchors的数量比例,防止因为其悬殊的差距而影响到最终的目标检测,从而提高目标检测网络的性能。
2.3 级联的目标检测器
对兴趣池化后的特征图,使用级联的目标检测器进行分类和边界框回归,得到预测目标的类别及相应边界框的位置。所谓的级联就是使用3个结构相同但参数不同的目标检测器,并将前一级目标检测器的边界框预测结果作为新的RPN建议区域,再根据其来重新裁剪特征图,最后将裁剪后的特征图输入到下一级目标检测器。
3 实验结果及分析
3.1 实验环境与参数设置
本文实验使用的Linux系统版本是Ubuntu 16.04,服务器的硬件配置如下:CPU使用的是Intel?Xeon?CPU E5-2678 v3@2.50 GHz×2,GPU使用的是NVIDIA GeForce GTX 1080 Ti×2,内存为32 GB。本实验使用的深度学习框架是PyTroch,为了提高GPU利用率,使用了CUDA 8.0以及cuDNN 6.0,同时使用nccl v2作为GPU间的通信方案。在实验中所使用的Python库为Anaconda 3,Python版本为3.6。实验数据集是来自电网输电线路监控平台实际环境采集的数据,共有3650张图片,根据电网公司需求,认定的异常目标分为5类,分别是施工机械、塔吊、吊车、烟火、导线异物,按4:1的比例将数据集划分为训练集和测试集2部分,每轮用训练集训练后再用测试集测试。
3.2 训练结果及对比分析
可以看到,随着训练迭代次数的增加,整个神经网络总体损失值下降,由此可知组合的神经网络能够正常训练。由于Cascade R-CNN和本文方法均有多个目标检测器,总体的损失要高于使用单个目标检测器的Faster R-CNN。值得注意的是,在使用Cascade R-CNN架构后,触发了momentum的特性,在训练前期损失值有一定的上升,这是正常现象,此后随着训练进行,损失开始下降。
单纯使用Faster R-CNN进行检测并不能较好地完成识别任务。分析其中精度较低的类别特性后,分别采用高分辨率特征网络和级联的目标检测器,检测精度有一定的提升。本文方法不仅采用级联的检测器,而且采用HRNet作为主干网络,替换掉原始的ResNet,使得检测精度有了进一步提高,优于前面提及的检测方法。
3.3 检测结果及分析
前2列采用的主干网络组合是:ResNet+FPN,后2列是本文采用的主干网络组合:HRNet+HRFPN,从2种主干网络提取的特征可以看出,低层特征图表示的都是局部细节,高层特征图表示的都是物体大区域。对于主干网络提取的特征,希望低层特征尽可能保留有用的细节,高层特征尽可能是抽象语义。在低层特征图上,ResNet基本上将局部的细节表示出来,而HRNet会融合高层的语义信息,产生的细节特征噪声更少,更加清晰。在高层特征图上,ResNet生成的语义特征仍然包含大量的细节,而HRNet会融合低层的细节信息,将细节从中去除,生成更加干净的抽象语义信息。因此,高低层特征相互融合的HRNet比依次提取特征的ResNet能够生成更好的特征。
对于FPN和HRFPN生成的特征,目标检测将会从高分辨率的特征图上寻找小物体,从低分辨率特征图上寻找大物体。可以看出,在高分辨率特征图上,FPN会强调大物体语义,HRFPN则会专注局部细节,在低分辨率特征图上,FPN强调语义过于抽象,HRF-PN大物体的细节也能表示出来。
参考文献
[1]李小薪,梁荣华.有遮挡人脸识别综述:从子空间回归到深度学习[J].计算机学报,2018,41(1):177-207.
[2]肖德贵,辛晨,张婷,等.显著性纹理结构特征及车载环境下的行人检测[J].软件学报,2014,25(3):675-689.
[3]张冬明,靳国庆,代锋,等.基于深度融合的显著性目标检测算法[J].计算机学报,2019,42(9):2076-2086.