张新峰1 贾艾静2
1. 国网北京朝阳供电公司,北京,100124 2. 北京东孚久恒仪器技术有限公司,北京,110102
摘要:近几年市场上出现了许多智能可穿戴设备,它们可以监测用户的步数、心率等情况,从而推算出用户的运动量、睡眠质量、作息习惯等,并根据这些数据给用户提供健康建议。但是在这些产品中,很少有产品可以识别用户的运动姿态,即使有,识别的姿态种类也比较单一。随着边缘计算的不断发展,传统的机器学习运行也逐渐从云端下沉到边缘端,在嵌入式微控制器上运行深度学习网络模型进行结果预测成为了可能。在此背景下,本文针对基于深度学习的电力工程现场动作识别进行详细探究。
关键词:深度学习;电力工程;现场;动作识别
中图分类号:TP391文献标识码:A
1 引言
随着互联网技术的发展和视频获取设备的普及,视频已成为信息的主要载体。视频数据的数量呈爆炸式增长,如何分析和理解视频的内容显得越来越重要。人体动作识别作为视频理解的重要课题之一,已经成为了计算机视觉领域研究的焦点。动作识别通过对预先分割好的时域序列进行时空信息建模,进而学习视频中所包含的表象和运动信息,以此来建立视频内容与动作类别之间的映射关系,使得计算机能够有效地胜任视频理解的任务。
2 基于深度学习的人体动作识别概述
目前视频架构之间主要有以下区别:网络的输入只包含RGB视频还是包含了预处理的光流,卷积核是采用2D(基于图像)还是3D(基于视频),以及在2D网络的基础上帧间信息如何整合。双流神经网络(Two-Stream ConvNet)在动作识别领域是一类很常用的方法,该方法简单却有相当优异的效果。双流网络顾名思义由时间流与空间流两路网络组成,空间流网络将视频单帧或堆叠帧输入卷积网络学习空间域上的视频信息,时间流网络将光流图以多通道的形式输入卷积网络学习时间域上的视频信息[1]。两路网络各自对视频输出属于各类的概率,最后平均两个概率向量得到最终的分类结果。3D神经网络是另一类很常用的方法。随着近年来计算力的进一步提升以及数据集规模的进一步增加,3D神经网络发展迅速,从最开始的不如传统方法到如今与双流网络并驾齐驱。3D网络在设计之初就是一种端到端的网络架构,它可以直接将视频作为输入,并输出最终分类类别。由于网络结构复杂,3D网络需要很大的数据集才能得到较好的结果,并且网络层数不能过深。
3 基于深度学习的电力工程现场动作识别
3.1 结构模型
为了对视频中的动作进行时空建模,本文设计时序差异残差网络
ResTD 主要分为3阶段。输入采样阶段、时空特征提取阶段、特征分类阶段。(1)在输入采样阶段,为了覆盖输入视频的整体时序,对输入视频沿时间维度展开,进行稀疏时序采样,组成具有时序顺序的序列图像,作为网络训练输入。(2)在时空特征提取阶段,主要完成空间特征与时序特征的统一提取。其中空间特征提取通过残差模块( ResNet Block) 实现,利用短路连接机制,使网络加深时无损地进行梯度传播,并且通过下采样操作,使特征图空间大小减半。时序特征的提取通过时序建模层( Temporal Model, TM) 实现,利用特征级别的时序差异计算得到激活图,用于增强特征的运动信息[2]。(3)在特征分类阶段,通过全连接层实现特征映射,将时空特征提取阶段已编码好的高维特征映射为具有动作类别数目的分类特征,应用Softmax激活函数将分类特征转化为概率表示,与真实目标类别计算损失。
3.2 自编码
自编码器是一种无监督的学习算法,其网络结构类似连接编码器和解码器的沙漏。通过对编码器的输入数据进行降维,获得压缩后的输入数据特征值。解码器的主要任务是使重建损失最小化,以便重建尽可能多的原始数据。首先,自编码器输入向量x∈[0,1]d,通过非线性映射函数y=σ(Wx+b)将输入向量映射至潜在空间,表示为y∈[0,1]d'。其映射函数中的W是权重矩阵,b是相应的偏差矢量,σ是激活函数。每个神经元连接到具有相应权重和偏差的下一层,并且为建立鲁棒的模型而对每个神经元的权重和偏差值进行迭代训练。
3.3 非局域时间段网络
双流神经网络的一个很明显的问题是其现有形式在建模长期时序结构的羸弱能力。这主要归咎于其对时序上下文的处理方法有限,因为它本身是为单帧(空间域网络)或一小段时间内的堆叠帧(时间域网络)而设计。然而复杂行为例如运动包含相当长时间内的多个阶段。如若无法将利用这些动作的长期时序结构训练卷积网络,那将产生相当大的损失。为了处理这个情况,使用时间段网络,一个视频级别的框架,可建模整个视频的动态变化。特别地,时间段网络是为了利用整个视频的时序信息来进行视频级别的预测。它也是由空间流卷积网络和时间流卷积网络组成。并非处理单帧和堆叠帧,时间段网络处理从整个视频中进行稀疏采样所得的切片序列。序列的每个切片会对动作类进行初步预测,然后对这些预测进行整合得到整个视频级的预测。在训练过程中,迭代优化视频级预测的损失值,而不是切片级的预测。
3.4 长短期记忆网络( LSTM)
在数据模式随时间变化的情况下,神经网络难以处理时序数据之间的关联。处理时序依赖性的一个常见办法是应用递归神经网络(RNN)。RNN利用内部存储器存储先前的数据状态,然后输出引用此类先前状态的顺序信息。但是由于梯度问题的消失和爆炸,RNN网络难以收敛,训练难度较大[3]。因此,具有门控机制的长短期记忆网络(LSTM)被提出来以克服RNN的缺陷。LSTM包含不同的存储块。每个存储块包含三个门:LSTM中的一个输入门、一个忘记门和一个输出门。这三个门具有各自的权重,可以指明何时学习、确定哪些参数、更新内存状态或何时忘记先前的内存状态。LSTM在自然语言处理、图像字幕识别等领域得到广泛运用。
3.5 生物传感器
它是一种将物质浓度转变成电信号的一种测量仪器。生物传感器既可以作为转换器,也可以作为接收器来使用。传统传感器作为可以获得环境信息并按照一定规律转换为电信号输出的技术,其应用已经相当广泛,一定程度上减少了人工勘测的成本。但是传统传感器也存在缺点:其一,单个传感器检测的物理量有限,故通常需要多种传感器协同合作,这便增加了设备部署的复杂度;其二,价格相对便宜的传感器则存在容易受到环境干扰的问题,而应用在特殊场景下的传感器价格昂贵,不利于推广;其三,传统传感器是一种物理介质的实物,存在携带不方便,易丢失等缺点,这些潜在的问题在一定程度上制约了基于传感器应用的发展。
4 结束语
随着社会的发展和科技的进步,人们对不同工作场景中通过技术的应用提高效率、降低成本的要求显著提高,技术的应用方向专业化、应用形式多样化、环境部署简易化已成为研究目标。针对基于深度学习的电力工程现场动作识别进行详细探究,旨在通过动作识别,及时发现和纠正电力工程现场的违章操作,并对不同的违章行为进行分类分析,为施工人员的教育培训提供方向。
参考文献:
[1] 桑海峰, 赵子裕, 何大阔. 基于循环区域关注和视频帧关注的视频行为识别网络设计[J] . 电子学报, 2020, 48( 6) : 1052 - 1061.
[2] 郑勇峰, 张小俊, 王志鹏. 一种轻量化卷积神经网络的行为识别模型[J] . 机械设计, 2020, 37( 5) : 111 - 116.
[3] 吕洁, 李洪奇, 赵艳红, 等. 基于关节空时特征融合的人体行为识别[J] . 计算机工程与设计, 2020, 41( 1) : 246 - 252.