基于声纹识别方法的的输电线路附近鸟类观测系统 董志聪 王金城 聂文翔 李红发 谭杨宝 郭栩文 杨晓勇

发表时间:2021/7/27   来源:《基层建设》2021年第12期   作者:董志聪 王金城 聂文翔 李红发 谭杨宝 郭栩文
[导读] 基于声纹识别方法的的输电线路附近鸟类观测系统,详细阐述了鸟类观测系统的组成、原理、关键技术等。系统采集鸟类发出鸣叫时同时触发图像采集机制

        广东电网有限责任公司中山供电局  广东中山  528400
        摘要:基于声纹识别方法的的输电线路附近鸟类观测系统,详细阐述了鸟类观测系统的组成、原理、关键技术等。系统采集鸟类发出鸣叫时同时触发图像采集机制,通过回传的图像和声音与后台中的图像库和声纹库进行比对,对鸟的种类进行智能分析。实现了对鸟类观测的自动化。
        关键字:声纹识别、输电线路、鸟类观测、图像采集;
        Abstract:This paper introduces the bird observation system near the transmission line based on voiceprint recognition method,and expounds the composition,principle and key technology of the bird observation system in detail.The system can trigger the image acquisition mechanism when birds emit a sound.Through the comparison between the returned images and sounds and the image base and the voiceprint database in the background,the intelligent analysis of the bird species is carried out.The automation of bird observation is realized.
        Keywords:voiceprint recognition,transmission line,bird observation,image acquisition;


        1引言
        沿海丘陵地区鸟害覆盖时间久,输电线路经常会有鸟害发生。为了减少鸟害对输电线路的影响,输电线路运维人员会在鸟害高发时间段对线路进行高频率巡检,通过清除鸟巢或布置防鸟装置等措施减少鸟类在输电杆塔周围活动。
        虽然电力运维部门长期以来采取了多项防鸟害措施,但防鸟工作缺乏科学有效的方法发现并识别鸟类,使输电线路运维人员工作强度大且无法高效防范鸟害事故。目前,已有一些针对鸟类分布情况和鸟害发生概率的研究工作,相比发展较为成熟的污区分布图和正在积极发展的冰区分布图,电力系统鸟害分布的相关技术研究进展缓慢。现有的针对输电线路的涉害鸟类研究,大多采用样线法等进行调研,同时与电网鸟害故障的统计信息和各地区的生态因素相结合,得到经验性的统计结果,但缺乏对广东沿海丘陵地区典型涉害鸟类的研究。现有的针对输电线路鸟类分布与生态环境关系的研究,只停留在简单的观察统计之中,也没有智能识别方法,无法有针对性的发现鸟害。传统的利用鸟类鸣声进行鸟类识别的方法,一般是将鸟类的鸣声混在一起进行训练和识别[1],但是忽略了鸟类鸣声分为鸣叫声和鸣唱声的特点,而鸣叫声和鸣唱声是两种完全不同的鸣声类型,于是导致训练和识别的效果很差。
        为解决上述问题,多种鸟类观测系统开始被研究开发出来,但现有技术中针对输电线路鸟类分布与生态环境关系的研究只停留在简单的观察统计之中、也没有智能识别方法、无法有针对性的发现鸟害、还忽略了鸟类鸣声分为鸣叫声和鸣唱声的特点而导致训练和识别的效果很差的缺陷。
        2 基于声纹识别方法的的鸟类观测系统
        采用嵌入式采集设备,基于声纹识别方法对输电线路的杆塔附近进行实时监测,鸟类发出鸣叫时同时触发图像采集机制,通过回传的图像和声音与后台中的图像库和声纹库进行比对,对鸟的种类进行智能分析。
        基于声纹识别方法对输电线路的杆塔附近鸟类进行实时监测的方法使用基于MFCCA特征参数和三支并行GMM识别模型的鸟类智能识别方法,采取将鸟类鸣声分类的策略和环境模型提取,分别提取鸣叫声的 GMM 模型和鸣唱声的 GMM模型以及环境GMM模型,构成三支并行 GMM 模型结构,三支并行 GMM 模型结构的数量比使用单 GMM 模型增加三倍倍,三支并行 GMM模型结构的参数λ的数量也增加三倍。最后根据最大后验概率准则,找出未知鸟类所属模型。。
        为提高识别准确率,采集到鸟类发出鸣叫时同时触发图像采集机制,通过回传的图像和声音与后台中的图像库和声纹库进行比对,对回传的图像进行预处理后,对于目标物体进行边缘提取、图像降噪和归一化等处理;将目标转化成可以识别的二进制数据流,摄像头捕捉到的图像进行二进制化的过程;设定当前图片的像素三分量分别为R,G和B,通过如下式(1)可以得到转换后的像素分量值:
        Gray=0.4×Red+0.2×Green+0.4×Blue(1)。
        然后对于目标特征进行识别,最后存储以便后续的人工核对校验;通过对于正样本图像进行颜色通道将图像中有意义的特征进行标注和分割,利用目标区域和背景色灰度值不同的差异,将低于阈值的像素设置为一个灰度值,将高于阈值的像素设置为另一个灰度值,以便利用目标区域前景色与背景色的明显差异来用灰度区分开,再将其画出,就可以得到自适应二值化图,然后提取其轮廓特征,将背景滤除,获得样本中鸟类的形体轮廓,最后对样本进行训练和测试,稀疏自编码器通过隐藏层学习一个数据的表示或对原始数据进行有效编码,从而学习得到数据的特征,所使用的图像样数据集为人工和网络收集,将分辨率统一以后,保存成鸟类图像样本库。
        3 识别系统的核心算法
        算法的核心在于使用tensorflow训练一个卷积神经网络CNN来对所述二值化处理后的图像进行鸟类图像识别[2].
        鸟类鸣声分为两种类型,分别是鸣叫声和鸣唱声。鸟类中只有鸣禽才会鸣唱,而它们大概占了全世界鸟种的一半。非鸣禽和鸣禽都会利用鸣声进行沟通,由于鸣禽控制鸣声的能力比较好,因此鸣唱声相对于鸣叫声更加复杂。鸟类能够发出多样性的不同鸣声。例如简单的浊音,特征为基频加上它的泛音。鸟类的浊音和人类的元音在结构上和发声方法上有密切的关系,但是鸟类声道上的控制复杂度低于人类。对于鸟类的浊音而言,不同的鸟类基本频率大约落在 100Hz 到 1KHz 之间。因为声道的滤波特性,鸟类可以增强不同泛音的强度。鸟类有时候也会发出纯净声调或鸣啭鸣声,这两种鸣声不含有泛音结构。浊音和鸣啭这两种鸣声可以用频率和振幅来调制。基频成份的振幅调制几乎是由鸣管来产生的,但是泛音强度之间的差异是由于声道的特性而有不同的变化。频率调制可以分为两种类型:连续频率调制和突然频率跳跃,这两种频率调制都是鸣声产生的来源之一。鸟类鸣声跟人类不一样,鸣禽可以同时发出两种不同频率的鸣声,鸣禽在鸣管中有两个独立的振动膜,所以理论上是可以产生两个完全独立的载波,称为“双声理论”。不同的鸟类对于使用这两个鸣声产生器有不同的方式。比如说金丝雀只利用一边的鸣管来鸣唱,而黑冠山雀则是利用两边的鸣管发出鸣叫声。不同种类的鸣禽采取不同的发声模式,或一边或两边,因此鸣禽鸣声变化多样。
        鸣叫声通常是短促和简单的鸣声,一般是单音节或双音节,很少有多音节。鸣叫声通常发生在特定情况下且带有某种功能和信息,不管是雄鸟还是雌鸟都会发出鸣叫声,且一整年都会鸣叫。鸣叫声带有很多的实用性,目前所知至少就有 10 种以上不同功能的鸣叫声,比如警告、恐吓、乞食和飞行等鸣叫声。有些鸟种会使用不同类型的鸣叫声来代表同一种情况,有些会使用非常类似的鸣叫声来代表不同的意思,很容易使人混淆。鸣叫声对鸣禽来说也具有同等重要的功能,它们能比非鸣禽发出更好的鸣叫声。
        鸣唱声通常是时间较长且复杂的鸣声,繁殖期的鸣唱更为复杂,具有吸引配偶和防御领域两大基本功能,并能刺激雌鸟的生殖系统发育。鸣唱声作为一种重要的繁殖前隔离机制,具有特异性,是许多鸟类选择同种个体作为配偶的重要依据[3],对于鸟类物种的形成有积极的推动作用。鸣唱声主要由雄鸟自发地产生,少数几种鸟种的雌鸟也会鸣唱,有些鸟种雌雄鸟之间还会相互对唱。雌鸟发出的鸣唱声相对于雄鸟来说比较简单。在某些鸟种里面,用来吸引异性的鸣唱声会比用来宣示领域的鸣唱声还要来的更长且复杂。鸟类的鸣唱声可以切割成以下几种级别,分别为短语、音节和音素。构成鸣唱声最基本的单位被称作音素,它是频谱图中可以被分割的最小元素。音节是由音素所组合构成,可以由一个或多个音素组成,因此音节的结构变化很大。多个连续相同音节构成的音节组为短语。音节在一段短语中彼此都很相似,不过也可以有不同的变化。一段鸣唱声就是由短语的序列所组合而成。当鸟类改变一段鸣唱声中短语的排序或形式时,将产生不同种类的鸣唱声。
        鸟类的声音识别方法常用的方法有动态时间规整(Dynamic  Time  Warping,DTW)、人工神经网络(Artificial Neural Networks,ANN)、隐马尔可夫模型(Hidden Markov Model,HMM)和高斯混合模型(Gaussian Mixture Model,GMM)。在声音识别中,最为简单有效的方法就是动态时间规整(DTW)算法,该算法基于动态规划(DP)的思想,将一个复杂的全局最优化问题化为许多局部最优化问题一步一步地进行决策,解决了声音源发音长短不一的模板匹配为题,是声音识别中出现较早、较为经典的一种算法。其缺点是模式匹配的运算量太大,影响识别效率。人工神经网络(ANN)是模式识别的方法之一。它是由许多具有非线性映射能力的神经元组成,神经元之间通过权系数相连接。人工神经网络的信息分布式存储于连接权系数中,使网络具有很高的容错性和鲁棒性[4]。人工神经网络具有十分强的学习功能,人工神经网络的连接权和连接结构都可以通过学习得到。近年来被广泛应用于声音识别中,常用的训练算法是 BP 算法。其缺点是在训练数据较多的情况下,训练速度较慢。隐马尔可夫模型(HMM)是在 Markov 链的基础上发展而来的。由于实际问题比Markov链模型所描述的问题更为复杂,观测到事件并不是与状态一一对应,而是通过一组观测概率分布相联系,这样的模型称为 HMM。它是一个双重随机过程,其中之一就是马尔可夫链[5],这是基本随机过程,它描述状态的转移。另一个随机过程描述状态和观察值之间的统计对应关系,站在观察者的角度,只能看到观察值,不像马尔可夫链模型中的观察值和状态一一对应[6],因此,不能直接看到状态,而是通过一个随机过程去感知状态的存在及其特性。因而称之为“隐”马尔可夫模型。HMM 较早的应用在声音识别领域,其缺点是需要大量的训练样本。高斯混合模型(Gaussian Mixture Model,GMM)是一种状态数为 1 的连续分布的隐马尔可夫模型,它是利用高斯分布的概率密度函数的组合来描述特征矢量在概率空间的分布状况,可以很好的描述从声音信号中提取的特征参数这类不规则的数据,是当今最主流的模型。较之于 HMM 模型的优势在于大大减少了计算量,提高了声音信号处理的实时性。通过前人的研究和对不同方法分析比较,GMM 模型相比于 DTW 算法、ANN 和HMM 模型有不可比拟的优        势,因此本文选择 GMM 模型作为鸟类识别模型。根据鸟类鸣声分为鸣叫声和鸣唱声的特点,本文提出双重 GMM 模型的识别方法,即每种鸟类拥有鸣叫声GMM和鸣唱声GMM 两种模型。
        传统的声音识别研究中,每一个种鸟采用单 GMM 模型进行训练和识别,将一个鸟种的所有鸣声混在一起训练,生成一个 GMM 模型。鸟类鸣声分为鸣叫声和鸣唱声,鸣叫声和鸣唱声差异很大,鸣叫声短促而单调[7],鸣唱声响亮而富有变化,根据鸟类鸣声这种特性,所述基于MFCCA特征参数和双重GMM识别模型的鸟类智能识别方法采取将鸟类鸣声分类的策略,分别提取鸣叫声的 GMM 模型和鸣唱声的 GMM模型和环境GMM模型,构成三支并行的 GMM 模型结构。
        卷积神经网络由输入层、卷积层、池化层、全连接层和输出层组成;输入大小为[200×200×1]存有二值化处理后的图像的原始像素,图像的长和宽均为200,高为1,使用一个典型的卷积核尺寸为5×5×1;在前向传播的时候,每个卷积核都会在输入数据的宽度和高度上进行卷积[9],卷积结束后输出的结果就是每个卷积核在深度方向上叠加起来的数据,卷积层的设置中将padding 设置为’SAME’的方式,这样使得卷积输出的数据长宽是不变的[8];在卷积层的输出会再接一个池化层,采用max Pooling 的方式保留图像的最大特征;当输出的数据长宽已经够小时,需要对三维数据进行转换成一维数据(flatten),采用dropout 的方式,对一部分神经元失活,将一位数据输入到全连接层中,使用全连接层的网络训练权重,卷积神经网络的最后是softmax 层,也就是分类专用的层,使用一个概率来表示待分类对象有多大概率属于某个类[10]。
        4 鸟类观测系统的硬件设计
        鸟类观测系统的硬件由太阳能板、蓄电池、ARM核心板、防水拾音器、摄像头、4G通讯模块、后台服务器组成,原理框图如图1所示。

        图1 系统硬件结构图
        系统供电由太阳能板、蓄电池、电源模块组成,这样安装方便,无需市电供应,ARM核心板连接部署在在杆塔附近的摄像头和防水拾音器,该ARM核心板还通过4G通信模块与作为后台的后台服务器通信连接,所述后台服务器中存储有鸟类的图像库和声纹库。图像采集机制就是ARM核心板通过摄像头采集图像并传输到ARM核心板中。防水拾音器用于采集鸟类发出的鸣叫,鸟类发出鸣叫时同时触发图像采集机制的方式是:在防水拾音器采集鸟类发出的鸣叫时,把鸣叫的声音信号传输给ARM核心板时同步出发摄像头采集鸟类的图像并传输到ARM核心板中。
        5鸟类观测系统的嵌入式软件设计
        系统初始化包括ARM处理器初始化、网络初始化、嵌入式操作系统初始化、4G通讯模块初始化四个部分。
        ARM处理器部分包括:设置系统各部分的时钟频率,IO口方向设置,中断向量设置,中断服务程序设置,定时器设置。为提高系统运行速度,通过PLL将CPU主频设置到最快速度。
        网络初始化部分包括:网卡物理地址设置、IP地址设置,网卡初始化,TCP/IP协议栈初始化。网卡的物理地址与IP地址通过读取ARM主板中的FRAM得到。
        4G通讯模块初始化包括:模块自检、拨号信息设置,工作模式设置,创建通讯连接。
        操作系统初始化包括:操作系统时钟频率设置、信号量创建、任务创建,根据软件需求,创建了定时读取声音信号任务、4G通讯模块通讯任务。
        读取声音信号任务完成以下任务:定时读取声音信号、检测鸣叫是否发生、启动摄像头采集图像信号、发送信号通知4G通讯模块通讯任务。
        4G通讯模块通讯任务用于传送声纹信息与图像信息到后台服务器,并接受后台服务器的返回信息,后台服务器进行图像库和声纹库匹配后,将匹配结果回传。

        图2 系统嵌入式软件流程图
        5结论
        以三支并行GMM 为识别模型的鸟类智能识别方法的准确性和效率明显提高,在正确识别率方面,以 MFCCA为特征参数以三支并行 GMM 为识别模型的鸟类智能识别方法对种鸟类的正确识别率达到95.00%以上,可见以 MFCCA为特征参数以三支并行GMM 为识别模型的鸟类智能识别方法具有良好的识别效果,结合图像识别,经过多次迭代学习,其误差识别率可以继续降低,具有很好的实用意义。
        参考文献:
        [1]肖理想,罗泽.基于Android和卷积神经网络的鸟类识别系统.计算机系统应用,2019,28(9):58-64
        [2]卢宏涛,张秦川.深度卷积神经网络在计算机视觉中的应 用研究综述.数据采集与处理,2016,31(1):1–17.
        [3]周飞燕,金林鹏,董军.卷积神经网络研究综述.计算机学报,2017,40(6):1229-1251.
        [4]刘程,谭晓阳.一种基于深度学习的移动端人脸验证系统.计算机与现代化,2018(2):107-111;
        [5]李新叶,王光陛.基于卷积神经网络语义检测的细粒度鸟类识别.科学技术与工程,2018,18(10):240-244;
        [6]冯郁茜.基于移动端的嵌入式鸟类识别系统设计与开发.电子技术与软件工程.2019,9;184-186.
        [7]谢将剑,杨俊,邢照亮, 张卓, 陈新. 多特征融合的鸟类物种识别方法.应用声学.2020,39(2):199-206.
        [8]林志玮,丁启禄,刘金福.融合全域与局域特征的深度卷积网络鸟类种群识别.林业科学.2020,56(1):133-144.
        [9]杨春勇,祁宏达,彭焱秋,尹滨,侯金,舒振宇,陈少平.融合声纹信息的能量谱图在鸟类识别中的研究.应用声学.2020,39(3):453-463
        [10]陈淑娴,刘建明.基于部位特征和全局特征的物体细粒度 识别.计算机与现代化,2017,(10):1–4,9.
        作者简介:董志聪(1993-),研究生学历,工程师,从事输电线路智能运维工作。
        基金项目:受广东电网有限责任公司科技项目《嵌入式鸟类智能识别装置研发》资助,项目编号:GDKJXM20185701(032000KK52180076)

投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: