基于神经网络模型的大黄蜂分类研究 邓雅月

发表时间:2021/4/1   来源:《论证与研究》2021年2期   作者:邓雅月
[导读] 摘要:本文主要针对大黄蜂的分类问题进行了相关研究,利用神经网络分类模型对亚洲大黄蜂的特征进行分类。首先对目击者评论的关键特征描述进行分析,其次采用SVM方法来进行分类,为选择合适的分类模型,在昆虫数据集上测试了一些常用的卷积神经网络分类模型,同时采用数据增强,模型融合的技术来进一步提高整体的分类精度,使神经网络完成非线性计算,神经网络中必须存在激活函数,在此选择了获取激活值比较简单的Relu函数。

                                                                          邓雅月
                                                 (北京语言大学信息科学学院 北京 100083)
        摘要:本文主要针对大黄蜂的分类问题进行了相关研究,利用神经网络分类模型对亚洲大黄蜂的特征进行分类。首先对目击者评论的关键特征描述进行分析,其次采用SVM方法来进行分类,为选择合适的分类模型,在昆虫数据集上测试了一些常用的卷积神经网络分类模型,同时采用数据增强,模型融合的技术来进一步提高整体的分类精度,使神经网络完成非线性计算,神经网络中必须存在激活函数,在此选择了获取激活值比较简单的Relu函数。最后将筛选出来目击报告与最近的正面目击报告进行实际距离计算。
        关键词:神经网络;大黄蜂;分类
        引言:
        2019年9月,在加拿大不列颠哥伦比亚省温哥华岛发现亚洲大黄蜂后,在华盛顿州北部的 Whatcom 县首次在美国境内发现了亚洲大黄蜂的巢穴和工蚁。在农业和生态环境方面,入侵的亚洲大黄蜂不仅会吸食植物的汁液,包括水果和蔬菜,而且会攻击蜜蜂和其他传粉者。由于少量的亚洲大黄蜂能够在短时间内摧毁整个欧洲蜜蜂群落,对养蜂业造成毁灭性的危害,同时对于生态环境产生不良影响。除此之外,这也会降低农作物产量,造成农业上潜在的危害。
        1、问题分析
        已知目击者的notes、官方回复Lab Comments以及相应的黄蜂图片,提供图像视频数据分别建立SVM分类器和神经网络分类模型,来进行亚洲大黄蜂的分类,基于分类器的结果和亚洲大黄蜂相关资料,提供一种分析策略,使得最有可能是亚洲大黄蜂的报告优先被调查,考虑到历史数据对于预测值的重要程度不一样,并且随着数据量增加,模型对于大样本的拟合性下降,使用对于历史数据赋予不同权重的方式来进行模型的更新预测。
        2、模型的建立与求解
        通过对亚洲大黄蜂的习性分析,亚洲大黄蜂头部黄色,胸部黑色,腹部有黄色、黑色或棕色条纹,其巢穴离地面的高度永远不会超过3到6英尺,如图1所示:
 

                                                                      

                                                                               图一  亚洲大黄蜂
          由于体型,大小相似,亚洲大黄蜂最容易被误认为欧洲大黄蜂,查阅资料对五种易于混淆的黄蜂进行区别,如表1所示:
                 表1  亚洲大黄蜂的区分


        尽管它的腹部有许多其他黄蜂物种所共有的黄色和黑色,但它巨大的橙色头部和其他夸张的面部特征使它与近亲区别开来。为了区分出亚洲大黄蜂,选取分类依据的信息有检测日期、注释、实验室状态、纬度、经度 。考虑如下:
        ●对于检测日期:因为根据亚洲大黄蜂的生活史可以大致判断出亚洲大黄蜂正常情况下出现的时间,因此可以根据检测日期提供的信息,为判断提供参考。
        ●对于纬度、经度:黄蜂出现的地理位置信息,同样和其品种具有相关性。由于不同品种的黄蜂对于环境条件的不同需求,会导致不同地方的黄蜂不一定一致。考虑是基于报告地点和黄蜂实际出现地点一致的假设。
        ●对于笔记:目击者的目击报告笔记包含有黄蜂特性描述,比如昆虫的大小,头部和身体的颜色以及它的活动地点时间等信息,对于分类模型有一定指导作用。
        因为考虑到对于目击者评论的文本中次数越高的词往往不是对亚洲大黄蜂的关键特征描述,所以在建模的时候没有采用普通的统计词频的方法来得到词向量,而是采用词频-逆向文件频率的方法来进行文本向量化,以提取关键特征
        公式如下:

        TF--IDF
        文件y中的术语x
        tfx,y=新y的频率
       dfx=包含x的文件档数,N=文件总数,其中tf表示词x在文档y的……
        TF-IDF倾向于过滤掉常见的词语,保留重要的词语,因此tf-idf结合能更好地找出能概括文档的主题词.由于分类是二分类,并且样本数据集很少并且十分不平衡。统计数据集知,正例样本只有 14 份,而负例样本有 2069 份。SVM 是一种的小样本学习方法,它基本上不涉及概率测度及大数定律等,从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”,大大简化了通常的分类和回归等问题。SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。由于SVM的分类结果只和少量的支持向量有关,所以可以缓解数据不平衡和数据量样本少带来的干扰,因此,在提取了关键特征后,采用SVM方法来进行分类。为选择合适的分类模型,在昆虫数据集上测试了一些常用的卷积神经网络分类模型,同时采用数据增强,模型融合的技术来进一步提高整体的分类精度。在实验中发现,由于训练数据有限并且拍摄角度和清晰度较差,基于分类模型的识别系统对带有复杂背景的昆虫图像识别性能不理想。卷积神经网络是一种前馈神经网络,其人工神经元可以局部相应周围的是神经元,每个神经元都接受一些输入并做点积运算,在这里为了提取昆虫的体貌特征,采取了最大池化的方法。使神经网络完成非线性计算,神经网络中必须存在激活函数,在此选择了获取激活值比较简单的Relu函数。最后将筛选出来的可能的目击报告与最近的正面目击报告进行实际距离计算,若真实物理距离在30公里左右的则极有可能是正面的目击报告应该优先调查。计算公式如下。

        其中latitude是纬度,longitude是经度
        a=latitude1 - latitude2为两点纬度之差 b=longitude1-longitude2 为两点经度之差;6378.137(KM) 为地球半径。计算出14只候选大黄蜂之间的距离并筛选掉距离差在30公里范围外的,GlobalID删除的ID为:{4F753C6C-B49B-4C2D-AD30-8CDAF540DE9F}、{EF552C95-5EAA-461F-BDA9-348171BE601D}、{49DC3BF7-EDBC-4178-8E41-56C19E92550F}、{52D7A9AC-1D1B-4700-A2B4-123D95761882}
        综上,经过“模型-环境-公式计算”的三次筛选,从unverified样本中确定了10份亚洲大黄蜂最有可能的正面目击报告。GlobalID为:{EB4746A1-5A8B-4D7D-9149-D560988238EC}、{266F962C-6461-4A6D-8660-6AE608F41AB1}、{13B67BCB-AFCE-4100-AD2B-76EF178BA228}、{E6ADE6FB-0BD3-43EC-8E75-72EFC6F029FB}、{72E591F1-F42C-4754-94FF-DBDF791BBF2E}、{A0161ABC-0636-445B-A877-BBB2CA55EC8F}、{178F831A-FD1D-41D2-80B8-1C5CD692D1A1}、{3450C639-DCE4-424B-8CB4-EB3BFA809283}、{92109EC1-358E-4428-8C6A-EF6C79E46514}、{DF39302D-A171-4B34-B26C-A3E4070050E2}。
        但是由于数据量越来越大,模型对数据的识别度变差,同时考虑到亚洲大黄蜂繁衍的时空密集性,因此只利用在时间以及空间上密集的数据样本对模型进行更新。
        参考文献:
        [1]https://www.cnblogs.com/hello-wei/p/10320363.html
        [2]2021.02.01.429186v1.full.pdf
        [3]_WSUAGHBeekeeperAdvice.pdf
        [4]Cnn图源:基于深度学习的昆虫图像识别技术研究_庞宏伟

投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: