基于深度学习的图像车型识别研究

发表时间:2021/5/25   来源:《文化研究》2021年6月下   作者:陈建 许青云 姚宜昌 代康
[导读] 图像识别技术是人工智能的一个重要领域,传统的图像识别方法需要人工设计特征,而深度学习属于神经网络结构,它能够从大数据中自动学习特征,极大的提高了识别准确率以及效率。因此本文着重研究了基于深度学习的图像识别方法,并探讨了卷积神经网络以及深度信念网络的基本模型和原理。

江西工程学院    陈建 许青云 姚宜昌  代康

摘要:图像识别技术是人工智能的一个重要领域,传统的图像识别方法需要人工设计特征,而深度学习属于神经网络结构,它能够从大数据中自动学习特征,极大的提高了识别准确率以及效率。因此本文着重研究了基于深度学习的图像识别方法,并探讨了卷积神经网络以及深度信念网络的基本模型和原理。
关键词:图像识别;深度学习;卷积神经网络;深度信念网络
        引言
        随着互联网时代的飞速发展,图片成为互联网信息的主要载体,因此,为了对图像中的信息进行提取与利用,图像处理的相关研究具有很强的现实意义以及应用前景。
        图像识别是图像处理的一大领域,对于图像来说,不同区域之间一定存在不同程度的信息关联,针对其这样的特点,深度学习模型具有很强的学习能力,它能够较好的提取图像的全局特征同时结合各单元之间的联系,能够真正发现并刻画问题内部复杂的结构特征。一幅图像往往包含着丰富的信息,一个图像集的数据量更是非常庞大,深度学习算法普适性强,能够充分利用大数据的优势,通过学习来解决问题,可根据问题自动建立模型,用于训练的数据越多,算法的鲁棒性以及泛化能力就越强,提取的特征也就越准确,能够有效分辨同种类型的不同表达,达到全局最优。并且,深度模型调整也极为方便,只需修改参数即可改变模型,能够满足不同的输入及分类需求,具有较强灵活性及成长性。因此,将深度学习算法应用于图像识别提高了识别准确率以及效率。
        深度学习可说是人工智能领域的一项重大突破。深度学习在计算机视觉领域最具影响力的突破发生在2012年,Hinton的研究小组采用深度学习赢得了ImageNet图像分类比赛的冠军。与图像识别方面的进步密切相关的,是深度学习技术在各种视觉艺术任务中的应用也越来越多。同时,各大公司例百度、Facebook以及谷歌都相继成立了深度学习研究院或实验室进行相关研究。深度学习在人脸识别方面也获得了巨大成功,非深度学习算法中所达到的最高识别率是96.33%,而目前深度学习可以达到99.47%的识别率。
        1卷积神经网络
        1.1卷积神经网络的结构
        卷积神经网络(CNN)是一类深度前馈神经网络,一个基本的卷积神经网络通常由三个基本元素来进行定义。
        (1)卷积层:卷积层是卷积神经网络的核心构件,卷积单元实际上为一个权值矩阵,可看作一个从原始图像矩阵中提取特定信息的过滤器,它们具有较小的接受域,深度与输入层相同。不同卷积单元可提取不同的特征,通过对卷积单元参数进行学习来从原始图像中提取信息,从而来帮助网络进行正确的预测。多层卷积中,第一层通常提取的是一般性特征,深层的卷积神经网络能够提取更加复杂具体的特征,使得泛化性变强。同时,采用权值共享的方式即相同的卷积单元通过滑动平移来对输入层进行卷积。了解决边缘像素点与中间像素点利用率相差较大的问题,采取对图像边缘进行填充的方式。卷积层的最终输出为激活图。
        (2)池化层:为了减少网络中参数和计算量,加快运算速度,在卷积层之间引入池化层,将特征图分成若干个区域,对区域进行最大池化或均值池,从而减少图像空间大小,减少后续计算量控制过拟合问题。池化后的图像仍保留了输入图像的主要特征信息,但图像尺寸得到大大缩小。
        (3)全连接层:为了得到分类类别数量的输出,卷积神经网络的输出层应用全连接层,把提取出的所有局部特征融合成全局特征。损失函数用于计算预测误差,误差会进行反向传播,用以不断改进更新卷积核参数以及偏置的值,与普通神经网络相同,全连接层用来进行最后的回归与分类。



        1.2卷积神经网络在图像识别中的应用
        LeNet-5是卷积神经网络的基本模型,MNIST数据分为两个部分,第一部分为用于训练数据的图像,第二部分为用于测试数据的图像。其除去输入层共包含7层,输入层将库中图片填充至32*32,第一层,第三层为卷积层,均使用5*5的卷积核进行卷积,第二层、第四层为池化层,第五、第六层为全连接层。
        2深度信念
        2.1深度信念网络模型
        在机器学习中,深度信念网络(DBN)是一种生成性的模型,是由多层潜在变量即隐藏单元组成的深层神经网络。这些隐含层充当特征检测器,每层在没有监督的情况下对一系列输入进行独立训练的同时,DBN可以不断学习并以一定概率重构其输入。
        在这样一个学习步骤之后,DBN可以进一步被有监督训练来进行分类。经典的DBN网络结构是由若干层RBM和一层BP组成的一种深层神经网络,DBN的训练步骤大致可分为预训练和微调。预训练即对初始化权重参数进行预先估计,DBN通过CD算法即对比散度,分别单独无监督地训练每一层RBM网络。CD算法步骤如下:首先对可见单元进行初始化,得到训练矢量,例如偏置向量以及权值矩阵;再通过可见单元来更新隐含单元;之后通过隐含单元来更新可见单元,这一步称为重建,对每一层不断进行重建,刷新参数,一旦RBM得到训练,另一个RBM就会“堆积”在其上面,从最终的训练层获取输入。重复整个过程,直到满足所需的停止标准。虽然CD算法对最大可能性的逼近是粗糙的(不遵循任何函数的梯度),但它却是十分有效的。
        预训练之后则对参数进行微调,深度信念网络的最后一层常为BP神经网络,能够有监督地训练分类器。由于隐含层的训练是独立的,每一层RBM网络只能确保自身层内的权值对该层特征向量映射达到最优,所以需要通过全连接进行微调。RBM网络模型训练的过程可以看作对BP网络权值参数的初始化,使得网络的初始参数更加合理,训练时间大大缩短,同时控制了过拟合情况出现。
        2.2深度信念网络在图像识别中的应用
        深度信念网络算法在时间及效率上都有很好的效果,尤其是能够充分利用大数据优势的同时,通过对多层RBN的训练,优化了初始权值参数,有效缩短了整个网络训练时间,目前广泛应用于图像识别等领域中。
        将深度信念网络模型应用于MNIST库中手写字体的识别,采用双层DBN结构,隐含层都设置为100个单元,将每层RBM的迭代次数都设置为100,在BP层设置迭代次数为100,激活函数采用sigmoid函数。
        深度信念网络在识别率上与CNN相差无几,但是训练时间却大大缩短,具有明显优势。
        3结束语
        本文研究了深度学习算法在图像识别方面的应用,简述了卷积神经网络以及深度信念网络的概念及其基础模型,并介绍了两种算法在识别MNIST库中手写字体中的应用。深度学习是机器学习领域内新兴的学科,是近十年来人工智能领域取得的最重要的突破之一,它的流程主要包括数据预处理、训练、误差反向传播调整参数、分类等,深度学习中的卷积神经网络算法分类效果好,适应性更强。
江西教育厅科技项目:大数据时代基于深度学习的车型识别研究与应用(GJJ191193)
参考文献
[1]李卫.深度学习在图像识别中的研究及应用[D].武汉:武汉理工大学,2014.
[2]丰晓霞.基于深度学习的图像识别算法研究[D].太原:太原理工大学,2015.
[3]周凯龙.基于深度学习的图像识别应用研究[D].北京:北京工业大学,2016.

投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: