基于深度学习的目标检测技术的研究综述

发表时间:2021/6/2   来源:《教学与研究》2021年2月第5期   作者:刘芳
[导读] 随着深度学习方法的快速发展,目标检测作为计算机视觉领域中最基本

        刘芳
        黑龙江东方学院,黑龙江哈尔滨,150086

        摘要:随着深度学习方法的快速发展,目标检测作为计算机视觉领域中最基本、最有挑战性的任务之一,取得了令人瞩目的进展。本文总结了目标检测的研究背景、意义及难点,对基于深度学习的目标检测算法进行综述,并指出了存在问题与发展方向。
关键词:深度学习;目标检测;特征提取
1.引言
        目标检测结合了目标定位与目标分类两大任务,被广泛应用于行人检测、自动驾驶等计算机视觉领域,为用户提供有价值的信息。目标检测的主要任务是从图像中定位目标,然后准确地判断每个目标的类别。当前目标检测技术已经广泛应用于日常生活、交通场景检测等领域。由于同一类物体的不同实例间可能存在很大差异,而不同类物体间可能非常相似,以及不同的成像条件和环境因素会对物体的外观产生巨大的影响,使得目标检测具有很大的挑战性。
        根据检测算法中是否手动提取特征,可以将目标检测算法分为传统方法和基于深度学习的算法。传统的基于手工特征的目标检测算法对于一般图像中的目标识别精度差、定位不准确,因此无法满足当前实际场景中对于检测的需求。区域选择多是采用基于滑动窗口的检测方法,特征提取采用手动选择,如颜色特征、纹理特征等。由多种因素导致检测算法复杂度高,鲁棒性低、准确度和实时性差的缺点。基于深度学习的目标检测技术解决了传统目标检测的缺点,通过引入卷积神经网络自学习目标特征来代替传统手动选择和提取特征的过程,引入区域候选框或直接回归方法可以提高目标检测准确度和实时性。
2.基于深度学习的目标检测的研究现状
        深度学习是通过多层非线性变换对高复杂性数据进行建模的算法合集。多层指神经网络的层数,深度是超过8层的神经网络,层数越多,深度越深。非线性是指处理实际应用中复杂的非线性可分问题,采用复杂的函数逼近,进而更加详尽地表征出数据的特性。深度学习的本质就是采用多个隐层的机器学习模型和海量的训练数据来尽可能充分地表征和学习到有用的特征信息,进而预测或识别出结果。
        深度学习减少了人为设计特征造成的提取信息不完整的缺点,在满足特点条件的应用背景下,以深度学习为计算架构的一些机器学习的应用,表现出较原有算法更好的识别效果和分类能力。为了达到更好的识别效果和更高的精度,深度学习需要大量的数据支持和较长时间的学习过程。更好的软件编程技巧和更优质的硬件设备支持是做好和提升深度学习性能的前提条件。
        目前基于深度学习的目标检测算法可以通过是否采用区域候选网络分为两类,首先出现的是二阶段目标检测算法。代表算法有 RCNN、Fast RCNN、Faster RCNN和 FPN等。随后出现单阶段目标检测算法,直接通过一个神经网络对目标进行分类与回归。代表算法算有YOLO系列、SSD和RetinaNet等。
        (1)二阶段目标检测算法
        Girshick等人提出R-CNN网络结构,首先使用选择性搜索方法提取大约2000个候选区域,然后利用卷积神经网络计算每一个区域的特征图,利用支撑向量机对其进行分类,区分出背景和目标。由于会出现一个目标附近有重叠的候选区域,这时用非极大值抑制方法去掉重叠的候选区域,最后使用边框回归方法修正候选框的位置。
        (2)单阶段目标检测算法
        YOLO由Joseph等人在2015年提出。它是深度学习时代的第一个单阶段目标检测器。YOLO因为只对输入图像进行一次特征提取,所以计算速度非常快。它将单个神经网络应用于整个输入图像,该网络将图像划分为多个区域小格子,并同时预测每个小格子的边界框和概率。后来在此基础上进行了一系列改进,提高了检测精度。

尽管检测速度有了很大的提高,但与两级检测器相比,其定位精度还有一些差距,特别是对于一些小物体。
3.目标检测算法比较
        目前基于深度学习的目标检测算法受到了广泛关注和深入研究,主要分为两大类算法:基于候选区域的 two-stage 算法和基于回归的 one-stage 算法。通过国内外学者的广泛研究两类算法衍生出了不同神经网络机制和特性,不同算法之间的优缺点和适用场景均不同。
        Two-stage目标检测算法事先获取候选区域,能够充分学习到目标的特征,其检测精度和定位精度高,但是网络结构复杂、计算量大、速度慢,不适用于实时性要求较高的应用场景。One-stage目标检测算法结构简单,可直接对输入图像进行处理,检测精度较高并且检测速度快, 可以实现实时性检测,能满足一些在线检测应用场景,但是 one-stage算法对小目标、多目标物体检测精度较低,特别是在复杂场景下,检测精度并不能满足要求,如自动驾驶领域的目标检测。
4.基于深度学习的目标检测应用场景
        (1)行人检测
        行人检测可以视为目标检测的特例之一。行人检测就是在给定的图片或视频中,判断其中是否包括行人并进行定位。行人检测是行人跟踪,行人再识别、步态分析、行为分析等任务的基础,一个好的行人检测系统能够为后续任务提供良好的条件。
        (2)医学图像检测
        医学图像检测是针对特定的类别进行检测,特点是检测目标物体细粒度的差别,其难点在于:1)目标物体的形状、尺寸、位置变化大;2)不同时期、环境下目标物体形态各异;3)病变组织和非病变组织外形差别较小。医学图像检测的主要过程为:首先对目标物体所在区域进行分割,然后提取候选区域并完成特征提取,最后进行分类。
        (3)人脸检测
        人脸检测是完成人脸识别任务中第一个重要环节。针对人脸中多变的尺度、姿态、光照等问题导致检测率较低的问题,提出一种双分支人脸检测器。针对目前的算法受制于人脸活动部件微弱的激活强度以及不同个体之间差异性的问题,提出一种针对人脸活动部件的局部关系学习算法,通过充分利用不同人脸局部区域之间的关系,进一步提高人脸不同区域的局部特征的感知能力,并针对人脸形状信息的正则项来剔除在人脸活动部件检测过程中人脸的形状信息的影响,进而获得更加有判别力和泛化能力的人脸活动部件检测器。
5.目标检测存在的问题与发展方向
        目前主要存在以下几方面的问题:(1)对于小目标物体的检测、遮挡面积较大的目标以及区分图像中与目标物体外形相似的非目标物体等问题需要在今后的研究中继续加强;(2)实时性检测与处理。对于自动驾驶或汽车辅助驾驶等对实时处理能力要求较高的应用场景,进一步提高速度和准确度是至关重要的;(3)提高小数据量训练的检测效果。目前迁移学习的实现策略是先在大数据中进行训练,然后再将模型进行微调。虽然此方法能够实现,但检测精度和速度还有待进一步提高;(4)目前基于深度学习的目标检测所涉及的行业领域越来越多,很难获取大量的监督数据或数据的标准成本过高,进而导致缺少用于网络训练的样本数据。
参考文献
[1] LIU Li,OUYANG W,WANG Xiao-gang,et al.Deep Learning for Generic Object Detection: A Survey[OL].http: / / dblp.org / abs / 1809.02165,2018.
[2]张慧,王坤峰,王飞跃. 深度学习在目标视觉检测中的应用进展与展望[J]. 自动化学报,2017,43(08):1289-1305.
[3]张春凤,宋加涛,王万良. 行人检测技术研究综述[J].电视技术, 2014,38(03):157-162.
基金项目:2019 年度黑龙江东方学院校级科研项目(自然科学)的研究课题“基于深度学习的行人检测与识别的算法研究(HDFKY190111)”。
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: