YOLOv3-Tiny目标检测技术研究

发表时间:2021/4/28   来源:《科学与技术》2021年1月第3期   作者:李俊毅 吕欣
[导读] 目标检测是目前计算机视觉领域倍受关注的研究热点之一
        李俊毅  吕欣
        (中国电子科技集团公司第二十研究所,西安 710068)
        摘要:目标检测是目前计算机视觉领域倍受关注的研究热点之一,基于YOLOv3-Tiny进行目标检测和是一类较快速且检测准确率较高的方法,业界针对该方法进行了深入而广泛的研究。本文结合YOLOv3-Tiny的网络结构、算法思路,探讨了多种改进方法的优缺点和侧重点,为相关课题的研究提供参考。
        关键词:计算机视觉;目标检测;YOLO
0 引言
        随着人工智能技术的发展,利用卷积神经网络进行目标检测的方法已经取得了突破性的成绩,如R-CNN、SSD和YOLO等,这类方法使用具有标签的数据集训练卷积神经网络,能够有效地学习特定类型目标的结构、色彩等图像特征,从而获得分类检测的能力。其中,YOLOv3-Tiny作为YOLO[1]系列的精简版,相比YOLOv3在大幅度降低计算复杂度的前提下,保证了一定的目标检测准确率。目前已有大量研究对该算法进行改造和优化,并应用于特定种类目标的检测中。本文结合YOLOv3-Tiny的基本原理,探讨并分析各类方法的改进思路,为相关研究提供参考。
1 YOLOv3-Tiny简介
        YOLOv3-Tiny的网络结构如图1所示。

图1 YOLOv3-Tiny网络结构
        YOLOv3-Tiny网络由13个卷积层、6个最大值池化层、1个上采样层以及1个路由层构成。检测流程为:首先将图像输入调整为固定大小416×416×3,以便网络读入,再通过拥有多尺度检测能力的网络模型在13×13×255和26×26×255两种分辨率下回归出可能的结果,最后对所有可能的检测结果利用非极大值抑制算法进行筛选,得到概率较高的结果。
2 相关改进方法综述
        2.1 最大值池化改进
        YOLOv3-Tiny原网络主要使用了最大值池化层进行特征图的分辨率压缩,该方法的原理是降低卷积层参数误差造成的估计均值偏移,提取出特征图中较为显著的纹理信息,抛弃较不明显的特征。由于最大值池化会丢失部分特征,考虑使用全卷积网络进行特征图压缩,利用步幅为2的3×3卷积层替代最大值池化层,该方法增加了一定的计算复杂度,不能有效减少卷积层参数误差造成的估计均值偏移,但能够一定程度减少特征图压缩造成的特征损失,需要充分的试验来权衡利弊。
        2.2 多尺度融合改进
        YOLOv3-Tiny借鉴ResNet[2]的多尺度融合思想,有效提高了小目标的检测准确率。该方法的原理是深层网络的感受野较大,语义信息表征能力强,但特征图分辨率低,空间几何信息表征能力弱,而浅层网络正好相反,将深层和浅层网络的输出结合起来,能够有效提高目标检测效果。对于目标大小差异较大的场景,考虑取更浅层的特征图参与检测,如使用52×52分辨率的浅层特征图和26×26分辨率特征图进行融合得到新的输出分支,该方法能够有效提高目标检测准确率,但同时也增加了一定的计算复杂度。
        2.3 grid cell改进
        YOLOv3-Tiny将输入图像分别划分为13×13个和26×26个grid cell,利用每个grid cell计算目标中心落入其中的概率。该方法将图像横纵向检测权重平均分配,能够胜任绝大多数场景,但对于密集人群场景下的行人检测来说,图像中横向行人往往密集且容易重叠,单个行人的特征较少,纵向行人相对稀疏且单个行人特征较多。针对此问题,有学者提出调整grid cell在横纵方向的数量,例如将13×13调整为21×9,增加了横向的grid cell个数,实验结果表明该方法应用在有横纵特点的场景能够有效提高目标检测的准确率。
        2.4 网络深度改进
        YOLOv3-Tiny为了降低计算复杂度,提高检测速度,主干网络只使用了7个卷积层,对目标特征提取的效果有限。在硬件条件允许的情况下,适当增加网络深度也是一种提高检测准确率的方法。借鉴VGGNet网络[3]思想,使用3×3卷积核加深网络的同时,利用1×1卷积核减少网络参数,增加网络的非线性,能够在一定程度上提高网络的学习能力,但这种方法势必会增加计算复杂度,降低目标检测速度,所以需要根据实际硬件条件进行适当调整。
        2.5 数据集改进
        YOLOv3-Tiny使用COCO数据集进行训练,该数据集拥有80类目标,超过80000张图片。对于特定类型的目标检测任务,需要删除图片中其它类型目标的标签,并尽可能通过裁剪、平移、改变亮度、增加噪声、调整旋转角度、镜像等数据增强方法[4]扩充数据集容量,以防止出现训练次数增多网络过度拟合的情况,提高网络的检测精度。这些改善数据集的方法普遍适用于所有监督学习算法。
3 总结
        YOLO算法经过多个版本更替和改进,已经成为了目标检测算法中最受关注和广泛研究的算法之一,尤其是YOLOv3-Tiny的提出,在保证较高检测准确率的同时极大提升了检测速度,使得在硬件受限的条件下也可以轻松使用其进行目标检测。本文探讨了基于YOLOv3-Tiny的几种常见的改进方法,给出了优缺点分析,期望对相关课题的研究提供参考。
参考文献
[1] J. Redmon, A. Farhadi. YOLOv3: An Incremental Improvement [J]. Tech report.
[2] Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, Inception-ResNet and The Impact of Residual Connections on Learning [C]. Thirty-First AAAI Conference on Artificial Intelligence, 2017: 4278-4284.
[3] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-scale Image Recognition [J].Computer Vison ECCV, 2016: 499-515.
[4] LAMBURT L, KOYFMAN L. Data Enhancement Techniques: U.S. Patent, 6397228 [P]. 2002-5-28.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: