刘芳 屠海波
黑龙江东方学院,黑龙江哈尔滨,150086
摘要:行人检测一直是计算机视觉领域的研究热点,本文指出了行人检测的问题和遇到的难点,并对传统的行人检测方法进行了研究,最后讨论了基于深度学习方法的行人检测算法。
关键词:行人检测;深度学习;物体检测
Pedestrian Detection Algorithm Based on Deep Learning
Liu Fang, Tu Haibo
(East University of Heilongjiang, Harbin Heilongjiang,150086)
Abstract: Pedestrian detection has always been a research hotspot in the field of computer vision. This paper points out the problems and difficulties of pedestrian detection, studies the traditional pedestrian detection methods, and finally discusses the pedestrian detection algorithm based on deep learning method.
Keywords: Pedestrian detection; Deep learning; Object detection
1、引言
行人检测作为汽车辅助驾驶、智能监控和高级人机接口的先决条件,一直是计算机视觉领域的研究热点。由于行人姿态与所处背景的多样性,行人检测也一直是计算机视觉中的难点问题。
行人检测目标是要为出现在图像内的行人用一个轴对齐矩形框标记出来。然而由于行人刚性和柔性的特性,极大地受到个体之间差异的影响,且摄像头距离行人较远,使得行人为中小物体。行人检测多应用于自动驾驶或监控系统中,具有实时性要求。当前行人检测方法在小行人场景和密集行人场景下的检测精度和速度都无法满足实际需要。因此,使用基于深度学习的方法来解决行人检测问题具有相当的可行性。
2、行人检测的问题与难点
目前行人检测技术在深度学习的帮助下已经有了很大的性能提升,但是在自动驾驶和视
频监控等非理想检测场景下依然存在许多问题和难点。
(1)小尺度行人
当图像或视频采集设备距离行人较远时,导致图像中存在小尺度行人。小尺度行人自身包含的像素点少,由于光照,设备等因素的影响,有些小行人更是变得十分模糊,这些问题都严重影响了行人检测器的性能。
(2)遮挡行人
由于视角原因,遮挡情况出现的频率很高,例如汽车,电线杆等物体遮挡,而且行人之间也会相互重叠,前者由于遮挡物体导致行人的外观发生变化,影响特征,最终造成漏检,后者是因为行人之间距离太近,导致难以定位每一个行人,导致漏检,所以遮挡问题一直是行人检测中的难点之一。由以上分析可知,由于检测环境复杂、行人尺度过小及遮挡等问题使得行人成为最难检测的物体之一。
3、基于传统方法的行人检测
传统的行人检测算法主要是基于人工设计提取的特征和分类方面提升检测准确率,通过人为设计更能描述行人的图像特征来获得更好的行人检测效果。
其中HOG+SVM、Harr+Adaboost、基于多特征融合的粒子滤波多目标跟踪等方法最具代表性。该类方法把特征提取和分类训练分离为两个独立过程,往往受限于特定环境条件、设定低阶特征,不同的特征与分类器适用程度各异,导致特征表达能力不足、可分性较差。传统行人检测方法主要利用行人外观等信息作为依据,容易导致误判;由于采用人为设计的特征,因此对扭曲、拉伸等行人不能很好地检测;复杂场景下,行人存在遮挡、尺寸不一等现象,会导致大量的漏检。因此传统方法并不能有效地进行行人检测,我们需要新的思路和方法。
4、基于深度学习的行人检测算法研究
进入深度学习时代以来,在大数据、云计算和GPU算力的支持下,物体检测问题通常都被建模成对一些候选区域进行分类和回归的问题。在单阶段检测器中,这些候选区域就是通过滑窗方式产生的anchor;在两阶段检测器中,候选区域是RPN生成的proposal,但是RPN本身仍然是对滑窗方式产生的anchor进行分类和回归。物体检测发展主要集中在两个方向:基于锚点框算法(anchor-based),锚点框的算法尽管相对复杂,但准确度更高,经典的算法有两阶段R-CNN系列和一阶段算法。两者区别在于两阶段算法需要先生成预选框proposal,包含物体可能的位置,可根据图像热点图分割确定,然后再根据预选框位置检测识别物体。而一阶段算法利用网格化或者角点中心点的图像特征直接在卷积神经网络的结构中检测物体,确定物体尺寸和具体坐标;另一个方向是基于无锚点算法(anchor-free),如Corner Net、Extreme Net、Center Net、FCOS等,不需要锚点框预测,而是根据某些特定点预测,方法简单明了,更易理解、有效,是该领域未来的研究方向。
(1)基于锚点框算法(anchor-based)
Region CNN(R-CNN)系列是由科学家Ross Girshick 和何凯明共同研发提出,该系列被众多学者视为计算机视觉领域的奠基石,为后面的研究进步提供了思路。整个系列有三个阶段。R-CNN显著提高了检测率,但存在一些问题:预测比较慢;每一个region Proposal都需要独立通过CNN做特征提取;SVMS和定位regressors 与之前的特征提取相互独立;CNN无法利用两者的反馈;训练较为复杂。
YOLO(You only look once)系列算法提出后,目标检测划分成两种方向:两阶段(two-stage)和单阶段(single-stage)。有别于经典两阶段代表作Faster R-CNN,剔除RPN分支网络,使用完全不同的方法。将单个神经网络应用于完整图像。网络复杂度下降许多,其中的主要步骤ROI特征提取、物体坐标回归和分类同步执行,检测率有很大的提高。
(2)基于无锚点算法(anchor-free)
one-stage是给图像中使用了一个叫anchor的机制,去排布很多框在图像中,直接进行框的打分;而two-stage的方法会对特征图进行重新计算,再进一步进行分类和回归。因为大多数训练都不适用这种端到端的检测,这种后处理一般比较难以微分和训练。但是这种基于滑动窗的检测方法是比较浪费时间的。因此开始出现achor-free机制,anchor-free类算法发展至今,大致分为两类,基于多关键点联合表达和基于单中心点预测的方法。
5、结束语
本文分析了传统行人检测的算法与不足,随着计算机硬件和软件的不断优化升级,基于
深度学习的行人检测算法已经成为主流研究方向,并且随着训练数据的不断扩充,以及轻量级网络模型的研究应用,该类算法具有更广泛的应用价值。
参考文献
[1]徐梦洋. 基于深度学习的行人再识别研究综述[J]. 中国计算机用户协会网络应用分会 2018 年第二十二届网络新技术与应用年会论文集, 2018.
[2]李幼蛟, 卓力, 张菁等. 行人再识别技术综述[J].自动化学报, 44(09):20-34.