基于深度学习的行人检测与识别的算法研究

发表时间:2021/7/15   来源:《教育学文摘》2021年3月第8期   作者:刘芳 吴和静 吴琼 赵龙 邵雅斌 沈永良
[导读] 本文主要研究基于深度学习的行人检测和行为识别。
        刘芳 吴和静 吴琼 赵龙 邵雅斌 沈永良
       黑龙江东方学院,黑龙江哈尔滨,150086
       摘要:本文主要研究基于深度学习的行人检测和行为识别。行人检测的目标是行人,是在给定的输入图像中识别行人目标并确定行人在图像中的位置。为了对行人的运动信息进行更好地理解,本文还对行为识别进行了相关研究,目的是能够自动分析和理解人的动作。
       关键词:行人检测;行为识别;深度学习
       行人检测是计算机视觉领域中一个具有挑战性的问题,也是许多视觉应用的先决任务,例如自动驾驶、视觉监控和机器人技术等。本文提出了一种基于特征感受野增强的网络模型结构。当前基于深度学习的行人检测模型大多采用分而治之的策略来解决行人检测中的尺度变化问题。此外,在行人检测任务的基础上,为了对行人的运动信息进行更好地理解,本文还对人体行为识别问题进行了相关研究,设计并实现了基于双流结构的行为识别模型。
一、行人检测与行人识别研究现状
1.行人检测
       行人检测任务具有很长的研究历史。至今为止,它的技术演化过程可以分为两个主要阶段:传统的行人检测方法和基于深度学习的行人检测方法。传统行人检测方法的一般模式是基于人工设计的适当特征描述符从图像中提取一系列特征向量,并使用机器学习中的分类器算法训练行人检测器,并将检测器以滑动窗口的方式应用于图像的所有可能位置。随着深度学习在计算机视觉领域的成功应用,目标检测研究也取得了突破性的进展,研究者们提出了许多性能强大的目标检测方法。如R-CNN模型、SPP-Net模型、FastR-CNN模型等。
2.行人识别
       人体行为识别任务可以被视为一个多分类问题,为每一个动作类型分配一个特定的目标类别。行为识别系统主要包括两个主要步骤:首先,将输入图像或视频转换为一系列特征向量,然后,采用分类算法对动作进行分类。目前己经提出了许多人工设计的特征,用于描述视频中的外观信息和运动信息,而且有些特征描述符在某些实际应用中仍被使用。如HarriS3D局部特征检测器、时空兴趣点检测器等。由于深度卷积网络在图像识别领域带来了显著的进步,最近的许多研究工作都致力于将其扩展到视频中的行为识别。
二、行人检测与行人识别方法
1.行人检测
        至今为止,基于深度学习的通用目标检测方法的发展过程如图1所示,这些方法可以大致分为两类:两阶段方法和单阶段方法。
       
        图1 通用目标检测方法发展过程
        以R-CNN系列模型为代表的两阶段检测模型将目标检测任务描述为两阶段问题,并建立了一套典型的处理流程,其中第一阶段主要通过利用选择性搜索算法或感兴趣区域生成网络在待检测图像上生成一些可能包含物体的感兴趣区域,然后在模型的第二阶段,利用检测子网络对这些感兴趣区域进行进一步的目标分类和边界框回归。
        为了加快检测模型的速度,研究者们提出了单阶段检测模型框架。丢弃了感兴趣区域生成阶段,直接根据预定义的先验框位置回归目标的边界框,大大降低了模型的计算量。但是与两阶段检测模型相比,单阶段检测模型牺牲了准确率。2.行人识别
        目前人体行为识别方法主要可以分为两大类。第一类方法涉及提取人工设计的特征,这种方法在早期的人体行为识别研究中占据了主导地位。这些方法首先从时空兴趣点采样或密集采样等兴趣点检测器出发,在每个兴趣点位置利用特征描述符提取特征。第二类方法是基于深度学习的方法。将RGB视频或堆叠的光流图像作为2D或3D卷积网络的输入,以提取有关动作的时空特征表示并执行分类。
三、基于单阶段检测模型的行人检测
        基于先验框的行人检测方法的核心是设计一组能够覆盖数据集中大多数行人实例的先验框,然后以这些先验框的位置为起始位置,预测行人边界框的偏移量。
        YOLO由Joseph等人在2015年提出。它是深度学习时代的第一个单阶段目标检测器。YOLO因为只对输入图像进行一次特征提取,所以计算速度非常快。它将单个神经网络应用于整个输入图像,该网络将图像划分为多个区域小格子,并同时预测每个小格子的边界框和概率。后来在此基础上进行了一系列改进,提高了检测精度。尽管检测速度有了很大的提高,但与两级检测器相比,其定位精度还有一些差距,特别是对于一些小物体。
        当前大多数行人检测方法存在的另一个问题是对小尺寸行人的检测能力有限。这是由于骨干网络中的低层特征没有包含足够的高级语义信息,因此对于区分行人和背景的分类任务来说,低层特征没有足够的判别性和区分性。为了满足行人检测模型在实际使用中的需求,即同时具有较高的速度和准确性,本文的行人检测模型的设计目标是构建轻巧而有效的网络模型结构。因此本文的方法以单阶段通用目标检测框架为基础,并在此基础上融合本文提出的感受野增强模块和多层次聚合模块,以提高行人检测的性能。网络结构如图2所示,它包含四个主要组成部分:用于初步提取图像特征的骨干网络,用于增强特征层感受野的感受野增强模块(RFEM),用于聚合多尺度特征层的多层次聚合模块(HAM)和用于完成行人实例分类和定位任务的检测器。

        图2 行人检测模型结构图
    在给定输入图像的情况下,将待检测图像输入到行人检测模型后,骨干网络用于提取多个不同尺度大小的特征图,完成对图像特征的初步提取。获得特征之后,根据训练集上的行人尺度大小分布,将一系列具有不同尺度和纵横比的先验框均匀放置在检测层的顶部。之后,将包含两个分支的卷积检测器用于预测先验
框的分类置信度得分并回归行人边界框。将网络输出的偏移量转换为边界框的坐标后,可能会有很多边界框对应于同一目标,并且边界框之间的重叠度很高。最后,将非极大值抑制算法应用于来自所有检测层的输出边界框,并获得最终检测结果,完成行人检测。
四、基于解耦检测器的双流行为识别网络
        通过行人检测,可以获得行人目标及其相应的位置。接下来将在行人检测任务的基础上,对行人的运动信息进行进一步地理解,将重点关注视频流中行人的运动情况,利用深度学习算法识别行人的行为类型并确定行为发生的位置。
        为了提取行人运动特征信息,大多数方法中提出的人体行为识别算法采用双流网络结构。然而,这些方法对于时空行为检测任务来说,存在两个缺点。首先,基于两阶段目标检测框架的方法速度较慢,不能满足实时性的需求。多帧感兴趣区域的生成比二维静态图像情况下,更加复杂且耗时。而模型的分类性能在很大程度上取决于生成的感兴趣区域的质量,因此对于后续的分类任务来说模型生成的感兴趣区域可能是次优的。其次,光流图像只能表示相邻帧的运动信息,不能对时间上下文信息进行更好的建模,而这些时间上下文信息能够为动作识别提供非常关键的运动特征信息。
        本文提出的行为识别模型主要受人类视觉认知机制的启发,当我们试图去理解一段视频中行为人的具体行为时,我们的眼睛每次只能看到当前帧的视频图像。为了更好地理解行为人的动作,我们需要将脑海中存储的先前多帧的图像与当前帧的内容联系起来,即将视频片段的3D特征与当前帧的2D特征关联起来,然后,我们的大脑将这两种特征信息融合在一起,从而做出正确的行为类型判断。  本文模型借鉴了双流卷积网络的思想,是一个具有两个分支的网络结构,两个分支分别对应双流网络中的空间流网络和时间流网络。为了更好地聚合这些提取的特征并提升模型的特征表示能力,在模型中引入了通道融合和注意力机制,其中注意力机制可以利用不同来源特征通道间的相互依赖关系,增强特征表示能力。最后基于通道融合和注意力机制输出的融合特征得到视频帧的检测结果,并利用连接算法按照一定的规则将视频帧的输出边界框连接起来,得到行为管道,完成行为识别。
        本文提出的行为识别模型结构如图3所示,大致分为四个主要组成部分:用于提取时间上下文运动特征的时间流分支,用于提取视频帧空间表观信息的空间流分支,用于融合空间流分支和时间流分支提取特征的通道融合和注意力机制模块和用于输出检测边界框和行为类别的解耦检测器模块。

        图3 行人检测模型结构图
参考文献
[1]张慧,王坤峰,王飞跃. 深度学习在目标视觉检测中的应用进展与展望[J]. 自动化学报,2017,43(08):1289-1305.
[2]孙志军,薛晶,许阳明等.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810.
[3]白中浩,李智强,蒋彬辉等.基于改进YOLOv2模型的驾驶辅助系统实时行人检测[J].汽车工程,2019,41(12):1416-1423.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: