基于自适应关键帧选取的人脸表情识别

发表时间:2021/3/11   来源:《科学与技术》2020年30期   作者: 卢慧婷
[导读] 科技在迅猛发展,社会在不断进步,人脸表情识别在人机交互
        卢慧婷
        南宁学院, 广西南宁,530000
        摘要:科技在迅猛发展,社会在不断进步,人脸表情识别在人机交互、智能教育和影音娱乐等方面有着广泛的应用,是计算机视觉领域的研究重点。人脸表情序列中存在大量的冗余信息,找到人脸表情序列中的峰值表情能够有效提升人脸表情识别的准确度。为了准确定位峰值表情在人脸表情序列中的位置,提出通过计算表情变化过程中人脸关键点信息的变化来选取处于峰值表情的人脸图像,即关键帧选取方法,同时设计一个Baseline网络结构进行特征提取,用于验证自适应关键帧选取方法的有效性。在MMI和CK+数据集上的实验结果证明了所提方法的有效性。
        关键词:人脸表情识别;人脸关键点;关键帧选取;特征提取
        引言
        表情是人类以及其他动物身体外观投射出的指标,是指两部肌肉和外观的一种肌肉状态,如笑容和愤怒等。也包括身体表达出的肢体语言,人脸表情可以直观地反映人的内心世界,在日常交流和刑事审讯中起着重要的作用。随着近些年人工智能的发展,人们对机器智能化的需求也越来越多,人类希望机器能够准确地识别人的面部表情,完成人与机器的交流,而不是局限于人与人的交流。随着网络及硬件的发展,海量的视频图片数据可以更好地存储、处理,为表情识别的发展提供了便利。人脸面部表情识别技术可应用于多个领域,如人机交互、安全驾驶、教育、医疗、通信等,有广阔的应用前景。现如今,人脸表情识别大多分为两个方向,一是先使用尺度不变特征变换(SIFT)、主成分分析法PCA、Gabor小波变换、LBP(局部二值模式)等传统算法提取脸部特征,再通过支持向量基、K最近邻分类算法等对人脸表情进行分类识别。但这些方法提取人脸特征易受人为因素干扰,会造成人脸表情信息的丢失,导致分类不准确;二是深度学习的方法,通过卷积神经网络(CNN)提取图像特征,送入softmax对人脸表情进行分类识别。研究发现,单纯的使用CNN提取图像特征会损失部分信息,而LBP特征能够描述图像的纹理特征。由于两种方法都有优点与缺点,于是有了结合传统方法与深度学习方法的人脸表情识别。等结合Hog特征以及主成分分析法与结合改进的VGG网络进行人脸表情识别;提出用SIFT和CNN分别提取图像特征,将两种特征进行融合后用支持向量机进行分类;提取人脸的眼睛、眉毛、嘴巴作为表情识别关键点,用CNN分别对三个部位进行特征提取,再通过粒子群算法融合最优权值后送入支持向量机进行分类。受上述启发,结合局部二值模式设计了双通道卷积神经网络进行人脸表情识别。
        1深度残差网络
        卷积神经网络的深度决定了其是否可以提取到更深层次的特征,然而随着网络深度的不断加深会导致网络退化问题。深度残差网络与传统卷积神经网络相比,在网络中引入残差模块,该模块的引入有效地缓解了网络模型训练时反向传播的梯度消失问题,进而解决了深层网络难以训练和性能退化的问题。
        2基于自适应关键帧选取的人脸表情识别
        2.1数据集
        本文实验使用的是MMI和CK+数据集。用于实验的MMI数据集包含208个序列,每个序列的标签都是六种基本面部表情(生气、恶心、恐惧、高兴、悲伤和惊讶)之一,表情序列的变化趋势是从中性表情过渡到峰值表情再过渡到中性表情,表情变化趋势复杂,因此关键帧和中间帧的表情幅度会有较大的变化,能更好地验证关键帧的有效性。CK+数据集一共包含593个表情视频序列,每个序列的标签都是七种表情(愤怒、轻蔑、厌恶、恐惧、快乐、悲伤和惊讶)之一。CK+数据集中表情序列的表情变化趋势是从中性表情过渡到峰值表情,表情变化趋势较为简单,主要用于更进一步地验证关键帧的有效性。在实验过程当中,两个数据集采用的都是十折交叉验证。
        2.2尺寸归一化
        为了消除特征之间的影响, 使模型训练时使得损失函数向梯度方向变化,加速收敛,需要对特征进行归一化处理。 对特征做归一化处理一般用线性函数归一化和零均值归一化两种方法。

线性函数归一化是直接将数值较大的特征表示通过线性变换映射到[ 0 , 1 ],零均值归一化是将数据映射到方差为 1 的 0 均值区间。 本文对特征图的归一化选用线性函数归一化,将原始图像和 LBP 特征图像调整为相同的尺寸, 然后将特征值映射到[ 0 , 1 ]范围。
        2.3数据预处理及数据增强
        在 MMI 和 CK + 数据集中,人脸在整个图像中所占的比例较小,背景信息不仅对表情识别没有促进作用,反而会影响表情识别的精度,所以获取原始图像中的人脸区域至关重要。利用 Dlib C ++ 库检测人脸,然后将检测到的区域裁剪下来并把尺寸缩放到 224 × 224。MMI 和 CK + 都是比较小的数据集,只用原始数据进行训练容易出现过拟合现象,通过数据增强的方法能够很好地解决这个问题。本文采用的数据增强方法包括图像旋转、高斯噪声添加、对比度调整、亮度变化以及图像翻转。增强之后的数据只能用于训练,测试阶段使用的是原始数据。
        2.4真实世界人脸表情数据库
        考虑到人脸表情识别是一个依靠数据驱动的任务,训练一个足够深的网络来捕捉与表情相关的细微形变需要大量的相关数据。因此,在数量和质量上均较为匮乏的数据库是当今深度人脸表情识别系统面临的主要挑战。由于不同年龄段、不同种族和不同性别的人表达和解析面部表情的方式也不同,一个理想的表情数据集应该包含除了表情标签之外,各种丰富且精确的其他面部属性标签,例如年龄、性别和种族。除此之外,虽然面部遮挡和多姿态问题在深度人脸识别领域得到了广泛的研究,但其在深度人脸表情识别中受到的关注仍较少。主要原因是缺乏具有遮挡类型和头部姿态标注的大型面部表情数据集。另外,对大量携带复杂自然场景变化的数据进行精确标注的难度很大。
        2.5数据集偏差和不平衡分布
        由于收集条件的不同和标注的主观性,数据偏差和不一致的标注问题在不同人脸表情数据库中也十分常见。研究者通常在一个确切的数据集内来评估算法,从而能够获得令人满意的性能。然而,最新的跨库实验表明,由于不同数据库之间存在明显差异,通过在数据库内进行评估的算法往往缺乏对未知测试数据的普适性,其性能将会在跨库实验中明显恶化。深度领域自适应和知识蒸馏则是解决这一偏差问题的有效方法。通常的做法是学习一个转换空间,使不同数据库在转换后的特征空间上分布的区分度尽可能相似。另一个常见的问题则是类别不平衡问题,该问题主要与数据采集过程中的实际情况有关:诱发并标注一个笑脸是十分容易的,但是捕捉厌恶、生气等其他更加不常见的表情则十分具有挑战性。针对这个问题,一种解决方案是在预处理阶段使用数据扩充或者合成手段来平衡类别分布。另一种选择是在网络训练阶段设计一个代价敏感损失层,针对稀少类样本给予更大的权重来平衡常见类和稀少类所占比重。在一定的表情模型下,小样本和不平衡分类问题在表情识别任务中将长期存在,如何引入机器学习的新技术将是非常值得研究的课题。
        结语
        本文提出了一种基于自适应关键帧选取的人脸表情识别方法。首先是检测人脸表情序列中所有图像的人脸关键点,通过对已检测到的人脸关键点信息进行计算,定位关键帧在原始表情序列中的位置(索引)。其次为了验证选取到的关键帧确实包含更多的表情信息,设计并使用一个Baseline网络结构,分别对MMI数据集的关键帧与中间帧进行了对比实验。实验结果表明,在MMI数据集上,关键帧得到的分类准确度相比于中间帧提升明显,并且在CK+数据集,关键帧得到的实验结果与最后一帧相当,证明本文人脸表情识别方法的有效性。
        参考文献
        [1]胡少聪.基于深度学习的人脸识别方法研究[J].电子科技,2019(6):82-86.
        [2]吕海清,朱欣娟,赵雪青,等.基于三维人脸特征的服装个性化推荐及虚拟展示[J].纺织高校基础科学学报,2018(3):317-325.
        [3]安海平,马行,穆春阳,等.人脸识别在远程智能监控系统中的研究与实现[J].现代电子技术,2019(12):176-179.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: