基于视觉的手势识别基础研究

发表时间:2020/10/21   来源:《城镇建设》2020年第21期   作者:左圆圆 罗雪宁
[导读] 随着信息化的高速发展,人们进入了人工智能的时代,智能设备的不断涌现,使人机交互的方式发生了深层次的改变。
        左圆圆 罗雪宁
        商丘工学院,机械工程学院,河南 商丘 476000
        摘要:随着信息化的高速发展,人们进入了人工智能的时代,智能设备的不断涌现,使人机交互的方式发生了深层次的改变。在此背景下,本文研究了一种基于视觉的手势识别技术,改变了传统情况下,相对单一的遥控器控制无人机飞行的方式。以实现操控无人机的目的,改善用户体验方式,推动人工智能时代的发展。
关键词:人工智能;人机交互;手势识别;无人机
1 研究意义
        在当前科技研发飞速推进的背景下,人工智能领域也取得了长足的进步。各种智能终端设备的出现,使人机交互方式发生重大的变化。逐步以人为中心的人机交互方式,大大减少了用户在语言文化、地区差异等因素影响下使用先进科学技术产生的障碍,而手势识别,作为大家常用的传递信息的手段,应用在计算机上可以给人一种直观的感觉,使人们更容易、更轻松地与计算机进行交流[1-2]。
        作为新一轮科技革命和世界工业革命的热点,无人机将得到越来越广泛的应用,目前,在航拍,农业灌溉,高速运输,灾情检测,电力检测,影视拍摄等应用领域大大扩展了无人机本身的使用范围,其未来的应用前景将更加广阔。
2 国内外研究现状
        作为人机交互的重要构成,手势识别在人工智能实现的过程中扮演着重要的角色,对手势识别研发的深度和广度决定这人机交互的灵活性以及自然性。现阶段的研究中,相关学者的关注点在于如何识别不同的手势,在这一过程中,手势的背景通常需要采取简化处理,进而利用算法来实现对手势的分割,最终采用既定的手势识别方法分析出相应手势具有的意义。
        目前国内对手势识别的研究主要集中在大学和研究机构。四川大学吕华富采用了卷积神经网络的方法实现对手势的识别,他们以Thomas Moeslund手势识别数据集为基础,以24种静态手势为研究对象进行识别工作,准确率高达98%以上。中科院钟习、陈益强、于汉超等构建基于超限学习机算法的手势识别模型, 并利用softmax函数运算出手势的可信度。江南大学王兵和浙江大学董洪伟等人通过Kinect实现对人体手部动作的采集,并以像素分类的方法实现手指个数的分析,进而识别出该手势表达的含义。
        国外方面,韩国的李金石,李振恩等采用熵分析法分割人体手势,从复杂的背景提取特征,然后计算从手心到边缘的距离,但这种系统的识别率比较低。Yubaiz使用数据手套来收集手部信息,实现了对阿拉伯手语的高度识别。Yu cheng long等人使用基于视觉的特征信息来进行手势识别,结合手势的基本信息例如手掌大小、手势长度等,以此来提高识别率。
        在无人机研究中,Mantecn等利用Kinect达到了人机交互的目的,以地面的Kinect传感器实现对无人机动作的识别。Pfeil等没有识别人的整个身体,而是通过识别手掌的动作,完成对无人机的控制。Naseer等把摄像头挂载在无人机上,但是,由于RGB-D传感器的距离有限,这种方法只能近距离使用。
3 计算机视觉的手势识别概述
3.1 Opencv简介
        OpenCV是一个非常实用并且功能强大的开源计算机视觉库。拥有成套的图像处理算法,不仅简单而且高效,受广大开发者喜爱。它主要运用于图像检测、跟踪、分割、识别和3D重建等高级处理。在工业产品的质量检验,医学图像处理,安全性,交互操作,相机校准,双目视觉和机器人等各个领域中,都能找到对应的OpenCv 库所包含从计算机视觉各个领域衍生出来函数。由于开放源代码简洁而有效,其中大多数函数都经过汇编进行了优化,因此,在使用的过程中,表现出更为强大的运算以及对图像的处理能力,加之其在 Windows和 Linux系统中都可稳定运行,因此本文的研究中,采用的运行环境为Windows + VS2012 + OpenCv2.48+Android Studio。
3.2 手势识别分类
        手势识别是一种计算机科学和语言文化相结合的人机交互的方式。通常情况下手势识别包括静态手势动作和动态手势动作。

静态手势是二位平面下的图形,而动态手势则是对应三维空间坐标下的一条运动轨迹,有时候还需要使用随着时间变换的四维特征空间来表示。
        从目前来看,手势识别系统主要有两种,一种是基于数据手套的识别,利用传感器感知手部活动信息,通过串口传递控制指令。还有一种就是基于计算机视觉的手势识别,一般利用摄像头拍摄进行手势的识别。作为当前热门的手势识别系统,它们有各自的优缺点。
        基于数据手套的手势识别系统,是通过检测手套的传感器数据和坐标位置信息的改变来识别相应的手势。它能够直接获得手在空间中三维信息和手指运动的信息,具备多种识别模式,效率非常高。缺点就是设备复杂,不易灵活运动。
        而基于计算机视觉的手势识别目前在神经网络中更常用。因为神经网络可以使用静态和动态输入,所以它们非常适合以快速,交互的方式进行训练。还可以根据用户的个人情况调整网络的连接权重,使得手势识别更加具有针对性和人性化。
        在以计算机视觉为基础的手势识别过程中,相机是其对手势进行采集的重要输入设备,这种方法的优点是输入设备相对便宜,但相对数据手套的识别率来说准确率较低,实时性能差,因此研究出一种效率高的、识别准确的自然手势是当务之急。
3.3 基于计算机视觉的手势识别理论
3.3.1 人工神经网络
    人工神经网络的定义为:以抽象出来的人脑神经网络对信息的处理过程为基础而搭建的数学模型,为数众多的神经元是其组成单位,这些组成单位之间互相连接成为一个综合的网络。各个神经元之间通过带有权重的有向弧连接,然后对整个网络进行大量的样本训练和学习,从而改变神经元的连接权重,映射出输入与输出之间的关系。 神经网络在学习和训练方面效果显著,其关键问题是权值的确定。
        人工神经网络的理论模型它将人工神经元所要获取的数据,...,,通过用,,...,表示它们之间的联系,其中神经元处理的输入与输出间的关系为:
        
        BP神经网络的功能主要是将处理对象的输入输出关系直接以任意的非线性映射关系表示,因此能够处理复杂情况下的手势识别问题。在进行手势识别时,首先提取手势的特征信息,构建出输入输出的对应关系。接着将手势图像输入到BP网络中进行进行反复的训练和学习,最后将待测手势图像输入到BP网络进行测试,最终识别出手势。
        人工神经网络具有以下优点:容错率高、自适应学习过程以及免疫外界干扰。同时,它也有以下缺点:计算工作量大,大量耗时。
3.3.2 隐性马尔科夫模型
        以往使用的马尔科夫模型具有随机性,而隐马尔科夫则作为一种关于时序的概率模型被广泛使用。它们不同之处在于在隐马尔可夫模型中状态转移过程是不可知的 。
        一个隐马尔科夫模型是由一个三元组描述的:,其中:
状态转移矩阵,代表的是第一个状态到第二个状态发生的概率。
混淆矩++阵,代表的是处于某个隐状态的条件下,某个观测发生的概率。
初始概率向量,代表的是刚开始的时候各个隐藏状态的发生概率。
        隐马尔科夫模型利用它自身的特点,在手势识别中能够表示手势图像中手掌弯曲程度和手势手指伸展个数之间的相互联系。对复杂度高的手势也有较高的识别精度,但实现复杂度的同时也伴随大量的运算,具有一定的局限性。
4 总结
        本文的不足之处在于对手势时间序列的研究较浅,不能进一步精确细分手势的细节特征。在部分手势中,识别率不高。在实际环境下无人机对手势的指令不敏感,受距离和人物背景影响,并有一定的延迟,这些不足也影响了人机交互的体验
参考文献
[1]王兵,董洪伟,张明敏.基于Kinect的动态手势识别[J].传感器与微系统,2018.
[2]马乐乐,李照洋,董嘉蓉.基于计算机视觉及深度学习的无人机手势控制系统[J].计算机工程与科学,2018.
作者简介:左圆圆(1989-),女,硕士,研究方向:机械工程。
       
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: