摘 要:近年来,伴随语音交互的不断发展,语音识别系统的性能不断提高,其中,语音识别方法是语音识别的关键,本文重点梳理了语音识别相关专利的发展历程,从整体上了解语音识别相关技术的整个发展周期。
关键词: 语音交互、语音识别、识别算法
一、引言
语音识别是最重要的技术之一,它可赋予机器以模拟智能,传统的语音识别系统一般分为三个模块,分别为:声学模型,比如HMM-GMM系统框架描述的模型;语言模型,比如N-Grams描述的模型;解码器,用于结合声学模型、语言模型、发音字典等资源,将声音信号转换为文本信息。
二、语音识别方法的发展历程
通过对已授权的重要专利进行标引、分析,按照关键技术的发展,形成如下图所示的发展路线图。
从图中可以看出,关键技术的发展从下面两条线路进行概述,针对HMM-GMM模型的改进,针对语言模型N-gram模型的改进,其中在上述两个模型的发展基础上有深度神经网络(DNN)、循环神经网络、深度信任网络(RNN)发展。
1、HMM-GMM模型的改进
说话人识别方法主要有支持向量机、神经网络、高斯混合模型、隐马尔科夫模型矢量量化模型等。其中, DTW声学模型可以认为是与需要识别的各种词汇有关的模板数据库。CN(102129860A)一种基于无限状态隐马尔科夫模型的与文本相关的说话人识别方法。
隐马尔可夫过程是一种双重随机过程,人的言语过程实际上就是这样一种双重随机过程。HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型,但HMM方法有需要语音信号的先验统计知识,分类决策能力较弱等缺点,由于仅考虑了特征的类内变化,而忽略了类间重叠性,仅根据各累积概率的最大值作类别判断,而忽略了各个模式之间的相似特性,因而影响了系统的识别性能,其自适应能力、鲁棒性都不理想,CN(102890930A)提出了一种基于HMM/SOFMNN混合模型的语音情感识别方法,克服了HMM本身难以解决的模式类别间的相互重叠问题,而且弥补了SOFMNN(自组织特征映射神经网络)在获取时序信息方面的不足,提高了语音情感识别率。
近年来获得快速发展,常用的声学模型为混合高斯模型-隐马尔科夫模型。CN(103117060A)公开了一种语音识别的声学模型的建模方法。
微软在2011年提出用深度神经网络取代传统声学模型中的混合高斯模型,构成了新的CD-DNN-HMM模型,将DNN模型的表达能力与CD-HMM模型的顺序建模能力结合,其核心是对声学特征进行多层变换,并将特征提取和声学建模在同一网络进行优化。与传统的GMM-HMM模型框架相比,DNN-HMM模型在英文连续语音识别库上的错误率降低了30%左右。但是DNN的每一层都有百万量级的参数,且下一层的输入是上一次的输出,因此一般计算代价较大,且在说话速度不同以及需要对长时序列进行处理时效果不佳。
随着近年来深层神经网络(DNN)理论的成熟,解决了多层网络训练的问题,同时也可以应用大量的非标注数据。在语音识别领域,DNN也显示出强大的建模能力。无论是声学模型训练还是语言模型训练,深层神经网络都体现出很好的实用效果。
在传统DNN模型训练中,随机梯度下降算法
仅能够顺序地估计模型参数,不同语音数据之间存在时间上的依存关系,难以实现类似Map-Reduce一样的多机并行化算法,不容易做到加速DNN模型训练的速度。CN(104143327A)公开了一种声学模型训练方法。
2、N-gram模型的改进
语音模型在自然语言处理中有着非常重要的作用,特别是在大规模语音识别和机器翻译中,其中统计语言模型用的比较广泛,它是用来计算一个句子的概率的模型,即,已知一个句子(词语序列) ,他们的概率可以表示为:,其中出现比较早的是基于n-gram的统计模型,实际应用中n一般取为n=3或n=4,即三元和四元的n-gram语言模型,CN(102968989A)公开了一种语音识别的Ngram模型改进方法,本发明提出的方法采用RNN(回归神经网络,Recurrent Neural Network)对Ngram进行优化,优化后的Ngram模型PPL(困惑度)性能优于RNN,且能保持原有的快速查询特性。该技术应用于训练语料不足条件下的Ngram语言模型优化可取的显著效果。它引入了音子混淆矩阵对Ngram模型进行最小错误率训练,该过程模拟了语音识别过程中声学解码和语言解码相结合的解码方式,使得优化目标更接近真实的语音识别过程,从而使得识别率得到显著提高。
循环神经网络(Recurrent Neural Network,RNN)是一种单元之间存在有向循环来表达网络内部动态时间特性的神经网络,在手写体识别和语言模型等方面得到广泛应用。语音信号是复杂的时变信号,在不同时间尺度上具有复杂的相关性,因此相比于深度神经网络而言,循环神经网络具有的循环连接功能更适合处理这类复杂时序数据。作为循环神经网络的一种,长短期记忆(Long Short-Term Memory,LSTM)模型比循环神经网络更适合处理和预测事件滞后且时间不定的长时序列。多伦多大学提出的增加了记忆模块(memory block)的深度LSTM-RNN声学模型则将深度神经网络的多层次表征能力与循环神经网络灵活利用长跨度上下文的能力结合,使得基于 TIMIT库的音素识别错误率降至17. 1%,CN(104538028A)公开了一种基于深度长短期记忆循环神经网络的连续语音识别方法,与深度神经网络声学模型相比,本发明循环神经网络声学模型中的单元之间存在有向循环,可以有效的描述神经网络内部的动态时问特性,更适合处理具有复杂时序的语音数据。而长短期记忆神经网络比循环神经网络更适合处理
和预测事件滞后且时间小定的长时序列,因此用于构建语音识别的声学模型能够取得更好的效果。进一步,在深度长短期记忆循环神经网络声学模型结构中需要降低噪声特征对神经网络参数的影响,提高语音识别系统在环境噪声干扰下的抗噪性及鲁棒性。
三、结束语
通过对语音识别相关专利技术的梳理和分析,审查员可以深入了解该领域技术的发展状况并有助于对其发展趋势进行预测。在审查时间中准确把握此类专利所处的发展阶段、专利重要申请人的技术发展等信息,从而帮助审查员准确地理解发明,快速明确申请的发明构思,有针对性地对相关专利申请进行检索,优质高效地实现专利审查。