基于帕金森病语音障碍的数据挖掘技术研究

发表时间:2021/8/3   来源:《教学与研究》2021年3月9期   作者:孙超1,杨勇2,王纬1,杨正1
[导读] 语音障碍分析在帕金森病预测性远程诊断和远程监护中的应用越来越受到人
        孙超1,杨勇2,王纬1,杨正1
        1安徽中医药高等专科学校  241000; 2安徽省胸科医院  230000
        摘要:语音障碍分析在帕金森病预测性远程诊断和远程监护中的应用越来越受到人们的关注。本文使用帕金森数据集元音音频信号作为研究对象,首先对音频数据进行预处理,使用灰色关联理论,将UPDRS评分作为母序列计算出各子项的关联系数和关联度,提取特征子项;然后使用统计学工具对特征子项进行离散化;最后使用Apriori算法针对多个维度进行关联规则挖掘,为帕金森病预测性远程诊断和远程监护提供思路。
        关键词:帕金森病 语音障碍 灰色关联理论 离散化 数据挖掘  关联规则
        帕金森病(PD)是一种中枢神经系统退化性疾病,会导致运动反射、语言、行为、精神处理和其他重要功能的部分或全部丧失。90%的帕金森症(PWP)患者都有某种程度上的语音损伤,语音损伤也可能是帕金森症最早的征兆之一,如发音困难(声音使用有缺陷)、低发音(音量减小)、单调(音调范围减小)和运动障碍(发音或音节发音困难)[1,2]。语音障碍可以通过声学工具利用声音中的非周期振动来测量。本文旨在研究利用这些损伤来实现早期的预测性诊断,降低门诊病人的不便以及减轻了医务人员的工作量[3,4]。
1数据集
        本文试验组数据集使用UCI的帕金森数据集,数据构成为0~6年病情的20名PWP(6名女性,14名男性)和20名健康个体(10名女性,10名男性),根据多年的研究,持续元音发音被发现携带更多的辨别信息[5],具有较高的预测能力,提取每人分别说三遍的持续元音“a”、“o”和“u”,从每个语音样本中提取了一组20种基于线性和时频的特征,这些特征主要分为四大类,频率参数类(Jitter_local,Jitter_local_absolute,Jitter_rap,Jitter_ppq5,Jitter_ddp)记作(J1,J2,J3,J4,J5)、振幅参数类(Shimmer_local,Shimmer_local_dB,Shimmer_apq3,Shimmer_apq5,Shimmer_dda,Shimmer_apq11)记作(S1,S2,S3,S4,S5,S6)、脉冲参数类(Number of pulses,Number of periods,Mean period,Standard deviation of period)记作(P1,P2,P3,P4)、音场参数类(Median pitch,Mean pitch,Standard deviation,Minimum pitch,Maximum pitch)记作(V1,V2,V3,V4,V5),同时数据集中还提供了由专家医师确定的每位患者的UPDRS(统一的帕金森氏病评分量表)评分[6]。
2总体设计
2.1灰度关联分析抽取特征子项(数据项预处理)
        在医疗领域,通常采用统计机器学习方法构建疾病预测模型,然而,往往存在着系统模型不明确、样本个体间差异大、样本个体内部不稳定、数据集较小的问题,导致模型的预测效果不佳。对比常用的回归分析、方差分析和PCA等,本文采用灰度关联分析系统理论[7,8],对样本的要求不高,即使在较少数据的情况下,仍然可以寻找到对应统计规律,通过提取不同因素对与预测结果的相对影响程度进行子项降维优化,不会造成定性分析和定量分析结果的相悖。
        假设:
 
2.3关联规则数据挖掘
        关联规则数据挖掘(ARM)是一种特殊的数据挖掘技术,它使用基于规则的机器学习来发现变量之间的关联。ARM首先识别在单个观察中同时出现的变量集(项集)形成频繁项集,然后识别频繁项集之间的关联关系(规则)。通常事物之间的关联规则用“支持度”、“置性度”和“提升度”来量化。
        支持度表示项集{X,Y}在总项集里出现的概率;置信度表示X和Y同时发生的情况下,由关联规则推出Y的概率; 提升度表示发生X的条件下,同时发生Y的概率,与只看Y发生的概率之比,提升度反映了关联规则中的X与Y的相关性,提升度>1且越高表明正相关性越高。如果项集I的支持度满足大于等于预定义的最小支持度阈值,则I是频繁项集.规则是从频繁项集生成的,其形式为:如果项集X出现,那么Y也出现,其中X和Y分别称为关联规则的先导和后继。
        在目前关联规则数据挖掘研究中,主流方法使用Apriori算法[9,10],本文也采用此算法。Apriori算法采用了迭代的方法,先搜索出候选1项集及对应的支持度,剪枝去掉低于支持度的1项集,得到频繁1项集。然后对剩下的频繁1项集进行连接,得到候选的频繁2项集,筛选去掉低于支持度的候选频繁2项集,得到真正的频繁二项集,以此类推,迭代下去,直到无法找到频繁k+1项集为止,对应的频繁k项集的集合即为算法的输出结果。
3实验与结果
        对于本文试验组数据集,我们将UPDRS评分作为母序列,其他语音样本信号作为子序列,使用公式3进行无量纲化。

        根据无量纲化结果,计算:
        
        观测子项关联性反映各个子项与母项的关联程度,数值越高关联越强,从而提取帕金森氏病关于语音损伤参考的主要特征项。计算得出各子项关联度排序如下:J4>J3>J5>J1>J2>S5>S2>S4>S1>S6>S3>V1>V4>V2>P3>P2>P1>V5>P4>V3 ,综合四大类语音损伤特征关联情况以及数据的全面性,确定频率参数类Jitter_rap、Jitter_ppq5和Jitter_ddp,振幅参数类Shimmer_local_dB、Shimmer_dda和Shimmer_apq5,脉冲参数类Mean period和Number of periods,音场参数类Median pitch和Minimum pitch作为特征子项。
        对特征子项进行离散化,代入公式6和公式7,形成每个特征子项的散点图(图1),针对各个图例进行离散化。

图1   Shimmer_local_Db子项y-x散点图
例如图1,根据散点图排列情况对Shimmer_local_Db子项进行观察,共分6类,求出对应y值分别为0.22,0.505,0.617,0.879,1.05,对应的值分别为0.406,0.693,0.798,1.067,1.202,最终完成Shimmer_local_Db子项离散化,其他子项过程相同,针对本数据集各特征项离散阀值如表1、离散处理后结果。

        
        当语音特征属性同时满足Jitter_rap在(0.235,0.398]Jitter_ddp在(0.369,1.194]区间,或Shimmer_local_Db在(0.406,0.693]Shimmer_apq5 在(2.298,4.122]区间情况下,发现是PD患者的概率最高,都出现了20次,规则支持度为33.4%;当Shimmer_dda在(4.689,9.574]  Shimmer_apq5在(2.298,4.122],或Jitter_rap在(0,0.235] Jitter_ppq5在(0,0.251]规则支持度为31.7%,出现19次;当Shimmer_local_Db在(0.406,0.693] Shimmer_dda在(4.689,9.574] ,或Jitter_ddp在(0.369,1.194] Shimmer_local_Db在(0.406,0.693],或Jitter_ppq5在(0.251,0.468] Jitter_ddp在(0.369,1.194]区间规则支持度为30%,出现18次。
        通过1、6和7可得出:如果Jitter_ddp在(0.369,1.194]区间,Jitter_rap在(0.235,0.398] Jitter_ppq5在(0.251,0.468]和Shimmer_local_Db在(0.406,0.693] 区间PD疑似概率大.
        通过2、5和6可得出:如果Shimmer_local_Db在(0.406,0.693]区间,Shimmer_apq5在(2.298,4.122] Shimmer_dda在(4.689,9.574]和Jitter_ddp在(0.369,1.194] 区间PD疑似概率大.
        通过关联规则3和5可得出:如果Shimmer_dda在(4.689,9.574]区间,Shimmer_apq5在(2.298,4.122]和Shimmer_local_Db在(0.406,0.693]区间 PD疑似概率大.
        (2)如表3,设置规则支持度大于25%,根据表可得出最大频繁项分别为5、6、10和11,即:

        如果Jitter_rap在(0.235,0.398] Jitter_ppq5在(0.251,0.468] Jitter_ddp在(0.369,1.194]区间 PD疑似概率大。
        如果Mean period在(0.005535,0.007164] Median pitch在(194.351,224.617]区间 PD疑似概率大.
        如果Jitter_ddp在(0.369,1.194] Shimmer_local_Db在(0.406,0.693] Shimmer_dda在(4.689,9.574] Shimmer_apq5 在(2.298,4.122]区间 PD疑似概率大。
        如果Jitter_ppq5在(0,0.251] Jitter_ddp在(0.369,1.194]区间 PD疑似概率大。
        (3)对PD病情严重度关联挖掘,根据文献[9,10]结论,在数据集中将UPDRS 子项(简记为 Y)分成三类,阀值分别为15和40,如表4。

        根据结果发现,PD严重度“轻微”和“严重”有明显的规律,而“一般”没有发现明显的规律。
        从表中我们可以得出如下结论:
        如果Shimmer_local_Db在(0.406,0.693] Number of periods在(0,162]区间 PD病情严重概率大.
        如果Jitter_rap在(0,0.235] Jitter_ppq5在(0,0.251] Shimmer_local_Db在(0,0.406] Shimmer_dda 在(0,4.689] Shimmer_apq5在(0,2.298]区间 PD病情轻微概率大。
4结束语
        近年来,医疗领域对语音模式分析应用产生了浓厚的兴趣,特别是在新型冠状病毒肺炎疫情后,医疗领域建立预测性远程诊断和远程监护模型成为了热点问题。本文在分析研究帕金森病语音音频特征的基础上,运用灰色关联分析,Apriori算法等多种数据挖掘方法,推断出帕金森病出现语音障碍主要特征属性,挖掘出帕金森氏病出现语音障碍时相关信号数据关联规则,以及病情不同严重程度相关信号关联关系,为该领域的研究提供了不同的思路。

参考文献:
[1]J.Jankovic,Parkinson's disease: disease clinical features and diagnosis[J].J.Neurol. Neurosurgery Psychiatry, 2007,,79(4):368–376.
[2]沈珺,张天宇,黄菲菲,周红,滕飞,靳令经.帕金森病构音障碍声学特点的初步探索[J].中华神经科杂志,2019(08):613-619.
[3]  M. A. Little, P. E. McSharry, E. J. Hunter, J. Spielman, and L. O. Ramig.Suitability of dysphonia measurements fortelemonitoring of Parkinson’s disease[J]. IEEE Trans. Biomed. Eng., 2009, 56(4):1010–1022.
[4]A. Tsanas, M. A. Little, P. E. McSharry, J. Spielman, and L. O. Ramig.Novel speech signal processing algorithms for high-accuracy classification of Parkinson’s disease[J]. IEEE Trans. Biomed. Eng.,2012,59(5): 1264–1271.
[5]Sakar Betul Erdogdu, Isenkul M Erdem,Sakar C Okan,Sertbas Ahmet, Gurgen Fikret, Delil Sakir, Apaydin Hulya,Kursun Olcay.Collection and analysis of a Parkinson speech dataset with multiple types of sound recordings[J]. IEEE Journal of Biomedical and Health Informatics,2013, 17(4): 828-834.
[6]Hssayeni Murtadha D, JimenezShahed Joohi, Burack Michelle A, Ghoraani Behnaz .Ensemble deep model for continuous estimation of Unified Parkinson's Disease Rating Scale III[J].BioMedical Engineering OnLineVolume,2021, 20(1):32-32.
[7]郭弘,陈勇明.灰色关联分析模型数据预处理算子的若干性质[J].成都信息工程大学学报,2020,35(02):235-238.
[8]李兴国.基于灰色关联分析的犹豫模糊多属性决策模型构建及其应用[J].模糊系统与数学,2019,33(05):127-135.
[9]Jung Yong Gyu, Kim Oh Jin, Won Jae Kang.Association Analysis of Parkinson's Disease using Apriori Algorithm[J]. International Journal of Advanced Smart Convergence,2012,1(1): 43-47 .
[10]Ripon H. Shamim, Ashour Amira, Parvin Sazia, Chowdhury Linkon, Kamal Sarwar Md, Hussain Khadeer Omar, Chowdhury Roy Bristy.A Biological Data-Driven Mining Technique by Using Hybrid Classifiers With Rough Set[J].International Journal of Ambient Computing and Intelligence,2021,12(3):123-139.



基金项目:安徽中医药高等专科学校2017校级自然科学项目(ZRKX1704)
作者简介:孙超(1986-),男,汉族,安徽合肥人,硕士,高级工程师;主要研究方向:数据挖掘;E-mail: sunchao@ahzyygz.edu.cn
杨勇(1986-),男,汉族,安徽合肥人, 本科,主治医师;主要研究方向:临床医学;
王纬(1981-),男,汉族,安徽芜湖人, 硕士,讲师;主要研究方向:数据挖掘;
杨正(1982-),男,汉族,安徽芜湖人,硕士,高级工程师;主要研究方向:数据挖掘;
项目名称: 面向医学知识库基于关联规则的数据挖掘研究及应用
项目编号:ZRKX1704
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: