针对帕金森病语音检测问题,本文提出了一种基于时频混合域局部统计的帕金森病语音障碍分析方法。该方法首先将语音信号从时域转化为时频混合域,即进行时频化表示。在时频化表示方法中将语音信号进行分帧处理,再将每帧的语音进行傅里叶变换,通过计算得到能量谱,并将能量谱通过映射关系映射到图像空间进行可视化;其次统计信号每个能量数据在时间轴上和频率轴上的差分值,根据差分值计算该能量的梯度统计特征,用梯度统计特征来表示其不同时域与频域的能量值的突变情况;最后利用 KNN 分类器对提取的梯度统计特征进行分类。本文在不同的帕金森病语音数据集上进行实验,发现本文所提取的梯度统计特征在分类时有更强的聚类性。与基于传统特征与深度学习特征的分类结果相比,本文所提取的梯度统计特征在分类准确率、特异性和灵敏性上均优于前二者。实验证明了本文所提出的梯度统计特征在帕金森病语音分类诊断中的可行性。
引言
帕金森病是人类常见的中老年人神经系统变性疾病,其主要症状表现为震颤、肌肉僵直和行为缓慢等。目前虽然有辅酶 Q10[1]、5-羟胺再摄取抑制剂[2]和雷沙吉兰[3]等方法治疗帕金森病,但由于病因尚未完全明确,疾病无法完全治愈,所以对帕金森病的早期诊断显得尤为重要。在帕金森病的早期检测研究中,研究人员根据帕金森病的症状表现提出了一些检测方法,其中包括步态分析[4]、可穿戴传感器[5]、脑电信号分析[6]、生理信号分析[7]、语音信号分析[8]等。研究表明,在 200 名帕金森病患者实验研究中,发现 74.00% 的帕金森病患者受到不同程度的言语障碍影响[9-11],因此,帕金森病的语音信号检测分析引起了人们极大的关注[10-13]。
目前在帕金森病的语音研究中,主要集中在特征提取、特征选择和分类三个方面。在特征提取领域,主要包括传统的时域或频域特征以及时频混合域特征。传统特征提取的方法主要是从语音信号中提取时域和频域中的各种特征,在此方面有大量的研究者做出了巨大的贡献。Little 等[14]根据语音的时频和频域分别提出了基本频率变化测量 Jitter 和振幅变化测量 Shimmer,同时也提出了谐波噪声比(harmonics to noise ratio,HNR)来显示语音信号的噪声特征,还研究了语音信号中的几种非线性测量特征包括动态复杂度和基频变化测量等。Sakar 等[15]增加了不同的音调特征、周期特征和无声中断的特征。提取时域信息或者频域信息的传统方法,在帕金森病语音研究中取得了一定的成就,但是由于只针对时域或者频域提取特征,因而忽略了语音中其他因素带来的直接影响。近年来,越来越多的学者开始关注时域与频域的联合特征描述,促进了以时频混合分析为代表的变换域特征提取的研究。时频混合域是描述信号在时间、频率方面特性时用到的一种二维坐标系。Sakar 等[16]提取了时频特征梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCC)、基于小波变换的特征声音折叠特征和可调 Q 因子小波变换特征(tunable Q-factor wavelet transform,TQWT)。Naranjo 等[17-18]增加了不同阶数的 MFCC。这些报道显示越来越多的学者开始关注时频混合域。此外,有些学者在时频混合域中用深度学习的方法来解决帕金森病分类问题,以时频混合域为基础通过神经网络进行训练,该类方法取得了很好的分类效果[19-20]。
近年来针对时频混合域的研究逐步增多,提示我们在时频混合域进行帕金森病检测可能会有新的突破。因此本文提出了一种基于时频混合域局部统计的帕金森病语音障碍分析方法,该方法基于时频混合域,从能量突变的角度出发,提取了时频混合域能量的梯度统计特征,全面提取了帕金森病语音的时频域能量突变信息,并将提取的梯度统计特征通过 KNN 分类器进行分类,以期实现帕金森病的检测。
1 材料和方法
1.1 数据集描述
在帕金森病语音分析中,大多数学者的研究数据均源于 Little 和 Sakar 提取的语音特征数据[21-24]。但是根据目前国际上对帕金森病原始语音障碍数据的公开情况,Little 并没有公开帕金森语音数据集,因此本文采用的数据集为 Sakar 团队[15]采集的土耳其语帕金森病语音数据集(Sakar’s Parkinson Detection Dataset,SPDD)和本团队[25]采集的汉语发音的帕金森病语音数据集(Chinese Pronunciation Parkinson Detection Dataset,CPPDD)。
SPDD 数据集包括原始语音数据与提取的传统特征数据两部分。该数据集中包括 20 例帕金森病患者(6 例女性,14 例男性)和 20 例健康人(10 例男性,10 例女性),每例受试者分别采集 6 例语音片段(持续元音“a”与持续元音“o”的发音各三遍)。为了确保语音数据的一致性与平稳性,本文将原始语音信号截取 1.5 s 的平稳语音信号作为样本,并对截取的语音信号作进一步筛选,最终得到符合实验标准的语音样本数 411 例。SPDD 数据集中包含原始语音声学特征 Jitter、Shimmer、HNR 等 26 个传统特征[15]如表1 所示,共包含传统特征样本数 1 040 例。

CPPDD 数据集中包含 36 例帕金森病患者(19 例男性,17 例女性)和 32 例健康人(16 例男性,16 例女性)的原始语音数据。其母语均为汉语,对每个受试者采集汉语发音(“a”和“o”),每个音节发音 3 次,每次持续发音 3 s。同样截取 1.5 s 的平稳语音,并对信号进一步筛选,得到的 CPPDD 数据集共包含符合实验标准的语音样本数为 821 例。
1.2 方法
本文通过对语音数据进行时频化表示,将语音数据的时域信息、频域信息、时频混合域信息进行同窗可视化,把语音的时域信号转化到时频混合域,然后通过局部梯度统计方法提取时频混合域能量数据的时域特征、频域特征以及时频混合域特征。最后通过分类器将提取的特征进行训练,将训练好的分类器用于帕金森病语音检测。该算法的整体流程图如图1 所示。

1.2.1 时频化表示方法
时域分析和频域分析是语音信号分析的两种重要方法,但这两种方法均具有局限性:在进行时域分析时,无法直观地展示语音信号的频域特性;在进行频域分析时,语音信号随时间的变换关系也无从展现,因此将时域、频域同时进行展示显得尤为重要。本文通过使用短时傅里叶变换,将语音的时域信息和频域信息同时转换到时频混合域,从而实现时频化表示,如图2 所示。

由图2 可知,健康人和帕金森病患者的语音信号在时域波形和频谱图上均存在差异。在时域上,二者语音信号波形的周期不同,振幅的相对变化也不同;在频域上,二者的频谱在高频和低频的分布也存在差异。故本文综合语音信号的时域和频域信息,在时频混合域分析信号的时频能量谱。从图2 中可直观看出,健康人语音信号的能量分布与帕金森病患者相比,能量分布更加均匀,更具规律性;从语音信号主要能量的分布范围来看,与帕金森病患者相比,健康人语音信号能量分布的范围更加集中。
1.2.2 局部梯度统计
针对时频混合域中的能量分布情况,本文采用局部梯度统计方法进行分析。该方法通过滑动窗口选择局部数据,并对其进行差分化梯度统计处理,从而得到局部数据的统计信息。最后按照滑动窗口的滑动顺序对每个窗口的梯度特征进行统计,得到时频混合域的梯度统计特征。梯度统计特征的具体提取方法如图3 所示。

在图3 局部梯度统计方法中,首先将时频混合域能量数据进行滑窗处理,得到其局部数据,然后对该数据进行规范化处理。处理方法如式(1)所示。
![]() |
在式(1)中,表示时频混合域能量数据指数化的值,
、
表示窗口的顶点位置,
,
。其中l和w分别表示窗口的长度与宽度。
表示顶点为
的窗口内的局部数据。窗移与窗口大小相同。在局部能量数据内进行差分化梯度统计,其统计步骤如下所示:
步骤 1:计算滑动窗口内每个能量数据点在
轴时间分量和
轴频率分量的差分值,分别为
、
,其计算方法如式(2)、式(3)所示。为了能够提取边界的时频混合域能量数据点的差分值,本文在时频混合域能量数据
的外围补充数值为 0 的能量数据。
![]() |
![]() |
步骤 2:计算滑动窗口内每个能量数据的梯度值大小,其梯度值用周边能量点差分值的模值大小来表示,梯度值的计算方法如式(4)所示。表示坐标位置为
的数据点的梯度值。
![]() |
步骤 3:能量数据点的时域分量与频域分量的比值表示该能量点时域与频域信息的混合程度,即用角度表示不同程度的时频混合程度。时频混合程度的计算方法如式(5)所示。
![]() |
步骤 4:根据局部能量数据的梯度值和时频混合程度统计局部窗口内能量的梯度,构建包含时频信息的局部梯度统计特征。将时频混合程度进行量化,如式(6)所示。根据能量数据时频化混合程度对应的量化级别统计能量数据的梯度值。
![]() |
![]() |
式(6)、式(7)表示滑窗内局部梯度统计特征的统计方法,表示量化的单位,
表示量化级别,
表示不同量化级别的梯度统计特征。对梯度统计特征进行归一化,归一化方法如式(8)所示。
为一个极小且不为零的常数,
表示 1 范数。
即为一个滑动窗口内归一化后的梯度统计特征。
![]() |
设实验中所用语音对应的时频混合域的时间长度为
、频率长度为
,则时频混合域对应的窗口数量如式(9)所示。
![]() |
通过统计每个窗口内的梯度统计特征可得到时频混合域能量数据的梯度统计特征,如式(10)所示。
![]() |
因此,的时频混合域梯度统计特征的维数为
。
时频混合域梯度统计特征包含了不同时频混合程度的梯度统计特征值。图4 为梯度统计特征示意图。以一个可视化窗口内的梯度统计特征为例,图中每条线段的长度表示梯度统计值的大小,线段与水平线的夹角表示时域频域的混合程度。

1.3 评估指标
为了说明分类器的分类性能,本文使用准确率(accuracy)、灵敏性(sensitivity)、特异性(specificity)三个指标对分类器进行评估。准确率的计算公式如式(11)所示。
![]() |
其中 TP 是真阳性的数量,TN 为真阴性的数量,FP 是假阳性的数量,FN 为假阴性的数量。灵敏性和特异性分别为正确分类的阳性和阴性结果的统计测量值,如式(12)、(13)所示。
![]() |
![]() |
2 实验结果与分析
为了证明本文方法所提特征的可行性与可靠性,分别在国际公开数据集 SPDD 和 CPPDD 数据集上,按照 1.2 所述的方法进行特征提取,并将提取的梯度统计特征输入 KNN 分类器进行帕金森病分类诊断。在本文的实验中,1.2.2 中各参数的选取如下:滑动窗口的大小为,即
,
,窗移为 8,量化的级别
,
。
在 KNN 分类器中,本文使用欧氏距离进行度量,K 使用的参数为 1、3、5、7、15。由于在数据集的采集过程中,对每个受试者的语音记录有多条,为了避免不同样本之间带来的误差,在实验方法上,采用N折交叉验证与留一样本法交叉验证相结合的方法进行测试。其中N折交叉验证的思路为将全部数据集样本划分为N份,每份互不相交,且每份包含的样本数量相同,轮流将其中的N-1 份做训练集,1 份做测试集;留一样本法交叉验证的思路为轮流将数据集中的 1 个样本作为测试集,其余样本作为训练集。本文在 SPDD、CPPDD 两个数据集上分别采用 5 折交叉(N=5)、10 折交叉(N=10)和留一样本法进行交叉验证。
由于 5 折交叉验证和 10 折交叉验证的结果会因数据集的划分不同而不同,因此本文实验采用多次交叉验证求均值,分别记录了准确率、灵敏性和特异性的均值及标准差,以确保结果的可信度。同时,由于留一样本法交叉验证为无偏估计[19],因此无标准差和最优值。
2.1 本文实验结果及对比分析
表2 为使用 KNN 分类器采用本文的梯度提取方法对国际公开数据集 SPDD 和 CPPDD 中的原始语音信号提取梯度统计特征的分类结果。5 折交叉验证和 10 折交叉验证记录了各项指标的均值和标准差;留一样本法交叉验证记录了各项指标的结果值。

由表2 可知,在 SPDD 数据集上,使用 KNN 对梯度统计特征分类时,得到的最优分类准确率为 97.27%,所对应的 K 值为 3;在 CPPDD 数据集上,使用 KNN 分类器对梯度统计特征分类时,得到的最优分类准确率为 90.81%,所对应的 K 值为 1。
表3 为利用文献[15]所提的方法,将 SPDD 数据集中所提供的如表1 所示的传统特征输入 KNN 分类器进行分类诊断得到的分类结果。5 折交叉验证和 10 折交叉验证记录了准确率、灵敏性和特异性的均值、标准差和最优值;留一样本法交叉验证记录了各项指标的结果值。

由表3 可知,使用 KNN 分类器对 SPDD 数据集中的传统特征分类时,得到的准确率的最优值为 83.45%,整体均值的最优值为 59.20%;而在文献[15]中,采用 KNN 分类器对 SPDD 数据集中所提供的传统特征分类,得到的准确率的最优值为 82.50%,得到的整体均值的最优值为 50.61%。可见,本文得到的实验结果与文献[15]的结果基本相当。
为了更清晰直观地显示 KNN 分类器的分类性能,图5 绘制了表2 中 SPDD 和 CPPDD 数据集下的不同K值的准确率、灵敏性和特异性整体均值分布的折线图。

由图5 可知,随着 K 的增加,在两个数据集上,分类器的评价指标前期变化幅度较小,当 K=7 时,分类器的评价指标下降幅度增加。说明利用本文所提取的梯度统计特征,有很强的聚类性。
为了比较不同语种发音对分类精度的影响,图6 绘制了分别基于 SPDD 数据集与 CPPDD 数据集对梯度统计特征进行分类,分类器取不同 K 值时,准确率、灵敏性和特异性整体均值的折线对比图。

从图6 中可以直观地看出,对 SPDD 数据集上的梯度统计特征进行分类,其准确率、灵敏性和特异性的精度均高于 96.00%,而 CPPDD 数据集上的梯度统计特征分类,三个分类指标均低于 96.00%。从相同方法不同数据集的角度分析,对提取的梯度统计特征进行分类时,SPDD 数据集中的分类准确率、特异性和灵敏性均高于 CPPDD 数据集的各项分类指标精度。这是由于汉语发音采用的是口腔前部发音体系,该体系主要特点是利用口腔前部运动发音,汉语发音对肌肉的控制力要求比较强,与 SPDD 数据集中的土耳其语相比,汉语发音的帕金森病患者的梯度统计特征变化的随机性更强,因此,CPPDD 数据集的分类准确率要低于 SPDD 数据集。
为了比较本文提取的梯度统计特征与传统的特征的分类结果,图7 绘制了 SPDD 数据集下,利用 KNN 分类器对梯度统计特征与传统特征各项分类指标的整体均值对比柱状图。

图7 中通过对 SPDD 数据集中提取的梯度统计特征和传统特征的准确率、灵敏性和特异性三个指标均值进行对比,结果表明在同一数据集、同一分类器中,基于梯度统计特征的各项分类指标精度相对于传统特征各项分类指标的精度约有 30% 的提高,远远高于传统特征的分类精度。
2.2 与其他方法的性能比较
本文从相同数据集、不同研究方法的角度出发,在 SPDD 数据集上,分别选取了文献[15]、文献[19]报告的结果与本文方法进行分类结果对比。其中,文献[15]中所使用的传统特征方法是由 SPDD 数据集的收集者 Sakar 教授提出,文献[19]中所使用的方法是深度学习上最常用的三种深度学习网络;在 CPPDD 数据集上,分别选取了文献[20]和文献[25]与本文方法进行分类结果对比,这两个文献是目前基于 CPPDD 数据集研究的最新文献。
表4 比较了本文方法与上述文献使用的特征提取方法的分类结果。其中,表4 中本文方法(梯度统计特征方法)中的数值选用的是整体均值的最优值,在 SPDD 中,选取的是K=3(或 5)时的整体均值的最优值;在 CPPDD 中,选取的是K=1 时的整体均值的最优值。根据实验对比条件相同原则,表4 中的选取的各项指标的数据均为不同方法下的最优值。

表4 中对比两个数据集上对梯度统计特征与原始传统特征的分类结果,可知在 SPDD 数据集中,文献[15]对传统特征使用 KNN 分类器进行分类,得到的最好结果为准确率 82.50%、灵敏性 85.00%、特异性 80.00%;在 CPPDD 数据集中,文献[25]同样对传统特征使用 KNN 分类器分类,得到的准确率为 74.87%。其结果均低于基于梯度统计特征的分类精度。其原因在于原始的帕金森病语音特征提取方法是通过分别提取时域特征、频域特征来表现帕金森病患者与正常人的语音差别,而本文提出的语音特征提取方法是综合提取语音时域、频域差分值的突变情况,并通过梯度值反映差分值的大小。本文方法的优点体现在以下两个方面:一方面,正常人由于自身的控制能力较强,其各个域的梯度值变化具有一定的规律性,而帕金森病患者由于控制发音的能力相对减弱,导致其各个域的梯度值变化杂乱而没有规律;另一方面,由于采集时会存在噪声,在传统的语音特征提取方法中噪声会对其具有一定的影响,而本文提出的梯度统计方法中,通过统计各个方向的能量变化值,各个方向的噪声能量相互抵消,在一定程度上抑制了噪声,因此本文提出的特征提取方法相对原始的特征提取方法而言,具有更好的结果。
同样,表4 中对本文的梯度统计特征方法与深度学习特征方法的分类结果做比较,本文的分类精度高于深度学习方法。分析主要原因为以下两个方面:一方面,深度学习方法提取语音特征时,通过将语音转化为声谱图,再将声谱图经过了压缩和截取后放入神经网络,图像的压缩和截取会损失声谱图的部分信息,导致神经网络在训练学习时只能学习到语音的部分信息使分类精度降低;另一方面,深度学习网络在训练的时候需要大量的数据,而现有的帕金森病语音数据集相对来说数量较少,对神经网络的适用性较低。
3 结论
本文针对帕金森病语音诊断问题,提出了一种基于时频混合域局部统计的帕金森病语音障碍分析方法,该方法根据语音时频化表示方法对语音信号的时域与频域进行同窗表示,并用梯度统计方法提取帕金森病语音不同时频混合程度的梯度统计特征,最后用 KNN 分类器对提取的特征进行分类诊断。本文通过局部梯度统计特征反映局部能量点与周围能量之间的变化关系,并通过统计这种变化关系描述局部能量的变化特点,为帕金森病语音诊断提供了一种新的思路。实验结果表明,通过本文方法所提取的梯度统计特征的分类精度要远远高于传统语音特征和深度学习特征的分类精度。同时也要看到,特征维度较大是本文方法的不足之处,因此提取对分类精度影响较大的特征是下一步重点研究的内容。
利益冲突声明:本文全体作者均声明不存在利益冲突。
引言
帕金森病是人类常见的中老年人神经系统变性疾病,其主要症状表现为震颤、肌肉僵直和行为缓慢等。目前虽然有辅酶 Q10[1]、5-羟胺再摄取抑制剂[2]和雷沙吉兰[3]等方法治疗帕金森病,但由于病因尚未完全明确,疾病无法完全治愈,所以对帕金森病的早期诊断显得尤为重要。在帕金森病的早期检测研究中,研究人员根据帕金森病的症状表现提出了一些检测方法,其中包括步态分析[4]、可穿戴传感器[5]、脑电信号分析[6]、生理信号分析[7]、语音信号分析[8]等。研究表明,在 200 名帕金森病患者实验研究中,发现 74.00% 的帕金森病患者受到不同程度的言语障碍影响[9-11],因此,帕金森病的语音信号检测分析引起了人们极大的关注[10-13]。
目前在帕金森病的语音研究中,主要集中在特征提取、特征选择和分类三个方面。在特征提取领域,主要包括传统的时域或频域特征以及时频混合域特征。传统特征提取的方法主要是从语音信号中提取时域和频域中的各种特征,在此方面有大量的研究者做出了巨大的贡献。Little 等[14]根据语音的时频和频域分别提出了基本频率变化测量 Jitter 和振幅变化测量 Shimmer,同时也提出了谐波噪声比(harmonics to noise ratio,HNR)来显示语音信号的噪声特征,还研究了语音信号中的几种非线性测量特征包括动态复杂度和基频变化测量等。Sakar 等[15]增加了不同的音调特征、周期特征和无声中断的特征。提取时域信息或者频域信息的传统方法,在帕金森病语音研究中取得了一定的成就,但是由于只针对时域或者频域提取特征,因而忽略了语音中其他因素带来的直接影响。近年来,越来越多的学者开始关注时域与频域的联合特征描述,促进了以时频混合分析为代表的变换域特征提取的研究。时频混合域是描述信号在时间、频率方面特性时用到的一种二维坐标系。Sakar 等[16]提取了时频特征梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCC)、基于小波变换的特征声音折叠特征和可调 Q 因子小波变换特征(tunable Q-factor wavelet transform,TQWT)。Naranjo 等[17-18]增加了不同阶数的 MFCC。这些报道显示越来越多的学者开始关注时频混合域。此外,有些学者在时频混合域中用深度学习的方法来解决帕金森病分类问题,以时频混合域为基础通过神经网络进行训练,该类方法取得了很好的分类效果[19-20]。
近年来针对时频混合域的研究逐步增多,提示我们在时频混合域进行帕金森病检测可能会有新的突破。因此本文提出了一种基于时频混合域局部统计的帕金森病语音障碍分析方法,该方法基于时频混合域,从能量突变的角度出发,提取了时频混合域能量的梯度统计特征,全面提取了帕金森病语音的时频域能量突变信息,并将提取的梯度统计特征通过 KNN 分类器进行分类,以期实现帕金森病的检测。
1 材料和方法
1.1 数据集描述
在帕金森病语音分析中,大多数学者的研究数据均源于 Little 和 Sakar 提取的语音特征数据[21-24]。但是根据目前国际上对帕金森病原始语音障碍数据的公开情况,Little 并没有公开帕金森语音数据集,因此本文采用的数据集为 Sakar 团队[15]采集的土耳其语帕金森病语音数据集(Sakar’s Parkinson Detection Dataset,SPDD)和本团队[25]采集的汉语发音的帕金森病语音数据集(Chinese Pronunciation Parkinson Detection Dataset,CPPDD)。
SPDD 数据集包括原始语音数据与提取的传统特征数据两部分。该数据集中包括 20 例帕金森病患者(6 例女性,14 例男性)和 20 例健康人(10 例男性,10 例女性),每例受试者分别采集 6 例语音片段(持续元音“a”与持续元音“o”的发音各三遍)。为了确保语音数据的一致性与平稳性,本文将原始语音信号截取 1.5 s 的平稳语音信号作为样本,并对截取的语音信号作进一步筛选,最终得到符合实验标准的语音样本数 411 例。SPDD 数据集中包含原始语音声学特征 Jitter、Shimmer、HNR 等 26 个传统特征[15]如表1 所示,共包含传统特征样本数 1 040 例。

CPPDD 数据集中包含 36 例帕金森病患者(19 例男性,17 例女性)和 32 例健康人(16 例男性,16 例女性)的原始语音数据。其母语均为汉语,对每个受试者采集汉语发音(“a”和“o”),每个音节发音 3 次,每次持续发音 3 s。同样截取 1.5 s 的平稳语音,并对信号进一步筛选,得到的 CPPDD 数据集共包含符合实验标准的语音样本数为 821 例。
1.2 方法
本文通过对语音数据进行时频化表示,将语音数据的时域信息、频域信息、时频混合域信息进行同窗可视化,把语音的时域信号转化到时频混合域,然后通过局部梯度统计方法提取时频混合域能量数据的时域特征、频域特征以及时频混合域特征。最后通过分类器将提取的特征进行训练,将训练好的分类器用于帕金森病语音检测。该算法的整体流程图如图1 所示。

1.2.1 时频化表示方法
时域分析和频域分析是语音信号分析的两种重要方法,但这两种方法均具有局限性:在进行时域分析时,无法直观地展示语音信号的频域特性;在进行频域分析时,语音信号随时间的变换关系也无从展现,因此将时域、频域同时进行展示显得尤为重要。本文通过使用短时傅里叶变换,将语音的时域信息和频域信息同时转换到时频混合域,从而实现时频化表示,如图2 所示。

由图2 可知,健康人和帕金森病患者的语音信号在时域波形和频谱图上均存在差异。在时域上,二者语音信号波形的周期不同,振幅的相对变化也不同;在频域上,二者的频谱在高频和低频的分布也存在差异。故本文综合语音信号的时域和频域信息,在时频混合域分析信号的时频能量谱。从图2 中可直观看出,健康人语音信号的能量分布与帕金森病患者相比,能量分布更加均匀,更具规律性;从语音信号主要能量的分布范围来看,与帕金森病患者相比,健康人语音信号能量分布的范围更加集中。
1.2.2 局部梯度统计
针对时频混合域中的能量分布情况,本文采用局部梯度统计方法进行分析。该方法通过滑动窗口选择局部数据,并对其进行差分化梯度统计处理,从而得到局部数据的统计信息。最后按照滑动窗口的滑动顺序对每个窗口的梯度特征进行统计,得到时频混合域的梯度统计特征。梯度统计特征的具体提取方法如图3 所示。

在图3 局部梯度统计方法中,首先将时频混合域能量数据进行滑窗处理,得到其局部数据,然后对该数据进行规范化处理。处理方法如式(1)所示。
![]() |
在式(1)中,表示时频混合域能量数据指数化的值,
、
表示窗口的顶点位置,
,
。其中l和w分别表示窗口的长度与宽度。
表示顶点为
的窗口内的局部数据。窗移与窗口大小相同。在局部能量数据内进行差分化梯度统计,其统计步骤如下所示:
步骤 1:计算滑动窗口内每个能量数据点在
轴时间分量和
轴频率分量的差分值,分别为
、
,其计算方法如式(2)、式(3)所示。为了能够提取边界的时频混合域能量数据点的差分值,本文在时频混合域能量数据
的外围补充数值为 0 的能量数据。
![]() |
![]() |
步骤 2:计算滑动窗口内每个能量数据的梯度值大小,其梯度值用周边能量点差分值的模值大小来表示,梯度值的计算方法如式(4)所示。表示坐标位置为
的数据点的梯度值。
![]() |
步骤 3:能量数据点的时域分量与频域分量的比值表示该能量点时域与频域信息的混合程度,即用角度表示不同程度的时频混合程度。时频混合程度的计算方法如式(5)所示。
![]() |
步骤 4:根据局部能量数据的梯度值和时频混合程度统计局部窗口内能量的梯度,构建包含时频信息的局部梯度统计特征。将时频混合程度进行量化,如式(6)所示。根据能量数据时频化混合程度对应的量化级别统计能量数据的梯度值。
![]() |
![]() |
式(6)、式(7)表示滑窗内局部梯度统计特征的统计方法,表示量化的单位,
表示量化级别,
表示不同量化级别的梯度统计特征。对梯度统计特征进行归一化,归一化方法如式(8)所示。
为一个极小且不为零的常数,
表示 1 范数。
即为一个滑动窗口内归一化后的梯度统计特征。
![]() |
设实验中所用语音对应的时频混合域的时间长度为
、频率长度为
,则时频混合域对应的窗口数量如式(9)所示。
![]() |
通过统计每个窗口内的梯度统计特征可得到时频混合域能量数据的梯度统计特征,如式(10)所示。
![]() |
因此,的时频混合域梯度统计特征的维数为
。
时频混合域梯度统计特征包含了不同时频混合程度的梯度统计特征值。图4 为梯度统计特征示意图。以一个可视化窗口内的梯度统计特征为例,图中每条线段的长度表示梯度统计值的大小,线段与水平线的夹角表示时域频域的混合程度。

1.3 评估指标
为了说明分类器的分类性能,本文使用准确率(accuracy)、灵敏性(sensitivity)、特异性(specificity)三个指标对分类器进行评估。准确率的计算公式如式(11)所示。
![]() |
其中 TP 是真阳性的数量,TN 为真阴性的数量,FP 是假阳性的数量,FN 为假阴性的数量。灵敏性和特异性分别为正确分类的阳性和阴性结果的统计测量值,如式(12)、(13)所示。
![]() |
![]() |
2 实验结果与分析
为了证明本文方法所提特征的可行性与可靠性,分别在国际公开数据集 SPDD 和 CPPDD 数据集上,按照 1.2 所述的方法进行特征提取,并将提取的梯度统计特征输入 KNN 分类器进行帕金森病分类诊断。在本文的实验中,1.2.2 中各参数的选取如下:滑动窗口的大小为,即
,
,窗移为 8,量化的级别
,
。
在 KNN 分类器中,本文使用欧氏距离进行度量,K 使用的参数为 1、3、5、7、15。由于在数据集的采集过程中,对每个受试者的语音记录有多条,为了避免不同样本之间带来的误差,在实验方法上,采用N折交叉验证与留一样本法交叉验证相结合的方法进行测试。其中N折交叉验证的思路为将全部数据集样本划分为N份,每份互不相交,且每份包含的样本数量相同,轮流将其中的N-1 份做训练集,1 份做测试集;留一样本法交叉验证的思路为轮流将数据集中的 1 个样本作为测试集,其余样本作为训练集。本文在 SPDD、CPPDD 两个数据集上分别采用 5 折交叉(N=5)、10 折交叉(N=10)和留一样本法进行交叉验证。
由于 5 折交叉验证和 10 折交叉验证的结果会因数据集的划分不同而不同,因此本文实验采用多次交叉验证求均值,分别记录了准确率、灵敏性和特异性的均值及标准差,以确保结果的可信度。同时,由于留一样本法交叉验证为无偏估计[19],因此无标准差和最优值。
2.1 本文实验结果及对比分析
表2 为使用 KNN 分类器采用本文的梯度提取方法对国际公开数据集 SPDD 和 CPPDD 中的原始语音信号提取梯度统计特征的分类结果。5 折交叉验证和 10 折交叉验证记录了各项指标的均值和标准差;留一样本法交叉验证记录了各项指标的结果值。

由表2 可知,在 SPDD 数据集上,使用 KNN 对梯度统计特征分类时,得到的最优分类准确率为 97.27%,所对应的 K 值为 3;在 CPPDD 数据集上,使用 KNN 分类器对梯度统计特征分类时,得到的最优分类准确率为 90.81%,所对应的 K 值为 1。
表3 为利用文献[15]所提的方法,将 SPDD 数据集中所提供的如表1 所示的传统特征输入 KNN 分类器进行分类诊断得到的分类结果。5 折交叉验证和 10 折交叉验证记录了准确率、灵敏性和特异性的均值、标准差和最优值;留一样本法交叉验证记录了各项指标的结果值。

由表3 可知,使用 KNN 分类器对 SPDD 数据集中的传统特征分类时,得到的准确率的最优值为 83.45%,整体均值的最优值为 59.20%;而在文献[15]中,采用 KNN 分类器对 SPDD 数据集中所提供的传统特征分类,得到的准确率的最优值为 82.50%,得到的整体均值的最优值为 50.61%。可见,本文得到的实验结果与文献[15]的结果基本相当。
为了更清晰直观地显示 KNN 分类器的分类性能,图5 绘制了表2 中 SPDD 和 CPPDD 数据集下的不同K值的准确率、灵敏性和特异性整体均值分布的折线图。

由图5 可知,随着 K 的增加,在两个数据集上,分类器的评价指标前期变化幅度较小,当 K=7 时,分类器的评价指标下降幅度增加。说明利用本文所提取的梯度统计特征,有很强的聚类性。
为了比较不同语种发音对分类精度的影响,图6 绘制了分别基于 SPDD 数据集与 CPPDD 数据集对梯度统计特征进行分类,分类器取不同 K 值时,准确率、灵敏性和特异性整体均值的折线对比图。

从图6 中可以直观地看出,对 SPDD 数据集上的梯度统计特征进行分类,其准确率、灵敏性和特异性的精度均高于 96.00%,而 CPPDD 数据集上的梯度统计特征分类,三个分类指标均低于 96.00%。从相同方法不同数据集的角度分析,对提取的梯度统计特征进行分类时,SPDD 数据集中的分类准确率、特异性和灵敏性均高于 CPPDD 数据集的各项分类指标精度。这是由于汉语发音采用的是口腔前部发音体系,该体系主要特点是利用口腔前部运动发音,汉语发音对肌肉的控制力要求比较强,与 SPDD 数据集中的土耳其语相比,汉语发音的帕金森病患者的梯度统计特征变化的随机性更强,因此,CPPDD 数据集的分类准确率要低于 SPDD 数据集。
为了比较本文提取的梯度统计特征与传统的特征的分类结果,图7 绘制了 SPDD 数据集下,利用 KNN 分类器对梯度统计特征与传统特征各项分类指标的整体均值对比柱状图。

图7 中通过对 SPDD 数据集中提取的梯度统计特征和传统特征的准确率、灵敏性和特异性三个指标均值进行对比,结果表明在同一数据集、同一分类器中,基于梯度统计特征的各项分类指标精度相对于传统特征各项分类指标的精度约有 30% 的提高,远远高于传统特征的分类精度。
2.2 与其他方法的性能比较
本文从相同数据集、不同研究方法的角度出发,在 SPDD 数据集上,分别选取了文献[15]、文献[19]报告的结果与本文方法进行分类结果对比。其中,文献[15]中所使用的传统特征方法是由 SPDD 数据集的收集者 Sakar 教授提出,文献[19]中所使用的方法是深度学习上最常用的三种深度学习网络;在 CPPDD 数据集上,分别选取了文献[20]和文献[25]与本文方法进行分类结果对比,这两个文献是目前基于 CPPDD 数据集研究的最新文献。
表4 比较了本文方法与上述文献使用的特征提取方法的分类结果。其中,表4 中本文方法(梯度统计特征方法)中的数值选用的是整体均值的最优值,在 SPDD 中,选取的是K=3(或 5)时的整体均值的最优值;在 CPPDD 中,选取的是K=1 时的整体均值的最优值。根据实验对比条件相同原则,表4 中的选取的各项指标的数据均为不同方法下的最优值。

表4 中对比两个数据集上对梯度统计特征与原始传统特征的分类结果,可知在 SPDD 数据集中,文献[15]对传统特征使用 KNN 分类器进行分类,得到的最好结果为准确率 82.50%、灵敏性 85.00%、特异性 80.00%;在 CPPDD 数据集中,文献[25]同样对传统特征使用 KNN 分类器分类,得到的准确率为 74.87%。其结果均低于基于梯度统计特征的分类精度。其原因在于原始的帕金森病语音特征提取方法是通过分别提取时域特征、频域特征来表现帕金森病患者与正常人的语音差别,而本文提出的语音特征提取方法是综合提取语音时域、频域差分值的突变情况,并通过梯度值反映差分值的大小。本文方法的优点体现在以下两个方面:一方面,正常人由于自身的控制能力较强,其各个域的梯度值变化具有一定的规律性,而帕金森病患者由于控制发音的能力相对减弱,导致其各个域的梯度值变化杂乱而没有规律;另一方面,由于采集时会存在噪声,在传统的语音特征提取方法中噪声会对其具有一定的影响,而本文提出的梯度统计方法中,通过统计各个方向的能量变化值,各个方向的噪声能量相互抵消,在一定程度上抑制了噪声,因此本文提出的特征提取方法相对原始的特征提取方法而言,具有更好的结果。
同样,表4 中对本文的梯度统计特征方法与深度学习特征方法的分类结果做比较,本文的分类精度高于深度学习方法。分析主要原因为以下两个方面:一方面,深度学习方法提取语音特征时,通过将语音转化为声谱图,再将声谱图经过了压缩和截取后放入神经网络,图像的压缩和截取会损失声谱图的部分信息,导致神经网络在训练学习时只能学习到语音的部分信息使分类精度降低;另一方面,深度学习网络在训练的时候需要大量的数据,而现有的帕金森病语音数据集相对来说数量较少,对神经网络的适用性较低。
3 结论
本文针对帕金森病语音诊断问题,提出了一种基于时频混合域局部统计的帕金森病语音障碍分析方法,该方法根据语音时频化表示方法对语音信号的时域与频域进行同窗表示,并用梯度统计方法提取帕金森病语音不同时频混合程度的梯度统计特征,最后用 KNN 分类器对提取的特征进行分类诊断。本文通过局部梯度统计特征反映局部能量点与周围能量之间的变化关系,并通过统计这种变化关系描述局部能量的变化特点,为帕金森病语音诊断提供了一种新的思路。实验结果表明,通过本文方法所提取的梯度统计特征的分类精度要远远高于传统语音特征和深度学习特征的分类精度。同时也要看到,特征维度较大是本文方法的不足之处,因此提取对分类精度影响较大的特征是下一步重点研究的内容。
利益冲突声明:本文全体作者均声明不存在利益冲突。