从物理原理来看,语音信号是由肺挤压出的空气激励发声器官振动产生的。说话时声带相互靠拢但不完全封闭,这样声门变成一条窄缝,当气流通过时其间压力减小,从而声带完全合拢使气流不能通过;在气流被阻断时压力恢复正常,因而声带间形成空隙,气流再次通过。这一过程周而复始,就形成了一串周期性的脉冲气流送入声道。如图1所示。这个脉冲串的周期称为“基音周期”,其倒数是“基音频率”。男性说话时的基音频率在60-200Hz范围内,女性和小孩在200-450Hz之间。以上这种方式发出的音就是浊音。
图1 典型的声门脉冲串波形
通过对声管的研究,发现它可以用若干截面积不等的均匀管道级联起来描述,如图2,一般称作级联无损声管模型。采用流体力学的方法可以证明每一截面均匀的管道能够用一个单极点模型来近似,这样N端管道组成的声管就可以用一个N阶全极点滤波器表述,即:
V(z) = G/(∏_(k=1)^N▒〖(1-p_k z^(-1))〗) = G/(1-∑_(k=1)^N▒〖a_k z^(-k) 〗)
对于典型的男声,N = 10,所有的极点pi要分别构成共轭对以保证{ai}系数都是实数。再综合考虑清音信号,就可以得到语音信号产生的离散语音模型
1