1、武汉科技大学本科毕业论文CELP算法在语音信号处理的应用摘要语音信号处理属于信息科学的一个重要分支,随着通信技术的发展以及互联网语音实时传输技术的迅速发展的需要,为了使同样的信道容量传输更多路的语音信号和节省存储空间,语音编码技术取得了很大的进展。其中线性预测编码(CELP)是中、低速率下比较成功的编码算法。CELP算法采用分帧技术进行编码,帧长一般为30ms,并将每一语音帧分为4个子帧,把在每个子帧内搜索到的最佳的码矢量作为激励信号。CELP使用的是FS-1016标准,该标准基于合成分析(ABS)、感知加权矢量量化(VQ)和线性预测(LP)等技术。它采用10阶线性预测滤波器来模拟语音信号的短
2、时频谱或声道特性,并且采用了两种码本:自适应码本和随机码本。自适应码本用来模拟长时信号或基音的周期激励;固定的随机码本用来逼近经过了矢量量化的短时线性预测和长时预测后的预测误差。译码端合成部分的激励信号由自适应码本和随机码本经过增益加权后得到,感知加权滤波利用人耳的掩蔽效应来提高语音的质量。研究表明,基于FS-1016的CELP编码器能较好地还原语音的时间波形包络,但合成语音的波形图与原始语音波形图有一定的差别,也就是说存在一定的失真现象,所以合成语音质量只能达到通信质量。合成语音在共振峰和基音周期结构上与原始语音比较一致,他们反映了语音信号的主要特征,所以合成语音具有比较良好的可懂度。关键字
3、:CELP算法;自适应码本;固定码本AbstractSpeech Signal Processing information is an important branch of information science.With the needs of the development of communication technology and the rapid development of the Internet voice transmission in real-time technology, in order to make the same channel capacity
4、of the voice signal path transmite more and save storage space, considerable progress of voice coding technology has been made. Among those the linear predictive coding (CELP) is a successful low-rate coding algorithm. CELP algorithm uses sub-frame coding,the length of a frame is usually 30ms, and e
5、ach voice frame is divided into 4 sub-frames, regarding the best code vector signal searched in each sub-frame as an incentive. CELP using the FS-1016 standard, the standard bases on synthetic analysis(ABS), perceptual weighted vector quantization (VQ) and linear prediction (LP) techniques. It uses
6、10-order linear prediction filter to simulate the short-time spectrum or channel characteristics of speech signal, and it uses two types of code: adaptive codebook and random codebook. Adaptive code book is used to simulate the long signal or cycle incentive of pitch; fixed random code is used to cl
7、ose the short-term linear prediction after vector quantization of and the forecast error after long-term forecast .The synthesized excitation signal of decoding part gains from the adaptive codebook and random codebook after weight gain.Perceptual weighting filter using the human ears masking effect
8、 to improve the quality of voice. Studies have shown that the FS-1016-based CELP coder can restore the voice waveform envelope well, but the synthetic speech waveform have a certain difference with the original voice waveform diagram, that is to say there are some distortion phenomenon, so the synth
9、esized voice can only reach communication quality. Synthetic voice agrees with original voice in the formant structure and pitch structure,.They reflect the main features of the speech signal.So it has a comparative good voice intelligibility.Key words:linear predictive coding (CELP); adaptive codeb
10、ook ; random codebook绪论11.1 引言11.2 语音编码技术11.2.1 语音编码技术分类11.2.2 语音编码的发展方向21.2.3 语音编码器的性能指标和质量评测方法31.2.4 论文研究的内容及章节安排42 语音信号的产生模型42.1 语音的发声机理及语音感知42.2 语音信号模型52.2.1 激励模型52.2.2 辐射模型62.2.3 声道模型72.3 本章小结83 语音信号的分析83.1 语音信号的短时分析83.1.1 语音信号的短时能量、短时平均幅度和短时过零率83.1.2,语音信号的短时自关函数和短时频谱93.2 短时基音周期估计113.2.1 基于求短时自
11、关函数的基音周期估计113.3 语音信号同态处理133.4 语音信号线性预测分析153.4.1 线性预测分析的基本原理153.4.2 自相关法183.4.3 基于杜宾递推算法的自相关计算204 4.8kb/s码激励线性预测语音编码204.1 FS-1016标准编码原理204.1.1 编码框图与编码过程214.1.2 线性预测分析与量化214.1.3 CELP码本搜索算法244.1.4 自适应码本搜索与编码264.1.5 固定码本搜索与编码284.1.6 编码参数的比特分配304.2 FS-1016标准译码原理304.2.1 译码框图与译码过程304.2.2 后置滤波与语音合成314.3 本章小
12、结325 结论33参考文献34致 谢35IV绪论1.1 引言 语音编码技术始于1939年Dudley发明的声码器。20世纪80年代的研究主要集中在局域网上的语音通信,1988年美国公布了4.8kbps的码激励线性预测编码(CELP)语音编码标准算法,其音质能达到很高的质量。进入20世纪90年代,随着Internet在全球范围内的兴起和语音编码技术的发展,IP分组语音通信技术获得了突破性的进展和实际应用。就语音编码技术而言,它的根本作用是使语音通信数字化,目前已广泛应用于数字通信系统、移动无线通信、保密语音通信等方面。语音编码技术也可应用于呼叫服务,如数字录音电话、语音信箱、电子留言簿等。与模拟
13、语音通信系统相比,数字语音通信系统具有抗干扰性强、保密性好,易于集成化等优点。在当前正在蓬勃发展的移动通信中,语音编码技术是非常重要的技术。随着通信技术的发展,卫星、微波和光通信系统提供了很宽的频带,但是在很多情况下仍然有着节省频带的需要,同时,利用多余码字对语音信号进行极其复杂的加密的可能性也极大地推动了语音压缩编码在许多方面的应用。1.2 语音编码技术1.2.1 语音编码技术分类语音编码方式有很多种划分方法。从数码率的角度可以将语音编码划分为5大类:高速率(32kbps以上)、中高速率(16kbps32kbps)、中速率(4.8kbps16kbps)、低速率(1.2kbps4.8kbps)
14、和极低速率(1.2kbps以下)。从采用的编码方法的角度还可以分为3类:波形编码、参数编码和混合编码。1.波形编码波形编码是根据语音信号的波形导出响应的数字编码形式,其目的是尽量保持波形不变,使接收端能够忠实地再现原始语音。由于编码器不限于语音,所以很容易给许多非语音信号,背景噪声和多哥讲话音量提供必要的条件,因此必须为这种“声音鲁棒性”付出非常高的数码率,一般为16kbps64kbps。2.参数编码参数编码又称为声码器技术,它通过对语音信号进行分析,提取参数来对参数进行编码。在接收端能够用解码后的参数重构语音信号,参数编码主要从听觉感知的角度注重语音的重现,即让解码语音听起来与输入语音是相同
15、的,而不是保证其波形相同。参数编码语音合成模块的参数集相对较小,能够有效地量化传输,一般对数码率的要求要比波形编码低得多。3.混合编码混合编码是上述两种方法的有机结合,同时从两个方面构造语音编码:一方面增加语音的自然度,提高语音质量;另一方面相对于波形编码实现较低的数码率指标。混合编码使用了精选的激励代表,应用于中等位绿,介于参数编码器和波形编码器之间。1.2.2 语音编码的发展方向21世纪初的语音编码总体上有三个大的发展方向。一个方向是语音编码进一步低速率化,在现代通信中,信道利用的有效性和经济性仍是研究的重要目标,极低速率语音编码技术是语音通信中不可缺少的一个研究方向。另外一个方向是变速率
16、语音编码,随着移动通信的发展,尤其是第三代移动通信的发展,对语音编码算法提出了更高的要求,不但要求编码码率较低以增加系统容量,而且要求合成音质较高以保证通话质量。在这种形势下,提出了变速率语音压缩编码的方法。它可以根据需要动态地调整编码速率,在合成语音质量和系统容量中取得灵活的折衷,最大限度地发挥系统的效能。当然,还有一个发展方向就是语音不压缩,这是因为目前传输带宽增长很快,传输成本大幅度下降,为语音编码付出的费用与所节省的传输费用相比变得不合算了,语音不压缩传输所需费用反而更低。(1)极低速率语音编码极低速率语音编码是指比特率低于2400bit/s的语音编解码器,在保密通信、语音邮件、网络通
17、信、IP电话等领域有广泛的应用前景,特别是在信息化战场上广泛应用于单兵作战通信设备上。近年来,极低速率语音压缩编码有了很大的发展。2.4kbit/s的语音编码算法逐渐成熟,出现了一些成功的算法,例如多带激励(MBE)声码器,混合激励线性预测(MELP,Mixed Excitation Linear Prediction)声码器等。但是如何在更低的速率上,获得较高质量的合成语音,仍然是一个巨大的挑战。在进一步降低速率时,由于没有足够比特描述谱包络和残差信号,合成语音质量会受到严重影响。另外一些研究者提出的极低速率语音编码算法是在2.4kbit/s LPC(Linear Predictive Co
18、ding,线性预测编码)声码器的基础上,利用矢量量化技术和帧间相关性作进一步的数据压缩。(2)变速率语音编码变速率语音编码是指在通信过程中,通信系统根据需要动态地调整语音编码速率,在合成语音质量和系统容量中取得灵活的折衷,最大限度地发挥系统的效能。在当前应用广泛、前景广阔的码分多址(CDMA)移动通信系统中,采用的变速率语音编码算法对于系统的容量和通话质量有非常重要的影响。随着技术的成熟,它的应用领域也越来越广阔,不仅限于移动通信系统,在IP电话、互联网和卫星通信中都有很好的应用前景。(4)不压缩语音编码极低速率语音编码和变速率语音编码是21世纪初语音编码的主要发展方向,但也有一些通信系统仍然
19、采用不压缩语音编码。这是因为目前传输带宽增长很快,特别是光纤通信的发展,使得传输成本大幅度下降,为语音编码付出的费用与所节省的传输费用相比变得不合算了,语音不压缩传输所需费用反而更低。因此这些系统就采用了不压缩的语音编码算法,大多数直接利用PCM编码进行传输,这样可以保证很高的语音通信质量和比较简单的通信设备,大大的降低了通信费用。不压缩语音编码主要应用于地面微波通信和光纤通信系统中。由于这种算法简单,对于侦察和分析都十分容易,因此在这里就不再作详细介绍。当然,语音编码除了上述三个总体的发展方向以外,寻找最佳的语音激励模型和对人类听觉系统机理的不断认识将是近一段时间内的基础性研究工作。1.2.
20、3 语音编码器的性能指标和质量评测方法 一般通过衡量比较各种语音编码器或语音编码算法的性能指标来评价语音编码器的好坏.这些指标包括编码速率、语音质量顽健性、时延计算复杂性和算法的扩展性等。1. 编码速率降低编码速率往往是语音编码的首要目标,它直接关系到传输资源的有效利用和网络容量的提高,又称比特率,可以用“比特/秒(b/s)”来度量。在语音通信系统中,它决定编码器工作时占用的信道带宽。一般普通电话的速率为16 kb/s 64kb/s,数字蜂窝移动电话和卫星电话编码器的编码速率为3.3 kb/s13 kb/s,保密电话的编码速率为0.8 kb/s4.8 kb/s。2. 顽健性编码器的顽健性(ro
21、bustness)是通过取多种不同来源的语音信号进行编码解码,并对输出语音质量进行比较测试得到的一种指标。例如:取不同发音人的语音、各种背景噪声下的语音、用各种麦克风或不同频响的放大器录制的语音、非语音声音等。在应用于通信系统时,编码器要适应各种各样的情况。3. 时延编码器时延由4部分组成:算法时延、计算时延、复用时延、传输时延,这四部分之和称为单向系统时延,粗略估计至少为3个帧长。语音通信对于时延有较高的要求。对于交互式通信来说,单向延时大于150ms就可感受到通信连续性受到影响,最大可容忍时延为400ms500ms,超过此值只能进行半双工通信。对于具有回声的情况,单向时延不能超过25ms,
22、否则就需要装备回声抑制功能。4. 计算复杂度计算复杂度是指在算法实时实现的容易程度。其主要影响实现的成本。目前,随着高速数字处理器件(DSP)和大规模集成电路技术(VLSI)的发展,关于计算复杂度的矛盾不再突出,而编码算法的压缩比、顽健性、合成语音音质等,是现今低速率语音编码技术研究的主要矛盾。5. 编码质量语音编码质量是衡量语音编码算法优劣的关键性能之一。它的评价方法归纳起来有两类,即客观评价方法和主观评定方法。客观评定方法用客观测量的手段来评价语音编码质量。常用的方法有信噪比、频率失真以及谱包络失真等。客观评价标准计算方法相对简单,不能完全反映人耳对语音质量的感觉,这个问题在速率16kb/
23、s以下的中低速率语音编码中显得尤其突出,所以实际中广泛采用的是主观评定方法。主观评定方法国际上常用的有平均意见得分(MOS)、判断韵字测试及判断满意度测量(DAM)等。1.2.4 论文研究的内容及章节安排 第二章阐述了语音信号产生的生理原理,人耳对于语音信号感知的生理特点,在此基础上提出了语音信号产生的数学模型。 第三章介绍了语音信号的短时分析方法、语音信号的同态处理方法以及语音信号的线性预测方法,此外还说明了基音周期的估计方法。 第四张介绍了码激励线性预测编码解码器的原理及其结构,阐述了自适应码本的搜索方法及固定码本的搜索方法,以及两种码本的增益的求解方法。2 语音信号的产生模型2.1 语音
24、的发声机理及语音感知人的发声器官由三个子系统组成:(1)肺和气管产生气源;(2)喉和声带(相当于笛膜)称为声门;(3)由咽呛、口腔、鼻腔组成的声道(相当于笛管)。肺的发音功能主要是产生压缩气体,通过气管传送到声音生成系统。成年男性声道的长度为17cm。当声波通过声道时,其频率高低受声道共振的影响。这种共振与声道不同区段形状有关,声道的形状变化由舌、软腭、唇所决定。语音的听觉感知是一个复杂的人脑及心理过程。对听觉感知的研究还很不成熟。听觉感知的试验主要还在测试响度、音高和掩蔽效应等。入耳听觉界限的频率范围大约为20Hz20KHz。语音在频率范围低端,感觉声音变成低频脉冲串,在高端感觉声音减小直至
25、完全听不到一点声响。语音感知的强度范围是0130dB 声压级,声音强度太高,感到难以忍受,强度太低则感到寂静无声。一个声音的听觉感受性受同时存在的另外一个声音的影响,这个现象称为人耳的“掩蔽效应”。此时前者称为被掩蔽音,后者称为掩蔽音。在掩蔽情况下,被隐蔽音的听阐会提高,即加大被掩蔽音的强度才能听到。低频的纯音可以有效地掩蔽高频的纯音。对于中等掩蔽强度来说,纯音最有效的掩蔽出现在它的频率附近。利用人耳的掩蔽效应,在进行语音压缩时,让量化噪音的频谱跟随语音信号频谱包络变化,这时共振峰的频率成分就会掩蔽掉量化噪声,这个技术称为噪声整形或听觉加权处理。2.2 语音信号模型 由发音机理和语音生成模型可
26、知,有三部分作用施加在语音的声波上。分别是由声门产生的激励函数G(z);由声道产生的调制函数V(z)和由嘴唇产生的辐射函数R(z)。语音信号的传递函数由这三个函数级联而成: H(z)=G(z)V(z)R(z) (2.1)下面各小节,将建立这三个函数的数学表达。2.2.1 激励模型发浊音时,由于声门不断开启和关闭,产生间隙的脉冲。经仪器测试它类似与斜三角形的脉冲,也就是说,这时的激励波是一个以基音周期为周期的斜三角脉冲串。 三角形波的数学表达式为: (2.2)式中 ,N1为斜三角波的上升时间,N2为其下降时间,单个斜三角波的频谱G()表现出一个低通滤波器的特性。可以把它表示成z变换的全极点形式:
27、 (2.3)这里c是一个常数,显然上式表示斜三角波形可以描述为一个二极点模型。因此,作为激励的斜三角波串可以用一串加了权的单位脉冲序列去激励上述单位斜三角波模型实现。这个单位脉冲串和幅值因子可以表示成下面的z变换形式: (2.4)在发清音的场合,声道被阻碍形成湍流,所以可以模拟成随机白噪声。因此,可将激励模型表示成图2.1的结构:图2.1 二元激励的语音发声模型图 2.1 所示的二元激励模型,在早期语言信号处理研究中使用了许多年。尽管人们认识到二元激励过于简化,对于鼻音和擦音,模型还应考虑零点。对于浊擦音要浊音和清音两种激励,并且两种激励不足简单的叠加关系。但是直到八十年代中期开始,新的激励模
28、型才开始取代二元激励模型。八十年代中期人们开始在一个基音周期内采用多个脉冲来构造激励模型,新的激励方法本质上可以归结为存储器模型。就是说将可能的各种激励预先放在存储器内,通过某种判据决定哪一种激励是当前信号的最佳激励,并把这个最佳激励的存储地址作为激励的表征,例如码激励模型或矢量激励模型等。存储器内容随时间变化的部分称为自适应码书,自适应码书的搜索等价于基音检测。2.2.2 辐射模型从声道模型输出的是速度波u1(n),而语音信号是声压波P1(n),二者倒比称为辐射阻抗Z1,它表征口唇的辐射效应。如果认为口唇张开的面积远远小于头部的表面积,利用单板开槽辐射的处理方法,可以得到辐射阻抗: (2.6
29、)式中:。这里 a 是 口唇张开的半径,c是声波传播速度。由辐射引起的能量损耗正比于辐射阻抗的实部,其频响曲线表现出一阶高通滤波器的特性。在实际信号分析时,常用所谓预加重技术,即:在取样之后加入一个一阶高通滤波器。这样模型只剩下声道部分,对参数分析就方便了。在语音合成时再进行解加重处理。常用的预加重因子,这里R(n)是信号s(n)的自相关函数,自相关函数,对浊音R(1)/R(0)*1,对清音该值可取得很小。2.2.3 声道模型典型的声道模型有两种:无损声管模型和共振峰模型,通过两种方法得到的数字模型本质上没有区别.1.共振峰模型当声波通过声道时.受到声腔共振的影响,在某些领率附近形成谐振。反映
30、在信号频谱图上,在谐振频率处其谱线包络产生峰值,一般把它叫作共振峰。由于入耳听觉的柯替氏器官的纤毛细胞按照频率感受排列其位置,所以这种共振峰的声道模型非常有效。从物理声学可以容易推导出均匀断面的共振峰频率。例如对成人声道17cm 长,其共振峰频率计算公式为: (2.7)i是共振频率的序号,c为声道,L为声管长度。按此算出前三个共振频率为:=500Hz,=1500Hz,=250Hz 。由于发音时声道形状很少是均匀断面的。因此必须通过语音信号来计算共振峰。一个二阶谐振器的传输函数可以写成: (2.8) 实践表明,用前三个共振峰代表一个元音足够了。对于较复杂的辅音或鼻音共振峰的个数要到五个以上。多个
31、叠加可以得到声道的共振峰模型: (2.9) 2.语音信号数字模型前几节我们分别得到了语音信号激励模型G(z),辐射模型R(z)和声道模型V(z),并且知道它们的级联组合形式为ARMA模型。这说明语音信号数字模型的传递函数为: (2.10)一般情况下,极点个数取8-12个,零点个数取3-5个,在采样率为8k或10k时H(z),在10-30ms范围内可以很好的反映语音信号的特征。根据随机过程理论,一个零点可以用若干极点来逼近。因此,适当选取极点个数p,可以用全极点模型过程来表达语音信号: (2.11)在早期LPC二元激励模型下,极点个数p一般选为10。对于延时较短或采用后向滤波时,对模型要求较产,
32、必须加入零点或增加极点个数。如ITU G.728标准采用50阶滤波器作信号模型,取得较好效果。实际上,对于男生来说,取20个极点己经足够了,考虑到女生后,阶数可以加大到30阶。2.3 本章小结本章内容阐述了语音信号产生的生理原理,人耳对于语音信号感知的生理特点,在此基础上提出了语音信号产生的数学模型,以便于进一步的分析和处理。3 语音信号的分析语音信号分析大体上有时域、频域、倒谱域等分析方法。但是按语音学观点,可将它分为模型分析法和非模型分析法两种。模型分析法是依据语音信号的数学模型的理论来求得这些模型参数,而将其它分析方法笼统地归于非模型分析法中。模型分析法中的各种模型只适合于信号是平稳或局
33、部平稳的情形。由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,而这种肌肉运动相对于语音频率来说是极缓慢的,因此一般认为在10ms-30ms的短时间内语音信号是平稳的,所以完全可以用短时平稳的分析方法。3.1 语音信号的短时分析3.1.1 语音信号的短时能量、短时平均幅度和短时过零率这是语音信号的一组最基本的短时参数,在各种语音信号数字处理技术中都要进一步应在计算这些参数时使用的一般是方窗或汉明窗。当窗w(n)的起点n=0时,语音信号的短时能量用表示,其计算公式如下: (3.1)如果窗w(n)的起点不是n=0而是某个其它整数m,那么相应的短时能量用表示,其取和限为n=m(N+m-
34、1)。窗起点为n=0时,语音信号的短时平均幅度用表示,其计算公式为: (3.2)同样,当窗的起点为任意整数m时,可表示为此。也是一帧语音信号能量大小的表征,它与的区别在于计算时小取样值和大取样值不因取平方而造成较大差异,在某些应用领域中会带来一些好处。当窗起点为n=0时,语音信号的短时过零率用表示,以表示一帧语音中语音信号波形穿过横轴(零电平)的次数、它可以用相邻两个取样改变符合的次数来计算如下: (3.3)表示取符号,即: (3.4)同样,当窗的起点为任意整数m时,过零率用表示。3.1.2,语音信号的短时自关函数和短时频谱设 是一段加窗语音信号,它的非零区域为n=0(N-1)。的短时自关函数
35、用表示,它的计算公式是: (3.5)易 于 证 明,是偶函数,即用=。在l=(-N+1)(N-1)的范围之外为0,只的最大值在1=0处,且Rw(0)等于加窗语音的平方和,即: (3.6)的离散时域傅里叶变换(DTF)称为的短时频谱,可以用下列公式计算: (3.7) 便称为sw(n)的短时功率谱。假设s(n)的DTFT 是,且窗函数w(n)的DTFT是,那么是和的周期卷积。又由于方窗的有较大的上下冲,采用方窗时求得的与的偏差较大,这就是Gibbs效应。为了减小其影响,在求短时频谱时一般采用具有较小上下冲的哈明窗。在语音信号数字处理中,都是采用的离散傅里叶变换(DFT)来替代,并且可以用高效的快速
36、傅里叶变换(FFT)算法完成由至 的转换。为了使具有较高的谱分辨率,所取的DFT以及相应的FFT点数N:较的长度N要大,例如,在通常采样率为8kHz且帧长为20ms时N=160,而一般取为256、512或1024。为了将的点数从N扩大为负:,可以在扩大的部分添若干个0取样值。FFT的计算可以在通用计算机上由相应的算法软件来完成,这种方式一般只能实现非实时运算。为了完成实时运算可以采用先进的数字信号处理芯片(例如TMS32Dc25 或c30)、阵列处理芯片或专用FFT芯片,甚至可以采用人工神经网络。为了完成1024点的FFT,这些专用芯片所需的运算时间是几十毫秒至几毫秒,甚至可以降至l ms以下
37、。可以证明,是的DTFT,这可以表示如下:: (3.8)短时自关函数和短时频谱(或短时功率谱)是语音信号非常重要的一对短时参数,分别在时域和领域中表征了语音信号的一些主要特征。它们除了直接用于实现各种语音信号分析、处理以及完成各种应用技术以外,还是其它算法的基本参数。如果 ,s(n) 的是一个浊音性的周期信号,那么它的短时自关函数也呈现出明显的周期性,而且皮R,(l)的周期即等于s(n)的周期。相反,清音语音接近于随机噪声,它的短时自关函数不具有周期性且随着1的增大而迅速减小。因此可以利用这个特点来判断一个语音是浊音还是清音,还可以藉以决定一个浊音的基音周期(或基音频率)。在决定基音周期时,利
38、用了短时自关函数在基音周期的各整数倍点上具有较高的峰起值。为了求基音周期,还可以来用短时平均幅度差函数(AMDF),它的计算公式是: (3.9)对于周期性的(n),也呈现周期性,与相反的是在周期的各个整数倍点上具有谷值而不是峰值,因此可以用的计算来确定基音周期。的计算只涉及加减和求绝对值,而则需要用相乘运算,因此前者的运算要更加简单和快捷。在估计基音周期时,无论是还是计算所用的W(n)应使用方便窗。此外,为改善估计结果,窗长应选得比20tns更长一些,以使中包含足够多个语音周期。3.2 短时基音周期估计基音周期是语音信号最重要的参数之一,根据加窗的短时语音帧来估计基音周期,在语音编译码器、语音
39、识别(对于汉语来说,四声识别就是以基音周期估计为基础的),说话人确认和辨识以及生理缺陷人辅助系统等许多领域中都是重要。基音周期估计的方法很多,在这里将介绍基于求短时自关函数和基于求短时AMDF的两种算法。3.2.1 基于求短时自关函数的基音周期估计由于短时关函数在基音周期的各个整数倍点上有很大的峰值,只要找到第一最大峰值点的位置并计算它与l=0点的间隔,便能估计出基音周期。实际上并不是这样简单,第一最大峰值点的位置有时不能与基音周期相吻合。产生这种情况的原固有以下两个方面:第一方面与窗的长度有关,一般认为窗长至少应大于两个基音周期,才可能有较好效果,语音中最长基音周期值约为20ms(这相当于基
40、音频率为50Hz),因而在估计基音周期时窗长应选得大于4Oms为宜;第二方面与声道持性的影响有关,有的情况下即使窗长已选得足够长,第一最大峰值点与基音周期仍不一致,这就是声道的共振峰特峰特性造成的“干扰”。为了克服这个困难,可以从两条途径来着手解决。第一条是减少共振峰的影响,最简单的方法是用一个带宽为60一9OOHz 的带通滤波器对语音信号进行滤波,并利用滤波信号的自关函数来进行基音信计。这个滤波器可以放在对语音信号采样前(模拟滤波),也可以放在采样后(数字滤波)。之所以将此滤波器的高端截频置为900Hz,是因为既可以去除大部分共振峰的影响,又可以当基音频率为最高450HZ 时仍能保留其一二次
41、谐波.低端截频置为60HZ 是为了抑制50Hz电源千扰。另一种更有效的方法是让语音信号通过一个线性预测(LPC)逆滤波器,并通过求其残差信号的自关函数来估计基音周期。第二条途径是对语音信号进行非线性变换后再求自关函数。一种有效的非线性变换是“中心削波”.若输入语音信号为x(n)冲心削波的输出则为,函数表达式如下: (3.10)削波电平之值取为该段语音最大采样值的68%。基于短时A州DF的基音周期估计用 短 时 自关函数进行基音周期估计时是寻找它的最大峰值点的位置,而用短时AMDF 进行基音周期估计时是寻找它的最深谷值点的位置。事实上,和有密切的关系,二者之间的关系可以由下式表达(其中B(l)是
42、随1做平缓变化的固定函数):(3.11)和短时自关函数的情况相同,用进行基音周期估计时如果能去除输入语音中声道特性或共振峰的影响以及采用中心削波变换,都能改善估计的效果。对于用AMDF进行基音周期估计可以进行几点评价;( 1)在基音周期点,它的谷点锐度较之短时自关函数的峰点锐度更尖锐,因此估值精度更高、更稳健。(2)由于计算AMDF时无需乘法,因此其计算量较短时自关函数小。(3)如果对语音信号进行谱平滑去除共振峰影响和中心削波变换等处理,同样可以明显改善基音周期估计的效果。(4)AMDF对于语音信号幅度的快速变化比较敏感,它影响估计的精度.3.3 语音信号同态处理同态处理方法是一种设法将非线性
43、问题转化为线性问题来进行处理的一种方法,它能将两个信号通过乘法合成的信号,或通过卷积合成的信号分开。对于语音信号,我们的目的是要从声道冲激响应分量与激励分量的卷积中分开各原始分量。卷积同态系统服从广义叠加原理,叠加原理可以象普通线性系统历表示的那样,写成: (3.12)(3.13)其中L表示线性算子。叠加原理可以简述如下:如果输入信号是若干基元信号的线性组合,则系统输出是各个对应系统的线性组合。通过模仿普通线性系统的叠加原理,我们能定义一类系统,它服从广义叠加原理,其中加可由卷积代替。即有: (3.14)同理如果一个系统具有上式所表示的性质,则称之为卷积同态系统,卷积同态系统由三部分组成:第一
44、部分为卷积同态系统的特征系统D.,其输入是若干信号的卷积组合,而输出为若干信号的加法组合。特征系统D.有下述性质:(3.16)第三部分是特征系统D.的逆系统,它将信号的加法组合变换回卷积组合。逆特征系统(3.17)按照卷积定理,如果在时域上是两个信号的卷积,则其z变换是两个信号:变换的乘积,利用z变换表示卷积组合可变为乘法组合。再利用对数特性,可将乘法组合变为加法组合,再进行z逆变换,输出信号仍为加注织合,这就构成了卷积同态系统的特征系统,如图3.1所示。ZLogZ-1x(n)图3.1卷积同态系统的特征系统x(z)在图3.1中有: = (3.18) (3.19)卷积同态系统的逆特征系统,如图3.2所示:ZexpZ-1图3.2卷积同态系统的逆特征系统在 图3.2中有:(3.20)(3.21) (3.22)3.4 语音信号线性预测分析线性预测分析法是最有效的语音分析技术之一,它所包含的基本概念是:一个语音取样的现在值可以用若干个语音取样过去值的加权线性组合来逼近。在线性组合中的加权系数称为预测系数。通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小值,能够决定唯一的一组预测系数。线性预测的基本原理是建立在语音的数字模型基础上,为估计数字模型中的参数,线性预测法提供了一种可靠精确而有效的方法。3.4.1 线性预测分析的基本原理线性预测分析是建立在语音产生的数字模型基础上的15,其