基于谱减法的语音增强技术研究（毕业论文doc）.doc可修改原格式下载

资源描述

1、基于谱减法的语音增强技术研究摘要: 本文主要研究目的是增强语音质量，减少语音失真和提高其可懂度。首先介绍了语音增强的发展状况及研究意义，详细对比分析了各种语音增强算法的优缺点，着重研究了语音增强的相关基本理论。在以上研究分析的基础上，本文采用了谱减法进行语音增强，给出谱减法的基本原理和实现过程。此外，本文采用语音激活检测(VAD)方法进行噪声估计。整个算法用MATLAB进行模拟仿真，仿真结果表明，所提出的算法在去除背景噪声的同时，保证了较小的语音失真，主观测听效果也比较理想。关键词:语音增强；谱减法；噪声估计；语音激活检测IIStudy of Speech Enhancement Techn

2、ology Based on Spectral SubtractionAbstract: The purpose of this paper is to improve speech quality, to reduce speech distortion, and improve speech intelligibility. We first introduce the development and significance of speech enhancement, and give a detailed comparison of various speech enhancemen

3、t algorithms. Especially, we study the basic theories of speech enhancement. Then, on the analysis above, we use spectral subtraction to improve speech quality, and also introduce basic principle of spectral subtraction. Furthermore, we adopt the noise estimator based on Voice Activity Detection (VA

4、D) to estimate noise. In the experiment of this paper, the speech enhancement algorithm is implemented on computer with MATLAB. The simulation result indicates that the algorithm can eliminate noise very well, ensure the smaller voice distortion and also more pleasant to a human listener.Key words:

5、speech enhancement; spectral subtraction; noise estimation; VAD成都理工大学毕业设计(论文)目录第1章前言11.1 课题研究背景11.2 语音增强的历史和发展现状21.3 本文主要研究内容4第2章语音增强的理论基础62.1 人耳感知特性62.2 语音特性分析62.3 噪声分类及其特性72.4 语音信号的短时处理82.4.1 语音信号预处理82.4.2 语音信号加窗分帧92.4.3 语音信号的短时傅立叶变换92.5 语音增强性能102.5.1 语音质量的主观评价102.5.2 语音质量的客观评价11第3章基于谱减法的语音增强

6、技术133.1 谱减法的基本原理133.2 谱减法建立的假设153.3 “音乐噪声”的产生163.4 语音端点检测技术163.5 基于谱减法的语音增强算法流程183.6 实验结果与分析19结论23致谢24参考文献25附录26第1章前言1.1 课题研究背景人们在语音通信过程中不可避免地会受到来自周围环境、传输媒介引入的噪声、通信设备内部电噪声乃至其他讲话者的干扰。这些干扰最终将使接收者接收到的语音已非纯净的原始语音信号，而是受噪声污染的带噪语音信号1。例如，安装在汽车、飞机或舰船上的电话，街道、机场的公用电话，常受到很强背景噪声的干扰，严重影响通话质量。又如，室内会议电话的交混回响随同

7、语音广播到每个会议地点，影响收听效果。再如深海潜水员在氦-氧面罩内讲话引起的失真，语言障碍残疾人的语音失真，有历史价值的旧唱片、旧录音带的噪声和失真等，都是带噪语音信号的例子。环境噪声污染使许多语音处理系统的性能急剧恶化。例如，语音识别2己取得重大进展，正在步入实用阶段。但目前的识别系统大都是在安静环境中工作的，在噪声环境中尤其是强噪声环境，语音识别系统的识别率将受到严重影响。低速率语音编码，特别是参数编码，也遇到类似问题。由于语音生成模型是低速率参数编码的基础，当模型参数的提取受到混杂在语音中背景噪声严重干扰时，重建语音的质量将急剧恶化，甚至变得完全不可懂。在上述情况下，语音增强作为一种预处

8、理手段，不失为解决噪声污染的一种有效途径。在实际需求的推动下，早在上个世纪60年代语音增强这个研究课题就引起人们的注意，此后40多年人们一直锲而不舍地进行这方面的研究。随着数字信号处理理论的成熟，70年代曾形成一个理论研究高潮，取得了一些基础性成果，并使语音增强发展成为语音信号处理的一个重要分支。进入80年代后，DSP(数字信号处理)技术的发展和成熟为语音增强的实时实现提供了可能。语音增强不但与语音信号数字处理理论有关，而目涉及到人的听觉感知和语音学范畴。再者，噪声的来源众多，随应用场合而异，它们的特性也各不相同。即使在实验室仿真条件下，也难以找到一种通用的语音增强算法能适用于各种噪声环境，所

9、以必须针对不同噪声，采用不同的语音增强对策。目前，某些语音增强算法在实际应用中己经证明是有效的，它们大体上可分为四类2：噪声对消法、谐波增强法、基于参数估计的语音再合成法和基于语音短时谱估计的增强算法。语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而，由于干扰通常都是随机的，从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下，语音增强的目的主要有两个：一是改进语音质量，消除背景噪音，使听者乐于接受，不感觉疲劳，这是一种主观度量；二是提高语音可懂度，这是一种客观度量。这两个目的往往不能兼得。目前有一些对低信噪比带噪语音进行语音增强的方法，可以显著地降低背景噪声，改进语音

10、质量，但并不能提高语音的可懂度，甚至略有下降。语音增强是语音信号处理的一个重要分支，该技术已广泛应用于无线电话、电话会议、场景录音和军事窃听等领域。语音增强技术无论在日常生活中，还是在军事领域，或者在语音信号处理技术中都很有应用价值。因此研究语音增强算法有很重要的实用价值。1.2 语音增强的历史和发展现状语音增强方法的研究始于20世纪70年代中期，随着数字信号处理理论的成熟，语音增强发展成为语音信号处理领域的一个重要分支。1978年，Lim和Oppenheim提出了语音增强的维纳滤波方法。1979年，Boll提出了谱减方法来抑制噪声。1980年，Maulay和Malpss提出了软判决噪声抑制方

11、法。1984年，Ephraim和Malah提出基于MMSE短时谱幅度估计的语音增强方法。在近30年的研究中，各种语音增强方法不断被提出，奠定了语音增强理论的基础，并使之逐渐走向成熟。近些年来，随着VLSI技术的发展和高速DSP芯片的出现，使语音增强的实时实现成为可能。语音增强方法逐步走向实用，同时新的语音增强方法又相继涌现，如基于小波变换的方法，基于人耳掩蔽效应的方法3等。目前常用的语音增强算法分为如下几类4：基于谱减法的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法、基于听觉掩蔽效应的语音增强方法、基于独立分量分析的语音增强方法、基于神经网络

12、的语音增强方法。语音增强算法可从信号输入的通道数上分为单通道的语音增强算法与多通道的语音增强算法。单通道语音系统在实际应用中较为常见，如电话，手机等。这种情况下语音与噪声同时存在一个通道中，语音信息与噪声信息必须从同一个信号中得出。一般这种语音系统要求噪声要比较平稳，以便在非语音段对噪声进行估计，再依据估计出来的噪声对带噪声的语音段进行处理。如果语音系统是一个多通道的语音系统，各个通道之间存在着某些相关的特性，这些相关特性对语音增强的处理十分有利。如在自适应噪声对消法的语音增强方法中，采用了两个话筒作为输入，一个采集带噪的语音信号，另一个用来采集噪声。从噪声通道所采集的噪声直接当作带噪语音的噪

13、声，并将它从带噪声语音信号中减去就可得到纯净的语音。另一种多通道的语音增强算法是采用阵列信号，这种方法采用多个以一定方式排列的采集设备接收信号。由于不同独立的信号源与各个采集设备之间的距离不同，最后在各个接收设备中的合成信号也会不同，再根据这些信号将各个独立信号分离出来。有关多通道谱减法以及其他消除噪音方法不是本文重点，故不再提及，下面就只简单介绍一下单通道输入的语音增强算法。1) 谐波增强算法由于语音中的浊音具有明显的周期性，这种周期性反映到频域中则为一系列分别对应基频(基音)及其谐波的一个个峰值分量，这些频率分量占据了语音的大部分能量，我们自然可以利用这种周期性来进行语音增强。这时可采用自

14、适应梳状滤波器来提取基音及其谐波分量，抑制其他周期性噪声和非周期的宽带噪声。由于语音是时变的，语音的基音周期也是不断变化的，能否准确地估计出基音周期以及能否及时跟踪基音变化，是这种基于谐波增强法的关键。2) 基于短时谱估计的语音增强算法基于语音短时谱估计的增强方法种类繁多，如谱减法、维纳滤波法、最小均方误差法等。这种方法力图获得语音信号频谱幅度的最优估计，是从观测序列中以最小均方误差准则估计语音信号正交展开系数的模值。该类方法具有适应信噪比范围大、方法简单、易于实时处理等优点。尽管该方法研究比较早，但仍具有很强的生命力，成为应用最广泛的语音增强方法。3) 基于语音生成模型的增强算法语音的发声过

15、程可以建模为一个线性时变滤波器，对于不同类型的语音采用不同的激励源，如对于浊音，激励源为周期与基音相同的周期性脉冲串；而对于清音，激励源为高斯白噪声。在语音的生成模型中，应用最广泛的是全极点模型。基于语音生成模型可以得到一系列语音增强方法，比如时变参数维纳滤波及卡尔曼滤波方法。维纳滤波的背景噪声白化效果很好；卡尔曼滤波能有效消除有色噪声，而且可以进行在线处理。但基于语音生成模型的增强方法运算量比较大，系统性能也有待于进一步提高。4) 基于小波分解的增强算法小波分解法是随着小波分解这一新的数学分析工具的发展而发展起来的，随着小波理论研究的不断深入，小波分析的应用范围越来越广。在语音去噪方面，主要

16、有两个算法：一是S.Mallat和S.Zhong于1992年提出的模极大值法；二是由D.L.Donoho和LM.Johnstone于1995年提出的小波阀值去噪法。5) 基于听觉屏蔽的增强算法听觉屏蔽法是利用人耳的听觉特性的一种增强算法。人耳可以在强噪声的干扰下分辨出需要聆听的信号，也可以在多个说话者同时发声时分别将它们提取出来。正是由于以上这些原因，人们对听觉屏蔽法寄予了厚望，有理由相信，随着人们对人耳特性了解的加深，听觉屏蔽法会更深入的发展。对于基于人耳掩蔽效应的语音增强方法，主要有两种思路：一种是以对谱减法的改进为出发点，利用估计得到掩蔽门限；另一种是以对噪声的直接掩蔽为基本思路，以估计

17、得到的掩蔽门限建立一种原则。6) 两态软判决最大似然包络估计器在实际中语音信号是随机出现于观测信号中的，如果能考虑语音信号存在的不确定性，则应能得到更好的估计器，两态软判决最大似然包络估计就是基于这种考虑得出的，在两态软判决最大似然包络估计器中有体现语音事件发生的概率因子。1.3 本文主要研究内容本文分析采用基于语音激活检测(Voice Activity Detector)噪声估计方法进行噪声估计，并采用了递归平滑的方法更新噪声谱，在此基础上应用谱减法进行语音增强，对谱减后的语音谱进行了递归平滑处理，从而使处理后的语音更为接近纯净语音信号，取得了较好的语音增强效果。本论文用MATLAB语言实现

18、了整个算法的仿真试验，试验结果表明，该算法可以很有效的提高语音听觉质量，其计算复杂度也不高。论文章节安排如下：第一章介绍了语音增强的研究意义，概述了国内外语音增强和谱减法的语音增强的研究概况，最后给出了本文的主要研究内容。第二章对语音增强相关理论基础进行了研究。在这一部分我们首先分析了人耳感知、语音特性和噪声特性，然后介绍了语音增强性能。第三章对谱减法的语音增强技术作了深入分析研究，结合语音激活检测(Voice Activity Detector)噪声估计方法进行噪声估计，给出算法实现流程，使用MATLAB模拟实现了整个语音增强功能。最后对论文进行了总结，并提出了对论文进一步研究的建议。

19、第2章语音增强的理论基础2.1 人耳感知特性因为语音增强效果最终取决于人的主观感受，所以语音感知对语音增强研究有重要作用。人耳对背景噪声有很大的抑制作用，了解其机理大大有助于语音增强技术的发展。语音感知问题涉及到生理学、心理学、声学、和语音学诸多领域，其中有很多问题有待进一步研究。目前已有一些结论可用于语音增强4：*人耳对语音的感知主要是通过其幅度谱获得的，而对相位谱不敏感。*人耳对频率高低的感受近似于该频率的对数值成正比。*人耳具有掩蔽效应，即强信号对弱信号有抑制作用，能够将其掩盖。*共振峰对语音的感知十分重要，特别是第二共振峰比第一共振峰更为重要，因此对语音信号进行一定程度的高通滤波不会

20、对可懂度产生影响。*人耳在两个以上的说话环境中能够分辨出它所需要的声音。*人耳对频谱分量强度的感受是频率与能量谱的二元函数，响度与频谱幅度的对数成正比。2.2 语音特性分析语音是人们讲话时发声器官发出的一种声波，具有声音的物理特性。然而它又是一种特殊的声音，是人们用来交流信息的工具，因此语音是声音和语言的组合体。语音和语言是研究人类话语的一门学科，它具有一定的音色、音调、音强和音长。在研究和分析各种语音信号处理技术之前，必须了解语音信号的一些基本特征。浊音在时域上呈现出明显的周期性；在频域上有共振峰结构，而且能量大部分集中在较低频段内，而清音段没有明显的时域和频域特征，类似于白噪声。人类的发声

21、系统的生理结构的变化速度是有一定限度的，在一段时间内(1030ms)人的声带和声道形状具有相对稳定性，可以认为其特性是不变的，因而语音的短时谱分析也有相对稳定性，在语音增强中可以利用短时谱的这种稳定性。语音信号是非平稳、时变的，但又是准平稳、慢变的，因此短时处理技术是合适的。语音信号的时域特征参数主要有短时能量，短时过零率和短时能量比等。时域分析具有简单、运算量小、物理意义明确等优点，便于我们直观的认识语音信号。时域特征提取简单，但它的缺点是不能压缩维数，且不适于表征幅度谱特性。短时分析应用于频域就是短时傅立叶变换。相应的频谱称为“短时谱”，即有限长度的傅立叶变换。频域参数对于语音识别系统来说

22、更为有效，这是因为频域特征参数能从不同角度反映幅度谱的特征，例如，频谱、频谱包络、倒谱系数、共振峰等。2.3 噪声分类及其特性噪声来源于实际的应用环境，因而噪声特性可以说是千变万化。噪声可以是加性的，也可以是非加性的。对于非加性噪声，有些可以通过变换转变成加性噪声，例如，乘性噪声(或卷积噪声)可以通过同态变换而成为加性噪声。又如，某些与信号相关的量化噪声可以通过伪随机噪声扰动的方法变换成与信号独立的加性噪声。加性噪声大体上可分为以下几种5：白噪声、周期性噪声、脉冲性噪声、宽带噪声和同声道其它语音的干扰等。周期性噪声的特点是有许多离散的窄谱峰，它往往来源于发动机等周期性运转的机械设备。周期性噪声

23、引起的问题可能最少，因为可以通过功率谱发现并通过滤波或变换技术将其去掉。但是，其中交流噪声的抑制很困难，因为其频率成分不是基音(因为它在语音信号有效频率以下)，而是谐波成分(它可能以脉冲形式覆盖整个音频频谱)。冲击噪声表现为时域波形中突然出现的脉冲，它通常是放电的结果。消除这种噪声可以在时域进行，即根据带噪语音信号幅度的平均值确定阈值。当信号幅度超出这一阈值时，判别为冲击噪声，在对其进行衰减甚至完全消除。如果干扰脉冲之间不太靠近，还可以根据信号相邻样本数值简单地通过内插法将其从时间函数中去掉。宽带噪声通常可以假定为高斯噪声和白噪声，它的来源很多，包括风、呼吸噪声和一般随机噪声源。量化噪声通常作

24、为白噪声来处理，也可以视为宽带噪声。由于宽带噪声与语音信号在时域和频域上完全重叠，因而消除它最为困难。对于非平稳的宽带噪声，情况更为复杂。干扰语音信号和待传信号同时在一个信道中传输所造成的干扰称为语音干扰。通常人耳可以在两人以上讲话环境中分辩出所需要的声音。这种分辩能力是人体内部语音理解机理具有的一种感知能力，称为“鸡尾酒会效应”。区别有用信号和干扰信号的基本方法是利用它们的基音差别，考虑到一般情况下两种语音的基音不同，也不成整数倍关系，这样可以用梳状滤波器提取基音和各次谐波，再恢复出有用语音信号。2.4 语音信号的短时处理众所周知，语音信号数字化之前，必须先进行防混叠滤波，滤除高于1/2采样

25、频率的信号成分噪声。这种防混叠滤波通常与模数转换器做在一个集成块内，目前语音信号的数字化的质量是有保证的，故我们大可不必在语音信号数字化方面下功夫，而只须直接对数字化后的语音进行处理既可。2.4.1 语音信号预处理语音信号的频率多在4kHz以下，为了滤除50Hz以下的直流噪声和大于 4kHz的高频噪声，首先将语音信号通过一个通带频率为604000Hz的带通滤波器，得到 (2-1)式中，是信号的长度；表示卷积。当语音经过口腔和鼻腔辐射出来时，口腔和鼻腔会对语音产生影响，总的来说表现为语音高频部分的衰减。为了对输入语音进行预加重，须先加强高频分量，然后再处理结束时进行去加重，以免对于语音造成失真。

26、加重方式如下： (2-2)去加重方式为： (2-3)其中，为加重因子，一般取。2.4.2 语音信号加窗分帧语音信号是一种非平稳的时变信号，其产生过程与发声器官的运动紧密相关。而发声器官的状态速度较声音振动的速度缓慢的多，因此语音信号可以认为是短时平稳的。研究发现，在550ms的范围内，语音频谱特征和一些物理特征参数基本保持不变。因此可以将平稳过程中的处理方法和理论引入到语音信号的短时处理当中，将语音信号划分为很多短时的语音段，每个短时的语音段称为一个分析帧。这样，对每一帧语音信号处理就相当于对特征固定的持续信号进行处理。帧既可以是连续的，也可以采用交叠分帧，一般帧长取1030ms。取数据时，前

27、一帧和后一帧的交迭部分称为帧移，帧移与帧长之比一般取为01/2。对取出的语音帧要经过加窗处理，即用一定的窗函数与信号相乘，从而形成加窗语音。加窗的主要作用在于减少由分帧处理带来的频谱泄露，这是因为，分帧是对语音信号的突然截断，相当于语音信号的频谱与矩形窗函数频谱的周期卷积。由于矩形窗频谱的旁瓣较高，信号的频谱会产生“拖尾”，即频谱泄露。为此，可采用汉明窗，因为汉明窗旁瓣最低，可以有效地克服泄露现象，具有更平滑的低通特性，得到的频谱比较平滑。汉明(Hamming)窗定义6： (2-4)2.4.3 语音信号的短时傅立叶变换语音信号的频域分析在信号处理中占有十分重要的地位，在频域内研究语音信号，可以

28、使信号某些在时域内无法表现出来的特征变得十分明显，比较常用的是傅立叶变换。传统傅立叶变换是以应用数学为基础建立起来的一门学科，它将信号分解为各个不同频率分量组合，使信号的时域特征与频域特征联系起来成为信号处理的有利工具。但傅立叶变换使用的是一种全局变换，无法表述信号的局部性质，而短时傅立叶变换可以弥补这种缺点。正如前面的分析所述，由于语音信号是短时平稳的，因此，我们可以对语音进行分帧处理，计算某一帧的傅立叶变换，这样得到的就是短时傅立叶变换，其定义为2： (2-5)其中为实数窗函数，取不同值时，窗沿时间轴滑动到不同的位置，取出不同的语音帧进行傅立叶变换。短时傅立叶变换是时间和角频率的函数，它反

29、映了语音信号的频谱随时间变化的特性。2.5 语音增强性能语音质量包括两方面内容：清晰度和理解度。前者是衡量语音中字、单词和句的清晰程度，而后者则是对讲话人的辨识水平。语音质量评价不但与语音学、语言学和信号处理等学科有关，而且还与心理学、生理学等有着密切的联系，因此语音质量评价是一个极其复杂的问题。对此多年来人们不断的努力，提出了许多语音质量评价的方法，总体上看可以将语音质量评价可分为两大类：主观评价和客观评价。2.5.1 语音质量的主观评价1)MOS得分法MOS得分采用五级评分制，即将重建语音质量分为优(5分)、良(4分)、中(3分)、差(2分)及坏(1分)共5个等级测验，表2-1给出了相应的

30、MOS判分描述。MOS评分中质量优表示重建语音和原始语音只有很少的细节差异，且若不进行对照听比就觉察不出这种差异；质量良表示重建语音的畸变或失真不明显，不注意听意识不到；质量中表示重建语音有比较明显可感知的畸变成失真，但语音自然度和清晰度仍很好，且听起来没有疲劳感；质量差表示重建语音有较强的畸变或失真，听起来已有疲劳感；质量坏表示重建语音的质量极差，听觉无法忍受。2)判断韵字测试判断韵字测试是反映语音清晰度或可懂度的一种测试方法。这种测试方法使用若干对同韵母进行测试，让受试者每次听到一对韵字中的某个音，然后让他判断所听到的音是哪一个字，全体试验者判断正确的百分比就是DRT得分，通常认为DRT为

31、95%以上时清晰度为优，8594%为良，7584%为中，6575%为差，而65%以下为不可接受。表2-1 MOS判分相应描述表MOS得分质量级别失真级别5优无察觉4良刚有察觉3中有察觉且稍觉可厌2差明显察觉，可厌但可忍受1坏不可忍受3)判断满意度测量(DAM)DAM是对语音质量的综合评估，它是在多种条件下对话音质量的接受程度的一种度量。这种评分体系相当全面，也相当复杂，这里就不再叙述。2.5.2 语音质量的客观评价语音质量客观评价是以语音系统的输入信号和输出信号之间的误差大小来判别语音质量的好坏。1)信噪比(Signal-to-Noise Ratio，SNR)SNR一直是衡量针对宽带噪声失真的

32、语音增强算法的常规方法。假设表示带噪信号，表示其中的纯净语音信号，表示相对应的增强信号，经典形式的信噪比定义为： (2-6)在上式中可以看出，要计算信噪比必需知道纯净语音信号，但在实际应用中这是不可能的。因此，上述方法主要用于纯净语音信号和噪声信号都是己知的算法的仿真中。经典信噪比只能给出一个大致的信噪比。因为语音信号是时变的，而噪声的能量是均匀分布的，因而在不同时间段上的信噪比也应不一样。为了改善上面的问题。可采用分段信噪比，它的定义如下： (2-7)其中，表示语音帧数，是语音帧长度，表示语音帧的开始点。为了克服计算出来的信噪比过高或者过低，可对每帧计算出来的信噪比设定高低门限，分别为35d

33、B和0dB。2)坂仓距离度量坂仓距离度量(Itakura Distance Measure)是通过语音信号的线性预测分析来实现的。坂仓距离度量基于两组线性预测参数(分别从原纯净语音和处理过的语音的同步帧得到)之间的差异。假设对语音帧进行线性预测分析得到其线性预测前向误差滤波器系数矢量为： (2-8)另一组预测矢量为： (2-9)坂仓距离定义为： (2-10)其中，。27第3章基于谱减法的语音增强技术在语音通信系统中，加性宽带背景噪声严重损伤了语音质量及其可懂度，并增加了听者疲劳。谱减方法是基于人的感觉特性，即语音信号的短时幅度比短时相位更容易对人的听觉系统产生影响，从而对语音短时幅度谱进行估

34、计，适用于受加性噪声污染的语音。谱减法基本原理是在得到带噪语音频谱和估计出噪声频谱之后，直接从带噪语音的频谱中减去噪声谱作为纯净语音的谱值，再利用人耳对相位的不敏感性，用带噪语音的相位来重建增强后的“纯净”语音。谱减技术可以成功的衰减原始带噪语音中的噪声，但由于“音乐噪声”的产生而使语音的整体质量有所下降，没有改善可懂度。听者经常能发现处理后语音中的“音乐噪声”比原始信号中的噪声更为清晰，这是由在短时谱估计中各帧的随机频率点上出现多种频率的组合而产生的，严重限制了谱减技术的应用，所以产生了多种针对不同的“相减域”和一系列非线性处理的措施，重点放在修改“残余噪声”的特性上，以使之更易为听者所接受

35、，本文主要采用递归平滑更新噪声谱，并根据得到的语音幅度谱进行了平滑，实验证明，该方法能够有效抑制“音乐噪声”。3.1 谱减法的基本原理谱减法是基于人的感觉特性，即语音信号的短时幅度比短时相位更容易对人的听觉系统产生影响，从而对语音短时幅度谱进行估计，适用于受加性噪声污染的语音。处理宽带噪声的最通用技术是谱减法，即从带噪语音估值中减去噪声频谱估值，从而得到纯净语音的频谱。由于人耳对语音频谱分量的相位不敏感，因而这种方法主要针对短时幅度谱。谱减法(Spectral Subtraction)是一种经典的噪声控制方法，它主要应用于从语音信号中消除谱特性变化缓慢的加性噪声。所谓“谱减”就是从输入信号的幅

36、度谱中减去估计得来的噪声平均幅度谱，其效果相当于在变换域对带噪信号进行了某种均衡化处理。相对于其它方法，谱减法引入的约束条件最少，物理意义最直接，运算量小，而且经过改进后效果也较好。传统的谱减法即在频域将带噪语音的功率谱减去噪声的功率谱，得到语音的功率谱估计，开方后就得到语音幅度估计，将其相位恢复后再采用逆傅立叶变换恢复时域信号。考虑到人耳对相位的感觉不灵敏，相位恢复时所采用的相位是带噪语音的相位信息。由于语音是短时平稳的，所以在短时谱幅度估计中认为它是平稳随机信号，假设、和分别代表语音、噪声和带噪语音，、和分别表示其短时谱。假设噪声是与语音不相关的加性噪声。于是得到信号的加性模型： (3-1

37、)经过加窗处理后的信号分别表示为，则有 (3-2)对上式两端分别做傅立叶变换，得 (3-3)对功率谱有 (3-4)可以根据观测数据估计，其余各项必须近似为统计均值。由于和独立，则互谱的统计均值为0，所以原始语音的估值为 (3-5)因为噪声是局部平稳的，故可以认为发语音前的噪声与发语音期间的噪声功率谱相同，因而可以利用发语音前的“寂静帧”来估计噪声。从(3-5)式中可以看出，估计值不能保证是非负的，这是因为在估计噪声时存在误差，当估计噪声平均功率大于某帧带噪语音功率时，该帧得出的估计值就会出现为负的情况，这些负值我们可以通过改变它们的符号使之变为正值，也可以直接给它们置零。只要在频域用(3-5)

38、式得到纯净语音的谱估计，就可以根据(3-6)式得到增强后的语音。 (3-6)如前面分析，利用人耳对相位不敏感的特点，在式(3-6)中可利用原带噪语音的相位恢复到时域语音信号，从而得到处理后的语音信号，完成整个基于谱减法的语音增强过程。根据前面分析，我们可以给出谱减算法的整个算法流程，如图3-1所示。增强后的语音带噪语音FFTIFFT相位信息减去估计噪声图3-1 谱减法的算法流程3.2 谱减法建立的假设谱减法的建立要基于以下几点假设7：1) 噪声信号和语音信号是互不相关的，在频域是加性的关系。2) 背景噪声环境相对于语音活动区域来说是近似稳态的，这样就可以利用在无声段估测的平均噪声谱来逼近有声段

39、的噪声谱。3) 如果背景噪声环境变化到一个新的稳态，则应有足够的时间(约300ms左右)以便于估计出新的背景噪声谱幅度估值。4) 对于缓慢变化的非平稳噪声环境，谱减法中有语音激活检测环节以便适时的判断并进行调整。5) 假设主要噪声影响的消除可以通过仅仅从带噪语音谱幅度中减去噪声而实现。3.3 “音乐噪声”的产生谱减法技术大多数都是在频域上进行，也有在时域的。由于在谱减法处理过程中，是以无声期间统计平均的噪声方差代替当前分析帧各频率点的噪声频率分量，而噪声频谱具有高斯分布，即其幅度随机变化范围很宽，因此相减时，若该帧某频率点噪声分量较大，就会有很大一部分保留，具体来讲，由谱减所产生的噪声称为残余

40、噪声，与语音信号不相关，是由具有随机频率和幅度的窄带信号所组成。在频谱上呈现随机出现的尖峰，便产生了间歇短暂的突发声调，在听觉上形成有节奏性起伏的类似音乐噪声的残留噪声。这种具有音乐特性的残余噪声是各帧内在随机频率上出现的许多声调的群体结果。它比原始语音中的噪声清楚的多，也更易令人反感。这种噪声具有“音乐”的听觉效果，听起来像有“咕咕”的流水声，因此称为“音乐噪声”。听者常常能发现处理后的语音中的“音乐噪声” 比原始信号中的噪声更为清晰，这是由于在短时谱估计中，在各帧的随机频率点上出现多种频率的组合而产生的。“音乐噪声”可以分为下面两种：一是与原来背景噪音有同样听觉特性的噪音；二是在谱减过程中

41、生成的短时谱峰，造成人为的音乐噪音。3.4 语音端点检测技术由上述分析可知，在谱减法中噪声功率谱的估计至关重要，如果噪声估计偏差较大的话，将毫无疑问的影响语音增强质量。传统的噪声估计方法分为两种：一个是基于语音激活检测(Voice Activity Detector)的噪声估计器，另一个是由Rainer Martin提出的基于最优平滑和最小统计的噪声估计8,9，该方法不需要VAD。在本文的MATLAB算法实现中采用了语音激活检测(VAD)作为噪声估计方法，故下面简要介绍一下基于VAD的噪声估计方法。语音激活检测(VAD，Voice Activity Detection)指从一段包含语音的信号中

42、确定出语音的起始点和终点，又称端点检测(Ending Detection)。语音激活检测对于语音识别系统、手机通讯系统、自适应语音增强、语音编码等都有着重要的意义。语音端点检测的目的就是从连续记录的带噪语音信号中分离出我们真正感兴趣的语音信号。语音激活检测是各种语音处理中必需的重要环节，精确地确定输入语音的起点和终点将保证语音处理系统良好的性能，语音激活检测是语音增强中的一个关键问题。在单声道的系统中，必须找到语音间隙，以更新噪声。在多声道的系统中，为了正确补偿各声道间时延的不同，也必须找到理想的语音激活检测方法。另外，在一些系统中，对于语音和噪声的处理方法也不同，如果不能判断当前语音帧是含噪

43、语音帧或是噪声帧的话，就不能进行适当的处理，这种系统对语音存在性的判断要求就更高一些，要求把每一帧噪声都判断出来。在语音增强系统中，语音知识的学习和噪声源信息估计的积累都依赖于准确的端点检测。对于语音激活检测应用于不同领域，其侧重点是有区别的。比如在编解码中，一方面为了达到降低编码率的目的，希望能更多的检测出无音段。另一方面，如果语音检测方法不成熟，将有音段错误的判别为无音段，则会造成解码端语音失真，降低语音质量。所以通常情况下，语音编解码中的语音激活检测都比较注重准确的检测出有音段；相反地在语音增强中，为了得到更多的背景噪声特性，语音端点检测更注重于如何准确的检测出无音段。通常的语音激活检测

44、是基于语音帧来进行的，语音帧的长度在1030ms不等。语音激活检测的基本方法可以用一句话来表达：从输入信号中提取一个或一系列的对比特征参数，然后将其和一个或一系列的门限阈值进行比较，如图3-2所示。如果超过门限则表示当前为有音段，否则就表示当前为无音段。门限通常是根据无音段时语音特征确定的。但是由于语音和环境噪声的不断变化，使得这一判决过程变得非常的复杂。于是一个好的语音激活检测算法必须具备对各种噪声的鲁棒性，同时要简单，适应性好，易于实时实现。带噪语音加窗分帧特征提取与阀值比较判断有无语音图3-2 语音激活检测框图目前语音端点检测所采取的方法大体可以分为两类：第一类是噪声环境下基于 HMM

45、模型的语音信号端点检测的方法10，该方法要求背景噪声保持平稳且信噪比较高。第二类方法是基于信号的短时能量进行检测的算法，它通过对背景噪声能量的统计，动态地定出能量门限，利用能量门限来确定语音信号起始点。在本文中，语音端点检测采用了第二类方法，即基于信号的短时能量进行检测的算法，故下面仅只对其进行简要介绍。基于信号的短时能量检测具体算法如下：1) 计算每一段所有帧的语音能量： (3-7)式中为帧长，为帧的编号，为帧数；2) 计算平均噪声能量；3) 求能量最大值和能量最小值，；4) 根据式(3-8)确定门限 (3-8)该算法建立在平稳高斯噪声模型基础上，在背景噪声幅度保持恒定且远低于语音信号幅度时

46、，可以十分有效地检测出语音信号的端点。本文应用谱减法实现语音增强，通过对带噪语音谱减去噪声谱得到语音谱，语音激活检测这一环节非常重要，不仅准确地确定了语音的起始点，同时也对噪声谱估计起了重要作用。3.5 基于谱减法的语音增强算法流程本论文采用了MATLAB语言实现了整个基于谱减法的语音增强算法，具体MATLAB程序见附录，其算法流程如下：1)对输入的语音信号进行分帧处理，每帧长度默认值为个采样点，相邻两帧相互重叠，重叠率为帧长的1/2，即帧移为11；2)对信号帧加汉明窗(Haming)；3)对信号帧进行FFT变换；4)对各帧语音信号求功率谱；5)根据前20帧求取平均噪声功率；6)利用VAD进行噪声估计，递归平滑更新噪声谱；7)根据(3-5)式进行谱减运算，得到估计出的语音信号功率谱；8)递归平滑估计出的语音谱；9)进行反傅立叶变换求时域语言信号。根据以上谱减法的算法流程，采用MATLAB语言进行仿真试验，试验用的语音材料是WAV格式的语音，经处理后去噪效果十分明显，很好的抑制了噪声，提高了语音的可懂度。3.6 实验结果与分析在本文中进行了两个试验，下面分别介绍这两个试验。1)试验一在试验一中，采用的是在实验室内录制的纯净男语音信号“a favourite topic”，记其为，采样率11kHz，使用Matlab函数wavread( )调用

展开阅读全文