1、摘要语音信号处理中,端点检测指从背景噪声中准确检测出语音信号的起止点,从而在语音识别中提高识别精度及减少识别时间。本文首先总结了语音信号数字化处理过程,分析了常用的几种端点检测方法,包括短时能量、短时平均过零率的检测方法及基于倒谱的语音端点检测方法,用软件实现了时域上的端点检测方法,并与基于倒谱距离的方法进行了比较。大多数实际的语音识别系统需工作在低信躁比情况下,一些常规的端点检测方法 ,例如基于能量的端点检测方法在噪声环境下不能有效地工作。本文利用倒谱特征来检测语音端点,提出了带噪语音端点检测的算法,即利用倒谱距离代替短时能量作为判决的门限,实验结果表明本方法可得到高正确率的带噪语音端点检测
2、.基于倒谱距离的端点检测方法,实现起来简单,环境适应性较好。最后,本文对给出的方法进行了总结,指出了今后研究中需要改进的问题及端点检测未来的发展方向。关键词 语音识别;端点检测;短时能量;短时平均过零率;倒谱距离AbstractSpeech endpoint detection is accurately detecting the beginning and ending of speech signle from background noiseIn speech signal processing,the accurate endpoint detection can improve t
3、he speech recognition accuracy and recognition speedIncluding short-time energy,short-time average zero-crossing rate of the detection method and cepstrum-based speech endpoint detection method, time-domain software implementation of the endpoint detection method and the cepstral distance-based meth
4、ods.Firstly,the digital speech signal processing and some common speech endpoint detection methods are summarized and analysedMost practical ASR systems must work with a small SNR,and the conventional speech detection methods based on some simple features such as energy cannot work well in noisy env
5、ironments. In this paper,cepstrum is used as the feature to detect the voice activity. One algorithm for endpoint detection of noisy speech signal is proposed. The one takes the cepstral distance as the decision thresholds instead of short-time energy. The experiments show high accurate rates can be
6、 obtained.The method which is based on cepstral distance can be achieved easily and has better environmental adaptability. At the end of the paper,these proposed methods are summarizedQuestions which should be improved in the future and the perspective of endpoint detection are pointed out.Keywords
7、Speech recognition;Endpoint Detection;Short-time energyShort-time average zero-crossing rate;Cepstral Distance 目 录摘要IAbstractII第1章 绪论11.1 课题背景11.1.1 选题背景11.1.2 语音信号端点检测的研究现状31.2 语音识别概述41.3 本课题的研究内容6第2章 时域端点检测方法82.1 端点检测82.1.1 端点检测介绍92.1.2 预处理92.2 基于短时能量的端点检测102.2.1 短时能量定义102.2.2 基于短时能量的端点检测112.3 基于短
8、时平均过零率的端点检测122.4 短时能量和短时平均过零率双门限的端点检测142.5 时域预期研究方向152.6 本章小结16第3章 基于倒谱的端点检测方法183.1 倒谱概述183.2 倒谱距离定义183.3 基于倒谱距离的检测算法203.4 本章小结21第4章 本课题的仿真实验结果与分析234.1 实验条件及结果234.2 两种端点检测的比较和分析254.2.1 结果分析比较254.2.2 存在的问题及改进284.3 本章小结28结论30参考文献31附录134附录238附录342附录457IV第1章 绪论1.1 课题背景1.1.1 选题背景语音信号处理是研究数字信号处理技术对语音信号进行处
9、理的一门学科,是一门新兴的学科,是在多门学科基础上发展起来的综合性技术。它涉及到数字信号处理,模式识别,语言学,语音学,生理学,心理学及认知科学和人工智能等许多学科领域。语音信号处理是目前发展最为迅速的信息科学研究领域中的一个分支,研究设计一系列前沿课题,且处于迅速发展之中。其研究成果具有重要的学术和应用价值。但同时它也是一门理论性强,实用面广,内容新,难度大的交叉学科。从技术角度讲,语音信号处理是信息高速公路、多媒体技术、办公自动化、现代通信及智能系统等新兴领域应用的核心技术之一。用数字化的方法进行语音的传送、储存、识别、合成、增强等使整个数字化通信网中最重要、最基本的组成部分之一。同时,自
10、然语言作为一种理想的人机通信方式,可谓计算机、自动化系统等建立良好的交互环境,提高社会的信息化和自动化程度。目前,语音技术处于蓬勃发展时期,有大量产品投放市场,并且不断有新产品被开发研制,具有广阔的市场需要和应用前景。语言是人们产生思想和情感交流的的必要手段,是人类特有的也是最重要的交际手段,是人类相互之间进行交流使用最多、最基本也是最重要的信息载体之一。虽然人类可以通过多种手段获取外界信息,但最重要、最精细的信息源只有语言、文字、图象三种。在一些通信、数据压缩编码、识别系统等方面,语音信号处理还是起到举足轻重的作用。语音信号处理的研究,起源于发声器官的模拟1。最早的工作可追溯到1876年贝尔
11、发明的电话,该电话首次使用声电、电声转换技术实现了远距离的语音传输。1939年,美国人HDudely研制成功第一个声码器2,它显示了一个简单的发声过程的模拟系统,利用该模型可以对语音信号进行各种频谱和参数的分析,同时也可根据分析获得的频谱特征或参数变化的规律,合成语音信号,实现机器的语音合成,因此此项工作奠定了语音产生模型的基础,在语音信号处理领域具有划时代的意义。1952年贝尔实验室的Davis等人首次研制成功能说不是个英语数字的实验装置3。1956年Olson和Belar等人采用8个带通滤波器组提取频谱参数作为语音的特征,研制成功一台简单的语音打字机。20世纪60年代初由于Faut和Ste
12、vens的努力,奠定了语音生成理论的基础,在此基础上语音合成的研究得到了扎实的进展。20世纪60年代中期形成的一系列数字信号处理方法和技术,如数字滤波器,快速傅里叶变换等成为语音信号数字处理的理论和技术基础。20世纪80年代,由于矢量量化,隐马尔科夫模型和人工神经网络等相继被应用于语音信号处理,并经过不断改进与完善,使得语音信号处理技术产生了突破性进展。进入20世纪90年代以来,语音信号处理在实用化方面取得了实质性的研究进展。其中,语音识别逐渐由实验室走向实用化4。一方面,对声学语音学统计模型的研究逐渐深入,鲁棒的语音识别、基于语音端的建模方法及隐马尔可夫模型与人工神经网络的结合成为研究的热点
13、。另一方面,为了语音识别实用化的需要,听觉模型、快速搜索识别算法,以及进一步的语言模型的研究课题受到很大的关注。在语音识别方面,很多专业人员对其理论和应用进行了广泛的研究,有关这方面的文献浩如烟海。然而,语音识别是一项综合性的、难度很大的高科技项目,从语音中提取满意的信息的过程是一项艰巨复杂的任务。语音识别研究中一直面临着难以解决的问题,可以说存在着无穷无尽的困难。目前是语音识别研究的黄金时期,该领域的研究得到了前所未有的重视,国内外均投入了大量的人力物力,语音识别因而成为科学与技术研究的热点。语音识别与语言学及人工智能有很大关系。有人认为,语音识别的重大进展可能并不来自对信号的分析、自适应的
14、模式匹配和计算机运算方面的进一步研究(虽然这些领域对语音研究提供了很有价值的技术);而是来自对语言感知、语言产生、语音学、语言学、和心理学的研究。要使语音识别系统能够接近热闹的能力,必须更多地了解全部言语过程。近年来,循环神经网络(Recurrent Neurd Network,RNN)在一些语音识别系统中被采用5。1.1.2 语音信号端点检测的研究现状在人们的生活中,语音起到了特殊作用以及重要的地位,使得人们重视对语音信号和语音通信的研究。社会的进步对语音通信提出了更高的要求,需要更高的语音质量和更低的数码率,从而推动语音编码技术的发展。而自动控制和计算机科学的发展又要求用语音实现人和机器的
15、信息交流,要求机器能听懂人说话和模仿人说话。甚至还能辨别说话人,这又推动了语音识别和语音合成技术的研究,使得语音信号处理技术得到迅速的发展。实际环境中没有完全纯净的语音信号,往往都伴有噪声或其他干扰,而语音识别系统的处理对象是有效语音信号,即排除了纯噪声段的语音信号段,这就需要从输入信号中找到语音部分的起止点。在实际应用中,首先通常要求对系统的输入信号进行判断,准确地找出语音信号的起始点和终止点,这样才能采集真正的语音数据,减少数据量和运算量,并减少处理时间。在语音识别中,通常是先根据一定的端点检测算法,对语音信号中的有声片段和无声片段进行分割,而后再针对有声片段,依据语音的某些特征进行识别。
16、研究表明,即使在安静的环境中,语音识别系统一半以上的识别错误来自端点检测器。因此,作为语音识别系统的第一步,端点检测的关键不容忽视,尤其是噪声环境下语音的端点检测,它的准确性很大程度上直接影响着后续的工作能否有效进行。可以说,语音信号的端点检测至今仍是有待进一步深入研究的课题端点检测(Endpoint Detection)的目的就是从包含语音的一段信号中确定出语音的起点及终点,又称语音活动检测(VAD,Voice Activity Detection) 6。端点检测是语音识别系统预处理阶段遇到的第一个关键技术。长期以来,传统的语音端点检测方法都是针对实验室安静环境的,直到近十年,人们才开始研究
17、噪声环境下的语音端点检测。有关抗噪声技术的研究以及实环境下的语音信号处理系统的开发,在国内外作为语音信号处理的非常重要的研究课题,已经做了大量的研究工作,取得了丰富的研究成果。目前国内外研究成果大体分为三类解决方法。一类是采用语音增强算法等;第二类方法是寻找稳健的语音特征;第三类方法是基于模型参数适应化的噪声补偿算法。然而,解决噪声问题的根本方法是实现噪声和语音的自动分离,尽管人们很早就有这种愿望,但由于技术的难题,这方面的研究进度很小。近些年来,随着声场景分析技术和盲分离技术的发展,利用这些领域的研究成果进行语音和噪声分离的研究取得了一些进展。1.2 语音识别概述语音识别是语音链中的一环,它
18、是研究是机器能准确地听出人的语音内容的问题,即准确的识别所说的话。语音识别的最终目的是使计算机能够听懂任何人、任何内容的讲话。语音识别属于多维模式识别和智能计算机接口的范畴。语音识别技术是一项集声学、语音学、计算机、信息处理、人工智能等领域的综合技术,在计算机、信息处理、通信与电子系统、自动控制等领域中,在工业、军事、交通、医学、民用诸多方面有着广泛的应用。语音识别是近二十几年发展起来的新兴学科,特别是近十年来国内外竞相研究的热点。科技、工业及国防部门投入大量人力和财力来研究语音识别的动力是信息产业迅速发展的迫切要求,其中包括计算机、办公自动化、通信、国防、机器人等。 语音识别系统具有重要的应
19、用价值,它好似人机通信的自然媒介。语音识别和语音合成相结合,可构成“人-机通信系统”。随着语音识别技术的成熟,各类语音产品应运而生。语音识别产品在人机交互应用中,已经占到越来越大的比例。语音识别是机器将语音信号转变为相应的文本文字或命令的技术,即将语音信号逐字逐句的翻译为相应的书面语言,或对语音所包含的要求和命令做出正确的响应,其根本目的是研究出一种具有听觉功能的机器,这种机器能直接接受人的语音,理解人的意图,并做出相应的反应7。语音识别的系统根据不同的要求,可以有不同的分类方法:(1)按词汇量的大小分 通常可以分为小词汇量、中词汇量和大词汇量。(2)按发音的方式分 语音识别可以分为孤立词识别
20、、连接词识别、连续语音识别以及关键词检出等。(3)按识别对象的类型来看 语音识别可以分为特定说话人识别和非特定说话人。(4)按语音识别的方法分 有模板匹配法、随机模型法和概率语法分析这些方法都属于统计模式识别方法。语音识别技术主要包括端点检测技术、特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别是一种特殊的模式识别,模式识别是指计算机对事物的认识。这里模式是对被认知事物的概括,包括语音、文字、图机器的运行状态等。根据模式匹配原理构成的语音识别系统如图1-1所示。本课题研究语音端点检测技术,其中端点检测的目的就是在复杂的应用环境下的信号流中分辨出语音信号和非语音信号,并确定语音信号的开
21、始及结束,一般的信号流都存在一定的背景噪声,而语音识预处理判决专家知识库测度估计参考模式库距离测度特征提取输入语音 识别结果 训练,聚类图1-1 语音识别的原理图别的模型都是基于语音信号训练的,语音信号和语音模型进行模式匹配才有意义。对于汉语语音识别,本质上与其它语言没有区别,也有其特点。主要是它宜于用音节作为基本研究对象,从而使特征的提取、字节的分割、动态时间匹配方法的选曲等也具有特点。但是中文同音字多,又有声调不明、界限不清、新词不断出现等诸多特点,汉语语音识别别其他语言难度更大。1.3 本课题的研究内容本课题的研究目标主要是要认真学习倒谱的理论知识,学习运用倒谱理论进行语音端点检测的各种
22、方法。在噪声环境下运用倒谱特征对语音进行端点检测,并比较在不同的噪声条件下,基于倒谱的端点检测与传统的端点检测方法的优劣性。以便我们可以更有效的对带噪语音进行端点检测,为后续的语音识别减少计算量。本课题的研究意义:语音信号端点检测是为了从连续采样得到的数字信号中检测出语音信号段和噪声信号段,准确的语音端点检测不仅提高了系统处理效率,同时也能够提高系统的识别率。此外,端点检测的目的还在于:(1)减少识别器的数据处理量 可以大量减少信号传输量及识别器的运算负荷,对于语音对话的实时识别有重要作用。(2)拒绝非语音信号 对非语音的识别不仅是一种资源浪费,而且有可能改变对话的状态,造成对用户的困扰。(3
23、)打断功能的实现 在需要打断功能的系统中,语音的起始点是必须的,在端点检测找到语音的起始点时,系统将停止提示音的播放,完成打断功能。传统的语音端点检测方法在噪声环境下性能下降,它们在信噪比较低的情况下性能很差,有时甚至无法工作。本文针对传统方法通常采用能量等一些简单特征的缺陷,提出了应用倒谱系数作为判决特征的带噪语音端点检测方法。它包括应用倒谱距离测量轨迹和应用循环神经网络的方法。通过对带噪语音的实验比较,证实了基于倒谱特征的带噪语音端点检测法的有效性。语音识别系统中,有效准确的确定语音端点不仅能使处理时间减到最小,而且能拍出无声段的噪声干扰,从而使识别系统具有良好的性能,端点检测的成功与否在
24、某种程度上直接决定了整个语音识别系统的成败;同时,它又是自适应增强算法和语音编码系统的重要部分。现实环境中由于各种不同噪声的引入使得语音端点的检测性能显著下降,因而强噪声环境下的语音端点检测的研究有重要意义。本论文的主要研究内容:在第一章介绍了选题的背景、国内外研究现状及语音识别方面的知识;第二章详细讲述了时域上端点检测的方法,其中包括基于短时能量、短时平均过零率等方法;第三章研究了基于倒谱的端点检测方法;第四章是介绍在理论基础之上的通过MATLAB编程实现仿真情况,并将本文所研究的算法进行了比较和分析。第2章 时域端点检测方法2.1 端点检测语音信号端点检测准确与否,对任何一个语音信号处理系
25、统都有很大的影响,所以语音信号端点检测的方法研究仍然是今后语音信号处理中的一大热点和难点。设计一个成功的语音端点检测模块时,会遇到下列一些实际困难:(1)信号取样时,由于电平的变化,难以设置对各次实验都适用的阈值;取样数据中,有时存在突发性干扰,使短时参数变得很大,持续很短时间后又恢复,应该记入噪声段而非语音段。(2)发音时,人的咂嘴声或其他某些杂音会使语音波形产生一个很小的尖锋,并可能超过所设计的门限值。此外,人呼吸时的气流也会产生电平较高的噪声。(3)起点处是弱摩擦音或终点处是鼻音时,语音的特性与噪声极其相似,其中,鼻韵还拖得很长。在很长一段时间里,被广泛采用的语音端点检测方法是依据语音信
26、号的时域特性提取的主要参数有短时能量、短时平均过零率、短时自相关函数等。这些方法在较为安静的实验室环境下具有很高的检测准确率,但在噪声环境下的检测性能会变得较差。通常语音端点检测方法的步骤如下:(1)将语音信号分成语音段,称为语音帧,通常各帧语音信号是有交叠的;(2)对每一语音帧,选取一种特征参数;(3)采用一种判决准则,例如门限判定或模式分类,来检测语音帧与非语音帧;(4)对上述结果进行后处理。2.1.1 端点检测介绍语音信号起止点的判别是任何一个语音识别系统都必不可少的组成部分.因为只有准确的找出语音段的起始点和终止点,才有可能使采集到的数据是真正要分析的语音信号,这样不但减少了数据量、运
27、算量和处理时间,同时也有利于系统识别率的改善.人的声音分为清音和浊音两种,浊音为声带振动发出,对应的语音信号有幅度高、周期性明显的特点,而清音则不会有声带的振动,只是靠空气在口腔中的摩擦、冲击或爆破而发声8。在语音识别中,端点检测的性能对于识别的正确率,识别速度都有重要的影响。这表现在以下几个方面:(1)在语音识别和说话人识别中为了消除信道的影响通常采用倒谱均值相减的方法,这就需要对语音时段的端点准确定位,这样才能较精确计算代表信道影响的语音帧的均值,提高识别的准确率。(2)如果识别前移除信号中的静音段,使得整句的似然得分累计更多的集中在语音段,而不是被语音和噪音所分散,这样有助于识别率的提高
28、。(3)在不断变换的环境下对噪音和静音建模是非常困难的。准确的端点检测事先移除单纯噪音的时段对于噪音和静音的精确建立有很大帮助。(4)当所处理信号含非语音时段非常长,准确的端点检测可以极大提高计算速度。研究表明,即使在安静环境下语音识别系统一半以上的识别错误都是因为语音信号端点检测的不准确所造成的。因此,端点检测的准确性在某种程度上直接决定了整个语音识别系统的成败。2.1.2 预处理在对语音信号进行分析和处理之前,必须对其进行预处理。首先将语音序列去直流(即减去平均值),再作归一化处理将幅值限制在1之内,然后通过一个预加重滤波器,滤去50Hz的电源干扰和超出一半采样率的频率分量。图2-1为一般
29、语音数字分析或处理的系统框图。传输或存储反混叠滤波A/D变换分析处理合成处理D/A变换平滑滤波语音输入语音输出图2-1 语音信号处理系统框图由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频段大约在800Hz以上按6dB/倍频程跌落,为此要在预处理中进行预加重。预加重的目的是提升高频部分,是信号的频谱变得平坦,以便于进行频谱分析或声道参数分析9。预加重可在A/D变换前的反混叠滤波之前进行,这样不仅能够进行预加重,而且可以压缩信号的动态范围,有效地提高信噪比。所以,为提高SNR,应在A/D变换之前进行预加重。预加重也可在A/D变换之后进行,用具有6dB/倍频程的提升高频特性的预加重数字滤波
30、器实现,它一般是一阶的 (2-1)式中,值接近于1。加重后的信号在分析处理后,需要进行区加重处理,即加上6dB/倍频程的下降的频率特性来还原成能够原来的特性。经过预处理后的语音序列即可进行短时能量计算amp和过零率计算zcr。2.2 基于短时能量的端点检测2.2.1 短时能量定义语音和噪声的主要区别在它们的能量上,语音段的能量比噪声段的大,语音段的能量是噪声段能量叠加语音声波能量的和。时刻某语音信号的短时能量定义为: (2-2)式中,为汉明窗。令,则有: (2-3)式中,为可移动的有限长度的窗函数,用来实现分帧处理,是低通滤波器的单位冲激相应。上式表明,经过窗口加权的短时能量相当于将“语音平方
31、”信号通过一个线性滤波器的输出,这个滤波器的取样响应为。短时能量可用来区分清音段和浊音段。E值大的对应于浊音段,而E值小的对应于清音段。对于高信噪比的语音信号,无语音信号的噪声能量E很小,而有语音信号的能量E显著增大到某一数值,由此可以区分语音信号的起始点和结束点。传统检测方法认为,如果环境噪声和系统输入噪声比较小,以至于能够保证系统的信噪比相当高,那么只要计算输入信号的短时能量就能够把语音段和噪声背景区分开。2.2.2 基于短时能量的端点检测通常的语音端点检测方法采用测试信号的短时能量或短时对数能量作为特征参数,并采用门限判定法来检测语音。在这些方法中,当测试信号帧的短时能量超过噪声能量门限
32、并持续一段时间,则第一次超过能量门限的点被判定为语音段的起点。而当测试信号帧的能量低于另一个噪声能量门限并持续一定时间,就可测定语音段的终止点。噪声能量门限的估计对这种方法的性能影响很大。在低噪声环境下,如 SNR大于 20dB 时 ,这种方法具有很好的性能.然而 ,实际的语音识别系统常应用于不同的环境。例如 ,在汽车中SNR通常只有几个dB.在低SNR环境下,由于难以确定适当的门限值,基于能量的端点检测不能很好地工作,这种方法也会舍弃一些低能量的清音语音(摩擦音,如/f/ ,/ s/) ,而且,难以处理非平衡噪声。所以,在实际应用中往往很难保证有这么高的信噪比,因而仅仅依靠短时能量来检测语音
33、段的起止点常会遇到问题。而且在一些特殊情况,如当语音段的开始和末尾都是弱摩擦音时,它们都容易与噪声混淆。在这些情况下,只靠短时能量来检测语音段的起止点往往会漏掉某些音素。所以,要准确找出语音段的起止点,还需要研究两者的其他特征。在有些算法中,一些其它的特征参数,如过零率,音调等被采用,以改进端点检测,但这些算法在高噪声情况下仍然不具备好的性能。2.3 基于短时平均过零率的端点检测短时平均过零率用于语音信号分析。信号的幅度值从正值到负值要经过零值,从负值到正值也要经过零值,称其为过零,统计信号在1s穿越零值的次数,就称为过零率。过零率的求取公式见式(2-4) (2-4)过零率可以看作信号频率的简
34、单度量10。发浊音时,声带振动,因而声门激励是以此音调频率为基频来使声道共振;尽管有若干个共振峰,但其能量的分布集中于低3 kHz的频率范围内。反之,发清音时声带不振动,声道某部分阻塞产生类似白噪声激励,通过声道后其能量集中在比浊音时更高的频率范围内。浊音时能量集中于较低频率段内,具有较低的过零率,而发清音时能量集中于较高频率段内,具有较高的过零率。虽然清音的过零率比较高,浊音的过零率比较低,但是在实际的语音数据中,背景噪声的过零率也是很低的,因为背景噪声的很多值都为零,因此按照上述公式计算的过零率就会很低11。实际的处理中,将各帧语音信号的过零率做统计平均,就是短时平均过零率(Short T
35、ime Average Zero-Crossing Rate)。语音信号序列的短时平均过零率定义为 (2-5)式中为符号函数,见式(2-6);为窗函数。 (2-6)图2-2给出了短时平均过零率的计算过程。首先对语音信号进行成对处理,检查是否有过零现象,若有符号变化,则表示一次过零现象;然后进行一阶差分计算,再求取绝对值;最后进行低通滤波。 一阶差分低通滤波器一阶差分低通滤波器图2-2 短时平均过零率的计算利用短时平均过零数还可以从背景噪声中找出语音信号12,可用于判断及景物语音和有语音的起点和终点位置。在孤立词的语音识别中,必须要在一连串连续的语音信号中进行适当的分隔,用以确定一个一个单词的语
36、音信号,即找出每一个单词的开始和终止位置,这在语音处理中是一个基本问题。此时,在背景噪声较小使用平均能量识别较为有效,而在背景噪声较大使用平均过零数识别较为有效。但是研究表明,在以某些因为开头或结尾时,只用其中一个参量来识别语音的起点和终点是有困难的,必须同时使用这两个参数,以便在时域上更好地减少计算量,提高端点检测效率,较之仅一个参量的检测方法是一种进步。2.4 短时能量和短时平均过零率双门限的端点检测在很长一段时间里,研究语音端点检测算法主要是依据语音信号的时域特性。其采用的主要参数有短时能量、短时平均过零率等,即通常说的基于能量的端点检测方法。这种方法是在短时能量检测方法的基础上,加上短
37、时平均过零率,利用能量和过零率作为特征来进行检测,这种方法也被称为双门限端点检测。如文献13中图3-1所示,即双门限法检测语音起止图,语音刚开始的一段,其短时能量的大小与背景噪声的短时能量大小差不多,因而要想可靠的检测到语音起点,存在较大困难。双门限法是考虑到语音开始以后总会出现能量较大的浊音,设一个较高的门限用以确定语音开始,再取一个比低的门限,用以确定真正的起点及结束点。判断清音和无话的差别,是采用另一个较低的门限,求越过该门限“过零率”。只要取得适当,通常背景噪声的低门限过零率值将明显低于语音的低门限过零率值。这种方法普遍的用于有话、无话鉴别或词语前端检测。上述方法最根本的问题就是判别门
38、限往往通过经验值来确定,而门限值对整个端点检测的影响极大。一般采用经典的Lawrence Rabiner端点检测法,这种方法以过零率ZCR和能量E为特征来检测起止点,其具体方法如下:以短时平均幅度为特征的起止点方法:根据发音刚开始前已知为“静”态的的连续10帧内的数据,计算能量阈值 (低能量阈值)及 (高能量阈值开始计算前l0帧每帧的平均幅值,设其最大值称之为,最小值为,算得: (2-7) (2-8)可得: (2-9) (2-10)然后计算过零率阈值: (2-11)式中,为固定值,一般为25,和。分别为最初10帧过零率的均值和标准差。先根据,算得一初始起点。方法为从第11帧开始,逐次比较每帧的
39、平均幅度,为平均幅度超过的第一帧的帧号。但若后续帧的平均幅度在尚未超过之前又降到之下,则原不作为初始起点,改记下一个平均幅度超过了的帧的帧号为,依此类推,在找到第一个平均幅度超过时停止比较。只是根据能量信息找到的起点,还未必是语音的精确起点。这是由于语音的起始段往往存在着能量很弱的清辅音(如、等),仅依靠能量很难把它们和无声区分开。但研究发现它们的过零率明显高于无声段,因此可以利用过零率这个参数来精确判断清辅音与无声区二者的分界点。当确定后,从帧向帧搜索,依次比较各帧的过零率,若有3帧以上的,则将起点定为满足的最强噪声环境下语音信号端点检测方法研究前帧的帧号,否则即以为起点。这种起点检测法也称
40、双门限前端检测方法14。语音结束点的检测方法与检测起点相同,从后向前搜索,找第一个平均幅度低于、且其前向帧的平均幅度在超出没有下降到以下的帧的帧号,记为,随后根据过零率向搜索,若有3帧以上的,则将结束点,定为满足的最后帧的帧号,否则即以,作为结束点。2.5 时域预期研究方向由于语音信号和噪声环境的复杂性,此领域的相关研究有待进一步探索。下一步的工作将可从以下几个方面展开:(1)进一步致力于基础研究,提出更能反映语音本质且鲁棒性好的特征参数,能够将所有(或更多、更广泛类型)的语音信息与噪声信息很好地区分开来,这方面的工作具有相当的难度与挑战性,不过一旦取得突破,其意义不可估量。(2)对于经典的方
41、法,目前已加入一些新的理论,下一步可以尝试这些新的方法。如对于特征滤波方法,可将形态学用于端点检测的前期语音增强工作中。(3)各种现有方法的综合运用。如基于自相关相似距离的端点检测法,因为它对清音的检测精确度不高,将它与能量法相结合(对清音检测精确度较高)或许能够在一定程度上改善语音端点的检测精确度。该类研究实质是基于多种语音信号特征的端点检测方法。(4)本文的实验是通过软件实现的,而实际系统为了提高系统的可靠性,将系统的核心部分方法硬件化,用软硬结合的方式实现系统,以期提高系统的效率和安全性。(5)提出更有效、更快速的算法,如自适应算法应用语音端点检测,使得端点检测的方法能适用于不同的信噪比
42、环境。(6)突破现有的端点检测方法研究框架,应用交叉学科的知识提出新颖的端点检测方法,例如多模式语音端点检测15,能有效地融合语音和视觉图像信息,进行语音感知和识别时会收到意想不到的效果。目前,视觉信息正逐渐被用于语音感知和识别中,也受到越来越多人对视觉与语音结合技术研究的关注。有效的语音端点检测可以减少实时系统中的大量计算,使该系统仅处理语音输入,不至于在静音段白白浪费计算量和存储量,有利于系统的实时准确识别工作。因此端点检测算法本身不仅要求精确的结果,还应具有实现算法简单的特点。 2.6 本章小结本章简要介绍了几种常用的时域上语音端点检测方法。虽然,随着越来越多的研究者关注语音端点检测技术
43、,大量的端点检测方法也相继提出,但是在以上几种常见的语音端点检测方法中,仍然普遍存在着以下两个方面的问题:(1)端点检测准确率不高。(2)语音端点检测方法的抗噪声能力普遍不强。上述方法在高信噪比环境下的端点检测性能较好,而对于强噪声背景下的语音信号端点检测则比较差。由此,本章最后提出了以后在该领域进行端点检测的研究方向,不断找出计算量小且更加准确的端点检测算法。第3章 基于倒谱的端点检测方法3.1 倒谱概述同态信号处理也成为同态滤波,它实现了将卷及关系变换为求和关系的分离处理。众所周知,为了分离加性组合信号,常采用现行滤波方法。而为了分离加性组合(如乘积性或卷积性组合)信号,常采用同态滤波技术
44、。同态滤波是一种非线性滤波,但它服从广义叠加原理。对语音信号进行同态分析后将得到其倒谱参数,所以同态分析也成为倒谱分析。由于对语音信号分析是以帧为单位进行的,所以得到的是短时倒谱参数。无论是对于语音通信、语音合成还是语音识别,倒谱参数所含的信息比其他参数多,也就是说语音质量好、识别正确率高;其缺点是运算量较大。尽管如此,倒谱分析仍是一种有效的语音信号分析方法。3.2 倒谱距离定义设信号,其倒谱变换为。信号倒谱的一种定义是信号的能量谱密度函数的对数的傅里叶反变换,或者可以将信号的倒谱看成是的傅里叶级数展开16,即 (3-1)式中,为倒谱系数,且是实数,下式计算: (3-2)假设信号的变换具有有理
45、函数的形式如式3-3所示。式中的模都小于1,分别表示单位圆内和外的零点数目,和分别表示单位圆内和外的极点数目。对取逆变换得到 (3-3) 倒谱系数的另一种表达式: (3-4)很明显当趋向无穷大时倒谱的幅度值是收敛的: , 当时 (3-5)式中A是模的最大值,为一实常数。由(3-5)式可以看出,倒谱是一个快速衰减序列,其衰减速度至少为,所以在误差允许的范围内可以用有限阶倒谱系数近似无限阶倒谱系数。根据Parseval定理,对于两个不同信号和,其倒谱差异的均方值可用倒谱距离表示: (3-6)式中为倒谱距离,和别是对应于谱密度函数和的倒谱系数。用P阶倒谱系数近似无限阶倒谱系数,式(3-6)可以近似为 (3-7)信号与其倒谱是一一对应的变换,因此倒谱的均方距离可以反映两个信号(比如语音与背景噪声)谱的区别,倒谱距离可以作为信号端点检测的判决参数,属于相似距离范畴。3.3 基于倒谱距离的检测算法基于倒谱距离的检测算法流程为: (1)预处理 对8KHz采样信号进行预加重处理,然后分帧加窗,帧长取30ms(240个采样点),帧移10ms,对每一帧信号加240点的Hamming窗。(2)估计噪声倒谱系数和倒谱距离 阶数P取12,首先假定抽样信号起始10帧是背景噪声,利用这10帧的前5帧倒谱系数的统计平均值作为背景噪声倒谱系数的估计