1、项目综述基于ARM的声纹识别系统一.声纹识别的基本原理 声纹识别的工作过程一般可分为两个阶段:训练阶段和识别阶段。在训练过程中,系统提取出最能代表说话人个性特征的特征参数,并对所提取出来的特征参数进行学习训练,建立声纹模板或语音模型库。在识别过程中,根据系统已有的声纹模板或语音模型库对输入用语音的特征参数进行模式匹配,判别,得出结果。三.语音信号的倒谱特征分析的主要理论方法根据所分析的参数类型,语音信号分析包括两个方面:时域和变换域。时域直接对语音信号的波形进行分析,得到信号幅度,能量,过零率及自相关函数等。变频域可以使信号某些在时域上无法表现出来的特征变得特别明显。最常用的是傅里叶变换,为了
2、能够分析处理非平稳信号,提出短时傅里叶变换。同态信号分析处理:语音信号是由激励信号源和声道响应相卷积的结果,是非加性信号,不能用线性系统来处理。同态信号分析就是将非线性转化为线性问题来处理,便于分析。同态分析的基本思想就是对语音信号解卷积,从而将声门激励和声道特征分离开来,分离的方法是对语音信号在频域上取对数,再反变换到时域中。倒谱(Cepstrum)就是从同态分析处理中引出来的概念。“倒谱特征”利用了对语音信号做适当的同态滤波可以将激励信号和声道信号加以分离的原理,它是用来表征不同说话人最有效的个性特征之一。 设语音信号为s(n),声门脉冲激励为e(n),声道响应为v(n),根据语音信号产生
3、模型,语音信号为声门激励与声道响应的卷积,通过以下运算,可以得到倒普: 在实际应用中,Z变换难以实现,所以常常忽略倒普运算中的虚数部分,用快速傅里叶变换FFT来做近似计算经过同态处理后,s(n)的高频部分代表了激励的特性,而低频部分代表了声道的特性,容易被分离开来。三.信号的预处理3.1 语音的采样和量化(AD转换)对声音信号进行数字化。语音经音频采集设备如麦克风,进行声电转化变为模拟信号,然后经由A/D进行采样,量化变为数字信号。一般采用8kHz的采样频率。降低采样率可以减少数据量,这在嵌入式系统中尤其珍贵。当采样率从16KHZ降到8KHZ,所造成的识别率下降不超过1,但可以节省语音识别前端
4、50的动态存储空间,减少运行时识别前端25的计算量。综合以上因素,在实际采样中我们都采用8KHZ采样率。如果是对已经录好音的文件进行处理,实际上就跳过了采样与量化这两步。3.2语音信号的预加重800Hz高频部分会出现一定的衰落。预加重就是加强高频部分,使信号的高频部分变得平坦,便于进行频谱分析或者声道参数分析用一阶数字滤波器实现:Hz=1-z-1其离散表达式为yn=xn-x(n-1)3.3 分帧(短时分析方法)此时的语音信号实际上是一个时变信号,而它只有在短时间内才能表现出准平稳特性。我们假设语音信号在l0ms-30ms短时间内是平稳的。每一个短时间段称为一帧,为了从语音信号中提取N帧特征数据
5、,我们需要采用有限长度的窗函数序列w(n)。分帧其实就是加矩形窗。3.4加窗为了减少语音帧的截断效应,降低帧两端的坡度,使语音帧的两端不引起急剧变化而平滑过度到零,就要使语音帧乘以一个窗函数。理想的窗函数的频率响应要求主瓣无限狭窄且滑旁瓣(即无频谱泄露),但这种窗函数在实际工程中不存在。根据不同的作用,常采用以下几种窗函数来逼近理想的频率响应。一般常用矩形窗和汉明窗。3.5端点检测(时域)语音端点检测一般步骤如下:1将语音信号分成相邻有重叠的语音段,称为语音帧;2采用一种判决准则,例如门限判决或模式分类,来检测语音帧和非语音帧;3对有效的语音帧进行相应的标识,得到有效语音段的全部区间;一般常采
6、用两种时域特征:短时能量和短时过零率,通过设定它们的门限进行检测。短时能量有以下几个方面的应用:首先利用短时能量可以区分清音和浊音,因为浊音的能量要比清音的能量大的多:其次可以用短时能量对有声段和无声段进行判定,对声母和韵母分界,以及对连字分界等等。在说话人识别中,主要用于对有声段和无声段进行判定。短时过零率则是指一帧语音信号中波形穿越零电平的次数。由于语音信号包括有静音段和有效语音段,静音段的由于只包含随机噪声,其波形变化大小较缓慢,而有效语音段由于有声带的振动及气流在口腔中的摩擦、冲击等影响,造成波形在幅度上的变化比较剧烈,短时过零率即是用来描述这种变化的剧烈程度。过零率可以用于判断有语和
7、无语,但很容易受到低频信号干拢而引起误判。为了解决这个问题,可以改为过正负门限,为了进一步提高判断准确率,可以采用多门限过零端点检测算法。四.特征向量的提取特征参数提取的目的就是从说话人语音中提取出能够表征说话人特定器官结构或习惯行为的特征参数。这也是语音识别与声纹识别的差别所在。语音信息中包含有具有共性的语音内容信息,也有具有差异的个性声音特征。语音识别是要提取出语音内容而屏蔽掉个性差异;声纹识别则需要提取出反映个性差异的信息而忽略语音内容的影响。人的声道特征的参数有:LPC系数、声道截面积比、基音频率、共振峰等;根据人的听觉特性导出来的参数有MFCC等;反映人后天发音习惯的有:基频包络、S
8、uperID等。可以把上述特征参数划分为两个层次:一是反映人发声及听觉器官的低层语音声学特征,二是反映人后天发音习惯的高层特征参数。目前人们对低层声学特征的研究较为透彻,对高层特征参数的研究处于起步阶段。4.1 线性预测倒谱系数(Linear Prediction CepstraI Coding,LPCC)特征参数的提取线性预测分析的基本思想就是:语音信号相邻的采样点之间有很强的相关性。因此,每个语音信号的采样值,可以用它前面的若干个采样值的加权和(线性组合)来近似表示:预测误差定义为真实采样值和预测值之差,根据预测误差均方值最小准则,可以唯一确定一组线性预测系数,这些预测系数就是线性组合中所
9、用的加权系数。线性预测(Linea r Prediction Coding,LPC)分析的基本原理是将被分析的信号用一个模型来表示,即将信号看作是一个模型的输出。这样的话我们就可以用模型参数来描述信号。在说话人识别系统中,很少直接使用LPC系数,而是利用LPC系数推倒出倒谱系数,即线性预测倒谱系数LPCC。它的主要优点是比较彻底的去掉了语音产生过程中的激励信息。主要反映声道的响应,而且往往只需要几十个倒谱系数就能较好的描述语音的共振峰特性。因此在说话人识别应用中得到了很好的效果。要求得LPC系数,需要求解LP正则矩阵,有很多种求解方法,对考虑到该LPC正则矩阵系数矩阵的特殊性质,一般采用自相关
10、解法或自协方差解法进行求解,可以得到比求解普通方程高得多的求解效率。4.2 MEL特征参数(Mel Frequency Ccpstrum Coefficient,MFCC)的提取人耳具有一些特殊的功能。这些功能使得人耳在嘈杂的环境中,以及各种变异情况下仍能正常地分辨出各种语音,其中耳蜗起了很关键的作用。耳蜗实质上相当于一个滤波器组,耳蜗的滤波作用是在对数频率尺度上进行的,在1000Hz以下为线性尺度,而1000Hz以上为对数尺度,这就使得人耳对低频信号比对高频信号更敏感。根据这一原则,研究者根据心理学实验得到了类似于耳蜗作用的一组滤波器组,这就是Mel频率滤波器组。MFCC主要基于听觉原理的两
11、个关键特征:一个是关键带(bark),即人对声音响度的感知和声音的频宽有关,当声音的频宽没有超过关键带宽时响度恒定,超过后响度随之增加,关键带的增长与频率的增长是一致的;另一个是人耳对声音频率的分辨能力在物理频率上呈非线性的对数关系,而在Mel域上呈均匀的线性分布。Mel域把人耳对声音在物理频率上的非线性刻度转化为在Mel域上的线性刻度。MFCC将频谱转换为基于MeI频标的非线性频谱,然后转换到倒谱域上,由于充分考虑了认得听觉特性,而且没有任何前提假设,MFCC参数具有良好的识别性能和抗噪能力,使其在噪声环境下仍然有较高的识别能力。但是MFCC的计算量和计算精度要求都很高,这给我们的嵌入式移植
12、提出了更高的挑战。MFCC是建立在傅立叶和倒谱分析基础上的。对短时音频帧上的采样点进行Fourier变换,得到这个短时音频帧在每个频率上的能量。将整个频率分成万个就构成MFCC(也叫Mcl系数)。如果对提取出来的Mcl系数再计算其对应的倒谱系数,就是Mel倒谱系数。它广泛的应用于各种说话人识别和处理领域中。步骤解释如下:1)MFCC也是按帧计算的,所以也要先对语音信号的进行预处理,对语音进行预加重、分帧及加窗处理、端点检测等,得到可以用于提取特征参数的语音向量。2)对经过预处理的每一帧语音向量进行分别进行离散傅立叶变换(DFT),但由于其运算量较大,常采用高效的快速傅立叶变换(FFT)变换,得
13、到其频谱。需要注意的是,进行运算是要考虑FFT的点数选取问题。3)求它的频谱幅度的平方得到能量谱,并将此频域信号通过一组三角Mel滤波器组进行滤波处理,并得到一组系数。该滤波器的作用就是能过Mel尺度把声音信号的物理频谱变换到符合人耳听觉感知的Mel频谱,其中滤波器组中的每个三角滤波器的跨度在Mel域上是相等的,所用的滤波器总体上覆盖了从0Hz到Nyquist频率,即采样频率的一半。滤波器的个数P一般为1624个。4)利用离散余弦变换(DCT)将滤波器输出变换到倒谱域,这样做的主要目的是对不同频段的频谱成分做解相关处理,方便进一步的建模和计算。五.矢量量化5.1模式匹配模板匹配法的要点是,在训
14、练过程中从每个说话人发出的训练语句中提取相应的特征矢量,这些特征矢量能充分描写各个说话人的行为。这些特征矢量称为各说话人的模板。它们可以从单词,数字串或句子中提取。在识别判断阶段,从说话人发出的语音信号中按同样的处理方法提取测试模板,并且与其相应的参考模板相比较。动态时间规整方法(DTW):说话人信息不仅有稳定因素(发声器官的结构和发声习惯),而且有时变因素(语速、语调、重音和韵律)。将识别模板和参考模板进行时间对比,按照某种距离测定得出两模板间的相似程度。常用的方法是基于最近邻原则的动态时间规整DTW。VQ聚类方法:矢量量化(Vector Quantization,VQ)最早是基于聚类分析的
15、数据压缩编码技术,是一种极其重要的信号压缩方法,广泛应用于图像信号压缩、语言信号压缩等领域。Helms首次将其用于声纹识别,把每个人的特定文本编成码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为判决标准。采用这种方法的识别精度较高,且判定速度快。5.2矢量量化矢量量化的基础是信息论的分支理论:率一失真理论。该理论指出,在给定量化失真D的条件下,能够达到的最小量化速率R(D)也是一定的,反之亦然。矢量量化时矢量维数越大性能越优越,这是因为矢量量化有效地应用了矢量中各分量间的各种相互关联性质来消除数据中的冗余度,因此比标量量化具有更好的压缩效果。矢量量化的基本思想是将若干个标量数据联合成一个矢量,然后对矢量空间进行划分,从而在信息量损失较小的情况下压缩了数据。不同的划分或不同的代表矢量选取方法就可以构成不同的矢量量化器。一种基本的矢量量化器由下图所示,它由编码器,译码器和码书构成。矢量量化就是把特征空间中大量分布的向量投射到这个空间的有限点上,从而达到压缩数据又不会对精度造成太大影响。应用矢量量化进行声纹识别,具有无需时间规划,计算量小,识别精度高的优点。在声纹识别中,矢量量化的特征空间是由表征说话人个性的特征参数向量所构成,经过矢量量化后,每个说话人只剩下最具有代表性的特征向量,这些特征向量的集合,就构成了相应说话人模型(码书或码本)这个过程如下图:
版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如有侵权请立即联系:2622162128@qq.com ,我们立即下架或删除。
Copyright© 2022-2024 www.wodocx.com ,All Rights Reserved |陕ICP备19002583号-1
陕公网安备 61072602000132号 违法和不良信息举报:0916-4228922