声信号时域结构的分析研究.doc可修改原格式下载

资源描述

1、声信号时域结构的分析研究摘要：在石油工程中，信号处理已经成为一项日常的处理工作，本课题的研究就属于信号信息处理的范畴，研究的重点是声信号时域结构的分析研究。在目前的声信号时域结构的分析研究，都是以音节为最小单位进行的，而对小于音节的声音效果没有足够的研究。本课题利用专用的音频信号处理软件，将语音信号转换为可以耳听测试的一个个音节或词组信号。然后在不同时间段上通过对音节或词组信号切分后的分段信号的声效特征进行耳听试验分析，获得了相对独立的各种不同的音节信号，来对音节信号进行测试。然后对测试进行统计分析，获得了初步的统计结果。从宏观、整体上实现了对声母语音的变化特征和规律性的了解。关键词：声母

2、信号处理时域语音信号The Analysis for Time-domain Signal StructureAbstract： Signal processing has already become a daily work in the petroleum engineering, this topic belongs to this category of signal information processing, the main point of this research is the analysis of time-domain signal structure. Va

3、rious studies on speech signals take syllable as a minimum unit.The substructure for syllables have not been enough researched. This topic exclusive use of the audio signal processing software, digital sound wav files were converted into different syllabic phrases or signals. Then sub-segment of eac

4、h syllable or phrase was tested for their sound characteristics. Different independent syllable signals contained in main one were extracted and identified. Such sub-segment data were collected, Come to carry on a test to the syllable signal。After analysing these tests date for , statistical results

5、 for each initial were obtained.The features and law changed in initials have been identified as a whole.Key words：Initials Signal Processing Time Domain Voice Signal目录1 绪论.11.1 本课题目前的研究进展情况11.1.1 声学发展的历史.11.1.2 语言声学的研究状况.21.2 信号处理的方法31.3 人类对声信号的感知41.4 声信号的识别51.5 虚拟仪器技术概论71.5.1 虚拟仪器的定义71.5.2 虚拟仪器的特

6、点71.5.3 虚拟仪器的体系81.6 信号处理的应用81.6.1 信号处理应用领域81.6.2 信号处理的发展趋势91.7 目前研究存在的问题101.7.1 问题的提出101.7.2 本课题研究与本专业、今后工作之间的联系和意义112 信号处理的基本知识122.1 信号的相关知识122.1.1 信号的概念122.1.2 信号的分类122.2 数字信号处理硬件132.3 信号处理软件142.4 本课题语音信号的采集153 语音信号的分析与处理163.1 SpeechSignalPS软件介绍163.2 操作过程实例183.3 操作的内容和工作量183.4 处理结果的数据库保存193.4.1 创建

7、数据库203.4.2 编制数据入库软件204 语音性能时域结构的分析214.1 按声母归类的统计分析214.2 按替代声母归类的统计分析225 全文结论26附录1 处理结果的数据库保存于统计分析程序27附录2 按声母归类的统计分析列表33参考文献34致谢371 绪论1.1 本课题目前的研究进展情况1.1.1 声学发展的历史15（1）古代声学简介我国是世界上的文明古国。根据对现存的有关古书及文物的考证可以看出，我国古代有关声学方面的知识是从制造、使用乐器开始的。公元前43世纪间成书的墨经中有大量的有关声学方面的记载。其中有一段关于利用挖地井埋缸听测地声的记录。这种方法，现代仍在使用。在我国，一

8、些古建筑中还有一些巧妙地利用声音反射、共鸣特性的。其中最著名的就是北京天坛的回音壁、三音石、圆丘。此外还有山西永济县的莺莺塔。（2）近代声学的发展20世纪以前，声源仅限于人声、乐器、音义和哨子。频率限于可听声范围内，可控制的声强范围也有限。接收仪器主要是人耳，有时用歌弧、歌焰作定性比较，电话上的接收器和传声器还很简陋，难于用作测试仪器。20世纪以后，人们把电路理论应用于换能器的设计，把晶体的压电性用于声信号和电信号之间的转换，以后又发展了压电陶瓷、驻极体等，并用电子线路放大和控制电信号，使声的产生和接收几乎不受频率和强度的限制。在我们日常生活中，声波是听觉信号的载体，而视频信号则是图像信息的载

9、体。人类大脑在接收到声信号和视觉信号之后要进行一系列的处理，有些处理是非常复杂的。如语言的识别、理解、联想，图像的分类、识别等。现代声学的研究可以追溯到英国的伟大物理学家牛顿的工作。他在1687年推导了声速公式，但因为用错了常数，使实际测量的声速值与理论不符。直到1816年，拉普拉斯提出气体的弹性系数应采用绝热过程（而不是恒温过程）的弹性系数，而使理论与实测的值达到一致。德国人克拉尼（17561827）是实验声学的创始人，他的名著声学是声学方面的第一本教科书，出版于1802年。一般认为，现代声学基础的奠基者是杰出的英国物理学家瑞利（18421919）。他在声学、振动理论、光学理论及热辐射方面都

10、有贡献他于1877年发表了声学理论，基本上完成了声学的数学理论15。声学的发展和无线电电子学的发展是分不开的。这里首先要提一下的是能把电信号变成声信号和把声信号变成电信号的换能装置。1861年赖斯发明了第一个扬声器。他在磁棒上绕上线圈，然后把它放在一个共振匣内，当变化的电流通过线圈时，由于电磁感应，线圈发生振动，通过共振匣发出了声音。1877年美国大发明家爱迪生发明了机械留声机。它由一个用锡箔包着的圆筒和装着针尖的膜片组成。当人对着话筒说话时，声压就从膜片传到针尖，转动锡箔圆筒，针尖就在锡箔上刻出沟纹。这一发明使人类第一次可以把声音存贮起来15。（3）现代声学的应用15在现代声学广泛应用于各个

11、方面：建筑声学为现代大型剧场、大会堂的设计提供声学指导，也为城市噪声控制提供标准。对噪声和振动的研究还是和国防密切相关的课题。火箭、导弹飞行时的振动及其控制一直是衡量它们总体性能的重要指标。电声学的发展和近代通讯技术紧密相关。通讯、广播及日常生活中所使用的各种高音质音响设备为丰富人们的文化生活起着越来越大的作用。超声及其应用是近代声学发展最迅速的新兴分支。超声无损检测、超声诊断、超声医疗已在工业及生活方面发挥作用。水声学是近代声呐设计和海洋开发的技术基础。军事上所用的声呐设备及海洋开发中所用的地震勘探设备、剖面仪等都是利用水声技术研制出来的。1.1.2语言声学的研究状况语言声学也称为语言通信

12、，是近代声学中的一个分支学科，是用声学方法研究语言的产生、传递、接受和转换的一门科学。语言是既具有自然属性又具有社会属性的复杂的信号系统。声学方法不但直接用于研究语言信号的声学特性本身，而且用于研究语言的心理特性和生理特性。语言分析、合成和感知是语言声学研究的主要方法。在研究语言时，声学特性是主要的；在研究音节时，便要考虑到音节结构；而在研究词句时，则又需要考虑语法和语意。因此，在语言声学研究中，还涉及到语言学和信息论。早在一二千年以前，人们便对语言进行了研究。由于没有适当的仪器设备，长期以来，一直是由耳倾听和用口模仿来进行研究。因此，这种语言研究常被称为“口耳之学”，所以对语声只是停留在

13、定性的描写上。19世纪60年代，亥姆霍兹应用声学方法对元音和歌唱进行了研究，从而奠定了语言声学的基础；1876年电话的发明，以及电话通信的飞速发展，促进了语言信号的声学特性及其与语言感知的关系的研究。电子技术的发展，为语声的定量研究，提供了有力的手段。20世纪40年代，一种语言声学的专用仪器语图仪问世了。它可以把语声的声学特征用语图表示出来，从而得出了“可见语言”。这对语言声学的发展作出了重要贡献。50年代对语言产生的声学理论开始有了系统的论述，到了60年代语言声学研究得到了计算技术的帮助，使得过去受人力、时间限制的大量的话声统计分析工作，得以在电子计算机上进行。在此基础上，语言声学不论在基础

14、研究方面，还是在技术应用方面，都取得了突破性的进展。反过来，电子技术和计算技术的发展，又对语言声学提出了新的课题。当前，计算机的语言输入和语言输出、自动应答装置、自动语言识别、嗓音鉴别、语言理解系统等，都迫切需要对语言信号的许多基本问题作出新的解答。近年来，有关语音识别和语音理解的研究获得了很大的进展，各发达国家竞相投入大量的人力、物力组织攻关，研究内容包括八个核心课题：高级语言分析、语言特征分析、语音识别、语言理解、语言合成、口语交互的知识处理和对话技术、噪音和干涉环境下的语言处理技术、人机交互系统和技术评价。九十年代后期继而进行自动电话翻译系统和日英等多语种语言互翻系统等重要课题的研究3。

15、美国自九十年代开始包括用于军事领域的语音识别和语言理解、通用语料库加工处理等研究，目前主导语音识别发展发展方向的主要研究机构是IBM和AT&T的BellLab。IBM公司和BellLab使用的方法都是基于统计模型HMM（隐马尔可夫模型）。目前，在技术上IBM领先于BellLab3。IBM使用离散参数HMM，构成一些基本声学模型，然后利用固定的有限个基本声学模型构成Word模型。这种方法，可以利用较少的训练数据获得较好的统计结果。并且，这种方法可以使训练自动完成。这对于系统在以后的使用过程中，一个新的用户可以较为轻松地、使用较少注册数据，将自己的发音特点映射到系统的对数空间去，是极为关键的。还

16、有IBM在中国开发了汉语ViaVoice语音识别系统，它基于中文自身的特点，既同音字多、有声调、词界不同、新词不断出现等实际问题，在Windows95上实现了不依赖于话者的大词汇表连续语音识别，它带有一个3万多条词的基本词汇表，包括办公室常用的中文词条，具有“纠错机制” 3。ViaVoice是IBM的Tangora（美语语音识别系统）系统的中文版。每一种语音识别系统，都可以分为声学处理器和语言解码两部分。ViaVoice的声学处理器具有相当的抗噪声能力，这主要是通过采用了听觉模型，以及在VQ（矢量化）中使用噪声自适应算法的缘故。在声学处理器中，经过听觉模型得到的语音信号，做256点FFT，然后

17、取20个临界频段的频谱能量，并做长时归一化处理最后进行VQ聚类，这样可以对噪音自适应。语音解码器，ViaVoice是基于一种离散HMM，建立在随机文法的基础上。ViaVoice的基本识别算法是通过使用HMM，以及Context-Dependent，VQ和决策树而实现的。这种算法能够较为准确地提取各种说话人在不同语境中语音信号的特性，同时将大量的系统参数压缩到最低的限度。ViaVoice前端声学处理具有一定的抗噪声能力。对于标准发音说话人的语音，该系统具有非常高的识别准确率，对于稍微带有口音的人，在经过一定的适应性训练后，可以改善识别效果3。近年来，中科院自动化所基于对汉语全音节识别的研究基础

18、，对面向听写机的大词汇量多音节词识别和连续语音识别进行了全面的研究和开发，1995年开发成功基于WINDOWS环境的非特定人大词汇表孤立词汉语听写系统。还有中科院声学研究所研制的人机对话工程一依赖于话者的4万6千词汉语语音识别。清华大学基于统计理解方案的汉语全音节语音识别系统-知音文书处理系统3。1.2 信号处理的方法30在实际的工程应用中，所分析的声信号可能包含设备有用声信号，同时也包含着各种与设备有用声信号无关的干扰噪声。对这类声信号进行分析，首先需要对其进行预处理，将其中的干扰部分去除，提取有用声信号。包括声信号的时域分析和声信号的频谱等分析方法。1）时域分析方法时域分析方法就是直接对时

19、域信号的时间历程进行分析和评估。特别是当信号中含有简谐信号、周期信号或短脉冲信号时更有效。直接观察时域波形可以看出周期、谐波、脉冲，利用波形分析可以直接识别出共振和拍频现象。本课题的研究热点就是汉语语音信号的时域结构分析。通过研究以便获得汉语音节信号组成结构的新认识和新了解。2）频域分析方法目前对故障进行定位最常用的方法就是对信号进行频域分析。频域分析的基础是谱分析方法，就是利用某种变换将复杂的信号分解为简单信号的迭加。由于故障的发生往往会引起声信号频率结构的变化，所以通过对各频率成分进行分析，对照机器零部件运行时的特征频率。就可以查找小型柴油机的故障源。目前，常用的频域分析方法主要有幅度谱分

20、析和功率谱分析。3）倒频谱分析方法由于工程实测的声信号往往不是振源信号本身，而是声信号经过传递系统到测点的输出信号。倒频谱能够突出功率谱图的一些特点和显示振动状态的一些变化，特别是能揭示谱图中的周期分量。4）现代时一频分析方法时域和频域分析适用基于平稳或准平稳过程的信号，单纯用时域或频域分析法则存在分辨率不足的问题。时频分析法弥补了这一缺点。常用方法有:短时傅立叶变换、小波变换等侧.傅立叶分析理论是十分完善的，但不易于实现。Shannon提出的采样定理(Sampling Theory)打开了数字技术研究的大门，使离散傅立叶变换(DFT)使傅立叶分析的计算机实现成为可能。1965年，美国贝尔实

21、验室的Cooley,Turkey两位工程师提出了快速傅立叶变换(FFT)为这一数学工具赋予了新的生命力。从此，傅立叶分析才真正从理论走向了实践，成为人们认识自然、改造自然的流行工具。在傅立叶分析中，用三角函数作为基函数，把周期函数展开成傅立叶级数(Fourier Series),把非周期函数展开成傅立叶积分，利用傅立叶变换作频率分析。这一系列规范、传统的分析技术不论在纯数学领域还是在应用数学领域，甚至在工程技术发展史上都长期占有极其重要的地位。5）小波分析小波分析与傅立叶分析有着密切的联系，是对傅立叶分析继承、总结和重大突破，是傅立叶分析发展的新阶段，可以说小波分析来自傅立叶分析。所以，在讨论

22、小波分析之前。首先讨论傅立叶分析。小波分析(Wavelets Analysis)是20世纪80年代中后期逐渐发展起来的一种新的数学分析方法，它既具有丰富的数学理论意义，又具有广泛的工程应用价值。无论是对数学，还是对其他应用学科都产生了深远的影响，特别是在信号处理、图像处理、语音分析以及其他众多非线性科学领域，有着非常广泛的应用。被认为是继傅立叶分析(Fourier Analysis)之后又一有效的时频分析方法，是对傅立叶分析(Fourier Analysis)理论最辉煌的继承、总结和重大突破，是傅立叶分析发展的新阶段。迄今为止，小波分析已经成为信号分析及其它应用领域中非常流行的分析工具。图1-

23、1 小波理论非均匀划分时频空间示意图小波分析是一种时间和频率的局域变换，采用多分辨率分析的思想，非均匀地划分时频空间。通过伸缩和平移等运算功能对信号进行多尺度细(multiscale analysis)，人们可以在不同尺度上来观察信号。对低频部分采取较高的频率分辨率和较低的时间分辨率，在高频部分来取较高的时间分辨率和较低的频率分辨率，逐渐粉细的时域步长，可以聚焦到被分析信号的任意细节，囚而它比傅立叶分析更适合处理非平稳信号。被誉为“数学显微镜”。在信号处理领域有着得天独厚的优势。图1-1为小波理论非均匀划分时频空间示意图。1.3 人类对声信号的感知14声信号均是由时域和频域两种成份组成。前者提

24、供信号的时间特征，而后者代表信号的空间特性。听觉系统对两种成分的编码有很大差别.时域信号的解析已成为听觉生理研究的主要课题之一。研究表明，听觉系统对时域信号的解析主要通过两种形式完成：其一为时域信号的同步响应(synchronization)；另一形式为时域整合(Integration)。在听觉传导通路中，虽各核团结构均对声信号进行过加工、处理，但听觉皮层对该种信号的编码处理却在听觉记忆、语言感知等方面起着非常重要的作用。然而，至今对听觉皮层神经元连续性时域信号编码处理的机制尚不十分清楚。清醒状态及外周性病理状态下听觉皮层对该种时域信号处理特性的研究尚未见报道。为探讨听觉皮层神经元在上述两种状

25、态下对时域信号的处理机制，文献进行了一系列的相关研究。并对听觉皮层的组织学界定进行了探讨。现代声学研究主要涉及声子的运动、声子和物质的相互作用，以及一些准粒子和电子等微观粒子的特性。所以声学既有经典性质，也有量子性质。声学的中心是基础物理声学，它是声学各分支的基础。声可以说是在物质媒质中的机械辐射，机械辐射的意思是机械扰动在物质中的传播。人类的活动几乎都与声学有关，从海洋学到语言音乐，从地球到人的大脑，从机械工程到医学，从微观到宏观，都是声学家活动的场所。声学的边缘科学性质十分明显，边缘科学是科学的生长点，因此有人主张声学是物理学的一个最好的发展方向。声波在气体和液体中只有纵波。在固体中除了纵

26、波以外，还可能有横波(质点振动的方向与声波传播的方向垂直)，有时还有纵横波。声波场中质点每秒振动的周数称为频率，单位为赫(Hz)。现代声学研究的频率范围为万分之一赫兹到十亿赫兹，在空气中可听到声音的声波长为17毫米到17米，在固体中，声波波长的范围更大，比电磁波的波长范围至少大一千倍。声学频率的范围大致为：可听声的频率为2020000赫，小于20赫为次声，大于20000赫为超声。声波的传播与媒质的弹性模量，密度、内耗以及形状大小(产生折射、反射、衍射等)有关。测量声波传播的特性可以研究媒质的力学性质和几何性质，声学之所以发展成拥有众多分支并且与许多科学、技术和文化艺术有密切关系的学科，原因就

27、在于此。声行波强度用单位面积内传播的功率(以瓦/米2为单位)表示，但是在声学测量中功率不易直接测量得，所以常用易于测量的声压表示。在声学中常见的声强范围或声压范围非常大，所以一般用对数表示。称为声强级或声压级，单位是分贝(dB)。1.4 声信号的识别模式识别过程由信号的采集、信号预处理、信号特征提取、目标分类四大部分组成。在各种类型的信号中,声信号是很常见的信号,它可以表征各种声源类别,基于信号处理的声识别技术是重要的探测技术,可广泛用于预警、目标识别和目标初步探测定位等。与其他探测技术相比,声探测技术有如下的优点:声探测技术采用被动工作方式,不易受到干扰；声波具有传播介质不变性,可以探测到障

28、碍物后面的目标,不受视线的限制；声信号采集设备的体积小,重量轻,机动性强,易于隐蔽,不受气候等自然条件限制,可以全天候工作；探测精度高等。所以人们常选择声信号作为识别的信息源。声信号模式识别系统主要是利用声振动传感器拾取的信号对典型模式作出分类识别。语言识别是声信号识别的一种，它是根据语言信号的声学待征，有时加上语言的结构规则和语意线索，由机器认出输入的语言来。可以根据使用要求，由机器以不同的方式作出响应，如打印出与该语声相应的文字、符号，完成规定的动作等。它分为孤立单词自动识别和连续语言自动识别，自20世纪50年代开始系统而广泛的研究。对单个人小量词汇的自动识别已取得了较大的进展；但是，在更

29、换发话人和扩大词汇容量方面现在还有困难。语言识别的实现，面对着三个重大的语言声学基础课题：首先，语言知觉的基本单位是什么，是音素、音节还是单词；其次，是否存在音素的心理常量，如果有，它是什么；最后，如何对连续语言进行分段。现在，有限词汇的、在一定条件下适用的自动语言识别装置，已进入实际应用。适用于多数发话人的、不怕环境噪声干扰的和无限词汇的自动语言识别系统还有待于大量的基础研究。嗓音鉴别也称为发话人鉴别，它包括两个方面：发话人鉴定和发话人辨别。发话人鉴定是根据发话人已有贮的嗓音(口声)材料，与发话人现时提供的材料相比较，鉴定是不是发话人本人在说话。这可用于银行业务中，存款人用嗓音代替印鉴，以

30、便于通过电话来办理存取手续。发话人辨别是从大量的已有的嗓音样本中，辨别出哪一个与发话人的嗓音最相似或者与它们都不相似。与自动语言识别不同，嗓音鉴别在于利用语声当中代表发话人个性特征的部分，而自动语言识别则是利用不同发话人或同一发话人在不同时刻发同一语声时的共性特征。嗓音鉴别多采用听音-看图法，即由有训练的专业人员审听嗓音材料、检视语图特征声纹，以作出判断。嗓音鉴别已在法律程序中作为一种证据使用。1.5 虚拟仪器技术概论1.5.1虚拟仪器的定义12虚拟仪器概念最早是由美国国家仪器公司（National Instrument）在1986年提出的，但其雏形可以追溯到1981年由美国西北仪器系统公司推

31、出的Apple II为基础的数字存储示波器。这种仪器和个人计算机的概念相适应，当时被称为个人仪器。（Personal Instrument）。虚拟仪器(Virtual Instrument ,简称VI) 是现代计算机技术和仪器技术深层次结合的产物,是当今计算机辅助测试领域的一项重要技术。虚拟仪器的实质是利用计算机显示器的显示功能来模拟传统仪器的控制面板,以多种形式表达输出检测结果,利用计算机强大的软件功能实现信号数据的运算、分析和处理,利用I/ O 接口设备完成信号的采集、测量与调理,从而完成各种测试功能的一种计算机仪器系统。 1986年，NI公司推出了图形化的虚拟仪器编程环境LabVIEW，

32、标志着虚拟仪器软件设计平台基本成型，虚拟仪器从概念构思变为工程师可实现的具体对象。它是指通过应用程序将通用计算机与功能化硬件结合起来，用户可通过友好的图形界面来操作这台计算机，就像在操作自己定义、自己设计的一台单个仪器一样，从而完成对被测试量的采集、分析、判断、显示、数据存储等。与传统仪器一样，如果忽略它的跨网络的位置透明性，它同样划分为数据采集、数据分析处理、显示结果三大功能模块。1.5.2 虚拟仪器的特点图1-2 虚拟仪虚拟仪器典型的体系结构虚拟仪器典型的体系结构1）丰富和增强了传统仪器的功能。虚拟仪器将信号分析、显示、存储、打印和其他管理集中交由计算机来处理。2) 仪器由用户自己定义

33、。3) 开放的工业标准。虚拟仪器硬件和软件都制定了开放的工业标准，使资源的可重复利用率提高，功能易于扩展，管理规范，生产、维护和开发费用降低。4) 便于构成复杂的测试系统。可通过网络构成复杂的分布式测试系统，进行远程测试、监控、和诊断。可节约仪器购买和维护费用。 1.5.3 虚拟仪器的体系如图1-2虚拟仪虚拟仪器典型的体系结构。按接口总线类型不同划分虚拟仪器可分为：数据采集卡式 DAQ、RS232/RS485虚拟仪器、并行接口虚拟仪器、USB虚拟仪器、GPIB虚拟仪器、VXI虚拟仪器、PXI虚拟仪器、IEEE1394接口虚拟仪器等。根据所配声卡的工作特性和信号分析的设计要求!可设置相应的参数控

34、制声卡在数据采集时的行为！常见的参数如内存的基地址模数转换的采样速率采样时间预计模拟信号的输入E输出范围采样触发方式采样点数据的存储等。需要注意的是采样速率的值由声卡的物理特性决定! 用户可选择一个声卡支持的采样速率支持电平触发事件触发和手动触发8种触发方式来启动数据采集工作，在配置参数时要考虑到出现各种容易错误的情况! 比如当输入的模拟信号过载或采集工作时突然断电等允许编程者以调用回调函数和消息对话框的方式解决数据采集过程中出错应答和出错信息管理等问题启动设备对象!控制声卡开始采集数据!采集过程中可以向声卡发送控制命令! 如暂停采集、退出采集等。采集到的数据被暂时存放在!B 机的内存里!理论

35、上可采集的最大数据量&即采集时间的最大长度由机的内存容量决定!这一点相对于一般的数据采集系统而言有强的优势提供了记录采集过程中的所有特殊事件的函数! 可记录的事件包括采集设备的硬件配置采集的启动时刻采集时间采样速率通道数目等。如果采集过程中出现了错误! 出错的时刻错误产生的来源以及数据的采集情况等信息也都会被记录下来作为以后工作的参考使用要说明的是! 执行完一次数据采集工作后应当删除设备对象! 将内存中的数据存储在硬盘上之后释放数据存储所占用的内存空间! 以备下一次采集能有足够的内存空间存储新的数据。1.6 信号处理的应用1.6.1 信号处理应用领域信号处理的理论已渗透到很多领域，信号处理的技

36、术也已在很多工程部门得到应用。整个信息产业是现代国家的支柱产业之一，有信息就要有信号处理理论和技术。美国从1991年开始，把IEEE中原名为“声学、语言、信号处理”的协会改名为“信号处理”协会。我国也已成立了信号处理协会。现代数字信号处理技术把声学带到了更多的应用领域。它大大地丰富了人们的日常生活，同时使微机、通讯、消费电子产品等行业互相联系。声信号处理自身的发展和进步又反过来推动数字信号处理技术的发展，使DSP技术呈现出更加美好的前景。其中特别引人注目的是人机对话、机器翻译我们简略介绍这些应用领域。1）高级音响传统的模拟信号磁带式录音机，动态范围小（一般为40dB左右），频带窄（200Hz8

37、000Hz左右），因而音质较差。另外，这种磁带的节目搜索是非常麻烦的，而且也不易保存，复制的次数多了，质量就差了。现代的数字式录音机的采样频率为44.1kHz，因此，对输入信号的频响可扩展到20kHz左右，量化比特数一般在212以上。动态范围高达60dB以上。目前市场上出售的CD唱机是一种光盘系统。有5in（英寸）盘和3in盘两种。节目的搜索很简单。最新的一种3inCD唱机不仅可以放音也可以录音，完全可代替老式的模拟音响。2）多媒体计算机现代计算机已从单纯数值计算发展为多种用途。近年来发展最快的一个领域是多媒体技术。即一台计算机除了保持原有的科学计算、文字处理等功能之外，还可以用于声信号、图像

38、信号的处理。例如可以放CD唱片，可以放光盘录像电视，可以作为Fax机接收或发送传真，又可以用于电话应答。总之，是一台多种用途的多媒体计算机。3）语音识别，机器翻译由机器识别人类的语言，由机器在不同语种中进行翻译。这是科学家梦寐以求的事情。随着现代科学的发展，这一梦想正逐步变为现实。首先取得突破的是机器翻译。在理解的基础上，可实现不同语种之间的翻译。目前，英日语科学论文的翻译系统的准确率已达到80%。中、英文词组、短语之间的翻译准确率已可达90%。在语言识别方面。有限词汇、认人的单呼口令的识别已取得很大进展。连呼口令的识别也已有了突破。专家们普遍认为，汉语是最有希望首先实现机器识别的语种。因为汉

39、语的发音是以单字音节为基础的。同音字一共才1200多个（包括四声）。所以只要加强基础研究，找出人类理解语言的机理，就有可能率先在汉语识别中作出重大突破。到那时，人们可以一边讲话，另一边由计算机把所讲的话打印出来。人工合成语言方面也在取得进展。这一工作开始于本世纪30年代。但是直到50年代找到了较好的传输线模型来人工模拟人类发声机理，合成出具有一定质量的语言来。目前人工合成语言的主要问题是可懂度及与自然语言的差别。这一方面还有很长的一段路可走。4）在医学方面的应用数字式的超声医疗诊断设备正越来越广泛地用于实际的诊断。这一方面最突出的例子是彩色B超和多普勒血流计。这是一种多基元的超声发射及接收设备

40、，可以把人的内脏以很高的清晰度显示出来，为医生诊断提供有力的辅助手段。5）通讯电话信号的数字传输已被广泛采用，特别是由于光纤的使用，使数字传输以很快的速度取代老式的电话传输线路。数字采样用8kHz，8bit，电话信号的通频带为3.4kHz。在传输时，一般以24路为一个群，一次群频率为1.544Mbit/s一根光纤的传输率可高达1000M，也就是大约可容纳15000路电话。目前我国已开通自武汉至北京，北京至哈尔滨等多条光纤传输线路。1.6.2 信号处理的发展趋势对电声学而言，社会的发展和生产的需要，对电声学提出了大量的实际和理论问题。因此电声学总的发展趋势是：电声器件和电声设备朝着高保真、立体声

41、、高抗噪能力、高效率、高通话容量的方向发展；还要进行音质评价的研究，改善录放技术以及声音加工技术；新的换能机理的研究以及新材料的开发；提高检测声信号的能力仍是声测技术的主攻方向。总之，只要发声过程和听感(知觉)过程以及与二者互相联系的物理和生理上的规律不断为人们所掌握，电声学便会不断有新的发展，所以电声学是蕴藏着巨大生命力的学科。图1-3 汉语音节内部时域结构的初步测试训俊定基于信号处理的声音特征提取和模式识别技术近些年发展较快：一方面计算机技术的高速发展对该领域的研究起了促进作用，计算机信息处理速度的提高、存储器容量的增大等硬件性能提高使得研究人员能够研制和采用更为复杂的算法，另一方面,特

42、征提取和识别技术的实际应用的迫切性大大地推动了该领域课题的发展。声音技术已经从模式识别和人工智能的一个分支提升为一门综合人类智能各项研究的独立学科，随着声音模式识别技术的不断发展，在工业、农业、军事等领域将得到更多的应用。1.7 目前研究存在的问题对于声信号，本人认为必须加强基础研究、技术措施和组织管理措施，虽然重点应放在声源上，但是改变声源往往较为困难甚至不可能，因此要更多地注意传播途径和接收条件。各种控制技术都涉及经济问题，因此必须同有关的各种专业合作进行综合研究，以获得最佳的技术效果和经济效益。1.7.1 问题的提出人们研究语音信号都是以音节为最小单位进行的，而对小于音节的声音效果没有足

43、够的研究。音素是语音的最小、最基本的组成单位，音素都有其独立的各不相同的发音方法和发音部位，它是使听者能区别一个单词和另一个单词的声音的基础。隐马尔可夫模型（HMM）作为语音信号的一种统计模型,今天正在语音处理各个领域中获得广泛的应用,用此模型来描述语音信号的产生是语音信号处理技术的一项重大进展。音素是语音的最小单位,它比较容易训练,而且具有其他如音节、词所不具有的优点。基于音素的语音识别是连续语音识别中的一个基本课题和重要基础。将音素识别理论和HMM理论结合起来形成的音素HMM语音识别技术能够实现极低比特率的语音编码,因此如何在实际设计中得到广泛运用将是本课题要研究的内容。通过测试证明，音节

44、内部还存在着各种结构。例如图1-3所示汉语音节内部时域结构的初步测试图，我们就可以对数据库里录好的音节进行声母发音的研究。通过对汉语的了解，知道汉语是由一个个汉字通过一定的方式串接而成，音节与音节之间存在着一定的时间间隔规律，声母和声母之间也存在着一定的时间间隔。如图就是简易地描绘了声母x随时间t的变化情况X随时间分别变化为j和d。通过分析训的前一部分是俊，而后部分是定。因此，如何获得音节内部的声音结构是本课题要解决的问题。 1.7.2 本课题研究与本专业、今后工作之间的联系和意义信号处理对于我将来走上工作岗位也起着至关重要的作用，我目前找的工作岗位是维护设备，如果能利用设备工作时发出的声音进

45、行处理从而得知它的工作情况，既能加强工作效益，又减少了劳动力，这就是一举两得的美事了。如以压缩机为例，从特征信号提取的角度出发, 采用局域波时频分析和信息熵结合的方法进行压缩机故障诊断。对信号进行局域波分解后, 建立基于时频分布的信息熵, 以此作为故障识别的参数。以压缩机填料泄漏故障为例, 采用信息熵的方法进行分析, 证明了信息熵能够对压缩机的工作状态进行有效的评价。压缩机振动的整个过程中频率是随时间变化的, 对这类振动信号的特征分析, 有助于研究压缩机的运行状况。时频分布是时间和频率的联合分布函数, 有利于提取信号的局部特征, 是非平稳信号分析的有效方法。局域波法的时频分析源于瞬时频率, 其时频分布具有较好的聚集性。对非平稳信号的信号分析具有较好的实用性, 并在非平稳信号的故障诊断中得到应用。压缩机在不同的工作状态下, 其时频分布将会发生变化。信息熵是对系统不确定性程度的描述。为了能够定量描述变化程度,通过建立基于局域波时频分布的时频熵, 研究从时频熵提取振动信号特征的方法。从压缩机填料泄漏故障分析表明, 时频熵能够有效评价往复式压缩机的运行状态4。第 25 页共 37 页2 信号处理的基本知识2.1 信号的相关知识2.1.1 信号的概念广义地说，信号就是随时间和空间变化的某种物理量或物理现象。例如在通信工程中，一般将语言、文

展开阅读全文