1、 I 毕 业 设 计 论 文 题目: 基于 DSP 的语音分析系统 专 业:电子科学与技术 姓 名 学 号 指导教师 II 目录 摘要 ABSTRACT 1 绪论 1.1课题背景意义 1.2 1.3 2 语音信号的特点与采集 2.1 2.2 3 语音信号的分析 3.1 3.2 3.2.1 3.2.2 3.3 3.3.1 3.4 4 语音信号的综合仿真分析 4.1 4.2 4.3 4.4 4.5 III 论文介绍了孤立词语音识别系统的基本理论,分析了孤立词语音识别的基本工作过程。接着介绍了常用的特征参数,孤立词识别算法。并对其进行比较分析,然后根据本系统的特点选用了以(美尔频率倒谱) MFCC
2、为特征参数,采用经典的动态时间规整( DTW)识别算法进行模板匹配,以提高识别率。提出了去噪声的短时能量端点检测方法,并用 MATLAB7.1 进行了仿真。 摘要 语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的 核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。 数字信号处理( DigitalSignalProcessing,简称 DSP)是利用计算机或专用处理设备,以数字形式对信号进行采集、变换、滤波、估值、增强、压缩、识别等处理,以得到符合人们需要的信号形式。 Matlab 语言是一种数
3、据分析和处理功能十分强大的计算机应用软件,它可以将声音文件变换为离散的数据文件,然后利用其强大的矩阵运算能力处理数据,如数字滤波、傅里叶变换、时域和频域分析、声音回放以及各种图的呈现等,它的信号处理与分 析工具箱为语音信号分析提供了十分丰富的功能函数,利用这些功能函数可以快捷而又方便地完成语音信号的处理和分析以及信号的可视化,使人机交互更加便捷。信号处理是 Matlab 重要应用的领域之一。 本设计针对现在大部分语音处理软件内容繁多、操作不便等问题,采用MATLAB7.0 综合运用 GUI 界面设计、各种函数调用等来实现语音信号的变频、傅里叶变换及滤波,程序界面简练,操作简便,具有一定的实际应
4、用意义。 关键字: Matlab, 语音信号 , 傅里叶变换 , 信号处理 IV II Abstract Speech signal processing is to study the use of digital signal processing technology and knowledge of the voice signal voice processing of the emerging discipline is the fastest growing areas of information science one of the core technology. Tran
5、smission of information through the voice of humanitys most important, most effective, most popular and most convenient form of exchange of information. Digital signal processing( DigitalSignalProcessing, DSP) is the use of computer or special processing equipment, to digital form of signal acquisit
6、ion, transformation, filtering, estimation, enhancement, compression, recognition processing, in order to get the needs of the people of the signal form. Matlab language is a data analysis and processing functions are very po werful computer application software, sound files which can be transformed
7、 into discrete data files, then use its powerful ability to process the data matrix operations, such as digital filtering, Fourier transform, when domain and frequency domain analysis, sound playback and a variety of map rendering, and so on. Its signal processing and analysis toolkit for voice sign
8、al analysis provides a very rich feature function, use of these functions can be quick and convenient features complete voice signal processing and analysis and visualization of signals, makes computer interaction more convenient . Matlab Signal Processing is one of the important areas of applicatio
9、n. The design of voice-processing software for most of the content are numerous, easy to maneuver and so on, using MATLAB7.0 comprehensive use GUI interface design, various function calls to voice signals such as frequency, amplitude, Fourier transform and filtering, the program interface concise, s
10、imple, has some significance in practice. Keywords: Matlab, Voice Signal, Fourier transform, Signal Processin1 1 绪 论 1.1 课题的背景与意义 语音是人类进行信息交流最直接、最方便、最有效的工具,语音信号是携带语音信息的语音声波。在信息化时代,人们也期望用这种最便捷的信息交流工具和各种信息存储、处理的设备和终端进行信息交互。语音信号处理研究如何能更加有效地产生、传输和获取语音信息的一门学科。它涉及数字信号处理、语言学、语音学,生理学、心理学、模式识别以及人工智能等多个学科的知识,
11、是信息技术学科中发展最为迅 速的一个领域。语音信号处理内容非常广泛,它包含语音识别语音合成,此外还有语音压缩编码、语音理解、说话人识别、语音增强等各个分支,总的来说语音信号处理包含了语音信号的数字表示方法,语音信号处理的各种方法和技术以及语音处理理论和技术在各个领域中的实际应用。 语言是人类持有的功能。声音是人类常用的工具,是相互传递信息的最主要的手段。因此,语音信号是人们构成思想疏通和感情交流的最主要的途径。并且,由于语言和语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平。现在,人类已开 始进入了信息化时代,用现代手段研究语音信号,使人们能更加有
12、效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。 让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。随着计算机越来越向便携化方向发展,随着计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚而代之以语音输人这样便于使用的、自然的、人性化的输人方式。作为高科技应用领域的研究热点,语音信号采集与分析从理论的研究到产品的开发已经走过了几十个春秋并且取得了长远的进步。它正在直接与办公、交通、金融、公安、商业、 旅游等行业的语音咨询与管理。工业生产部门的语声控制,电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领
13、域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。可见,语音的分析和研究将是一项极具市场价值和挑战性的工作。我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走入人们的日常生活当中,并不断朝更高目标而努力。 语音信号的分析之所以能够那样长期地、深深地吸引广大科学工作者去不断2 地对其进行研究和探讨,除了它的实用性之外,另一个重要原因是,它始终与当时信息科学 中最活跃的前沿学科保持密切的联系,并且一起发展。语音信号采集与分析是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科,与心理、生理学、计算机科学、通信与信息科学以及模式识别和人工智能等学科都有着非常密切的关系
14、。对语音信号采集与分析的研究一直是数字信号处理技术发展的重要推动力量。因为许多处理的新方法的提出,首先是在语音信号处理中获得成功,然后再推广到其他领域。 1.2 国内外研究现状 语音信号的分析作为一个重要的研究领域,已经有很长的研究历史。但是它的快速发展可以说是从 1940 年前后 Dudley 的声码器 (vocoder)和 potter 等人的可见语音( Visible Speech)开始的。 1952 年贝尔 (Bell)实验室的 Davis 等人首次研制成功能识别十个英语数字的实验装置。 1956 年 Olson 和 Belar 等人采用 8个带通滤波器组提取频谱参数作为语音的特征,研
15、制成功一台简单的语音打字机。20 世纪 60 年代初由于 Faut 和 Steven 的努力,奠定了语音生成理论的基础,在此基础上语音合成的研究得到了扎实的进展。 20 世纪 60 年代中期形成的一系列数字信号处理方法和技术,如数字滤波器、快速博里叶变换 (FFT)等成为语音信号数字处理的理论和技术基础。在方法上,随着电子计算机的发展,以往的以硬件为中心的研究逐渐转化为以软件为主的处理研究。然而,在语音识别领域内,初期有几种语音打字机的研究也很活跃,但后来已全部停了下来,这说明了当时人们对话音识别难度的认识得到了加深。所以 1969 年美国贝尔研究所的 Pierce 感叹地说“语音识别向何处去
16、 ?”。 到了 1970 年,好似反驳 Pierce 的批评,单词识别装置开始了实用化阶段,其后实用化的进程进一步高涨,实用机的生产销售也上了轨道。此外社会上所宣传的声纹 (Voice Print)识别,即说话人识别的研究也扎扎实实地开展起来,并很快达到了实用化的阶段。到了 1971 年,以美国 ARPA(American Research Projects Agency)为主导的“语音理解系统”的研究计划也开始起步。这个研究计划不仅在美国园内,而且对世界各国都产生了很大的影响,它促进了连续语音识别研究的兴起。历时五年的庞大的 ARPA 研究计划,虽然在语音理解、语言统计模型等方面的研究积累了
17、一些经验,取得了许多成果,但没能达到巨大投资应得的成果,在1976 年停了下来,进入了深刻的反省阶段。但是,在整个 20 世 纪 70 年代还是有3 几项研究成果对语音信号处理技术的进步和发展产生了重大的影响。这就是 20世纪 70 年代初由板仓 (Itakura)提出的动态时间规整 (DTW)技术,使语音识别研究在匹配算法方面开辟了新思路; 20 世纪 70 年代中期线性预测技术 (LPC)被用于语音信号处理,此后隐马尔可夫模型法 (HNMM)也获得初步成功,该技术后来在语音信号处理的多个方面获得巨大成功; 20 世纪 70 年代未, Linda、 Buzo、 Gray 和 Markel等人
18、首次解决了矢量量化 (VQ)码书生成的方法,并首先将矢量量化技术用于语音编码获得成功。从 此矢量量化技术不仅在语音识别、语音编码和说话人识别等方面发挥了重要作用,而且很快推广到其他许多领域。因此, 20 世纪 80 年代开始出现的语音信号处理技术产品化的热潮,与上述语音信号处理新技术的推动作用是分不开的。 20 世纪 80 年代,由于矢量量化、隐马尔可夫模型和人工神经网络 (ANN)等相继被应用于语音信号处理,并经过不断改进与完善,使得语音信号处理技术产生了突破性的进展。其中,隐马尔可夫模型作为语音信号的一种统计模型,在语音信号处理的各个领域中获得了广泛的应用。其理论基础是 1970 年前后,
19、由 Baum等人建立起来 的,随后,由美国卡内基梅隆大学 (CMU)的 Baker 和美国 IBM 公司的Jelinek 等人将其应用到语音识别中。由于美国贝尔实验室的 Babiner 等人在 20世纪 80年代中期,对隐马尔可夫模型深人浅出的介绍,才使世界各国从事语音信号处理的研究人员了解和熟悉,进而成为一个公认的研究热点,也是目前语音识别等的主流研究途径。 进入 20 世纪 90 年代以来,语音信号采集与分析在实用化方面取得了许多实质性的研究进展。其中,语音识别逐渐由实验室走向实用化。一方面,对声学语音学统计模型的研究逐渐深入,鲁棒的语音识别、基于语音段的 建模方法及隐马尔可夫模型与人工神
20、经网络的结合成为研究的热点。另一方面,为了语音识别实用化的需要,讲者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题倍受关注。 1.3 数字信号处理( DSP)简介 数字信号处理( DigitalSignalProcessing,简称 DSP)是一门涉及许多学科而又广泛应用于许多领域的新兴学科。 20世纪 60 年代以来,随着计算机和信息技术的飞速发展,数字信号处理技术应运而生并得到迅速的发展。在过去的二十多年时间里,数字信号处理已经在通信等领域得到极为广泛的应用。 数字信号处理是利用计算机或专用处理设备,以数字形式对信号进行采集、4 变换、滤波、估值、增强、压缩、识别等处理
21、,以得到符合人们需要的信号形式。 数字信号处理是围绕着数字信号处理的理论、实现和应用等几个方面发展起来的。数字信号处理在理论上的发展推动了数字信号处理应用的发展。反过来,数字信号处理的应用又促进了数字信号处理理论的提高。而数字信号处理的实现则是理论和应用之间的桥梁。 数字信号处理是以众多学科为理论基础的,它所涉及的范围极其广泛。例如,在数学领域,微积分、概率统计、随机过程、数值分析等都是数字信号处理的基本工具,与网络理论、信号与系统、控制论、通信理论、故障诊断等也密切相关。近来新兴的一些学科,如人工智能、模式识别、神经网络等,都与数字信号处理密不可分。可以说,数字信号处理是把许多经典的理论体系
22、作为自己的理论基础,同时又使自己成为一系列新兴学科的理论基础。 1.4 本文主要工作 本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,并通过录制一段声音,运用 Matlab 进行仿真分析,最后加入噪声进行滤波处理,比较滤波前后的变化。第 2 章主要介绍语音信号的特点与采集,仿真主要是验证奈奎斯 特定理。第 3 章主要是对语音信号进行时域、频域上的分析,如短时功率谱,短时平均能量,短时平均过零率,语谱图分析等等。第 4 章是对语音信号的综合和分析,包括语音信号的调制、叠加和滤波。 5 2 语音信号的特点与采集 2.1 语音信号的特点 通过对大量语音信号的观察和分析发现
23、,语音信号主要有下面两个特点: 1 在时域内,语音信号具有“短时性”的特点,即在总体上,语音信号的特征是随着时间而变化的,但在一段较短的时间间隔内,语音信号保持平稳。在浊音段表现出周期信号的特征,在 清音段表现出随机噪声的特征 (语音信号的清音段的幅度较小,其能量集中于高频段:而语音信号的浊音段的幅度较大,其能量集中于低频段 )。 2 在频域内,语音信号的频谱分量主要集中在 300 3400Hz 的范围内。利用这个特点,可以用一个防混迭的带通滤波器将此范围内的语音信号频率分量取出,然后按 8kHz 的采样率对语音信号进行采样,就可以得到离散的语音信号。 下面是一段语音信号的时域波形图 (图 2
24、-1)和频域图 (图 2-2),由这两个图可以看出语音信号的两个特点。 0 0 . 5 1 1 . 5 2 2 . 5 3 3 . 5 4 4 . 5 5- 0 . 8- 0 . 6- 0 . 4- 0 . 200 . 20 . 40 . 6T i m e ( s ) 0 0 . 5 1 1 . 5 2 2 . 5x 1 0400 . 0 50 . 10 . 1 50 . 20 . 2 50 . 30 . 3 50 . 40 . 4 5F r e q u e n c y ( H z ) 图 2-1语音信号时域波形图 图 2-2语音信号频域波形图 2.2 语音信号的采集 在将语音信号进行数字化前,必须先进行防混叠预滤波,预滤波的目的有两个: 1 抑制输入信号各领域分量中频率超出 fs/2 的所有分量 (fs 为采样频率 ),以防止混叠干扰。 2 抑制 50Hz 的电源工频干扰。这样,预滤波器必须是一个带通