一种基于MATLAB的特定声音识别算法的研究【毕业设计+开题报告+文献综述】.doc

资源描述

1、本科毕业设计 (论文 ) （二零届）一种基于 MATLAB 的特定声音识别算法的研究所在学院专业班级电气工程及其自动化学生姓名学号指导教师职称完成日期年月 III 摘要语音信号处理研究分为语音识别、语音合成、语音编码和声纹识别四大分支。声纹识别备受人们关注 , 声纹识别简单来说就是通过一句话来判断是谁说的。其中的说话人辨识领域广泛应用于刑侦破案、罪犯跟踪、国防监听、个性化领域等；特定声音识别指特征特别的声音，枪声，玻璃声，呼救声就属于这一类。通过研究上述三种典型的特定声音，提取相关语音参数，通过三种特定声音参数之间的对比，辨识出特定声音，达到本论文的要求。主

2、要内容有：语音识别概述语音相关原理概述提取语音，语谱分析，特征提取，训练数据，短时能量等。编制 MATLAB 编程环境，以提高语音识别效率。经过设计是在 MATLAB 的编译环境下，试验结果表明：该方案旨在满足特定声音识别的基本要求。关键词语音识别声纹识别 MATLAB 特征值特定声音MATLAB-based voice recognition algorithm for a particular ABSTRACT Speech signal processing research into speech recognition, speech synthesis, speech

3、 coding and acoustic pattern recognition four branches. Voiceprint identification much attention, voiceprint identification is simply through the sentence to determine who said it. Speaker identification which is widely used in the field of forensic detection, tracking criminals, monitoring of natio

4、nal defense, individual fields, etc.; specific features of voice recognition that particular sound, guns, glass sound of cries for help fall into this category. By studying the specific sounds of the three typical, extract the relevant speech parameters, through three specific parameters of the cont

5、rast between sounds, identify specific sounds, to the requirements of this thesis. Main contents are: Overview of speech recognition, speech outlines the relevant principles extracted voice, speech spectral analysis, feature extraction, training data, short-term energy and so on. The preparation of

6、MATLAB programming environment to enhance the efficiency of speech recognition. After a design is compiled in the MATLAB environment, the test results show that: The program is designed to meet the basic requirements of a specific voice recognition. KEYWORDS： speech recognition voice print identific

7、ation characteristic values specific sounds MATLAB V 目录摘要 . I ABSTRACT . IV 1 绪论 . 1 1.1 本课题来源及研究任务 . 1 1.2 国内外相关技术发展及动态 . 1 1.2.1国外研究历史及现状 . 1 1.2.2 国内研究历史及现状 . 3 1.3 特定声音识别技术的发展 . 4 1.4语音识别系统的分类 . 4 1.5特定声音识别的研究方法 . 5 1.6 本论文内容安排 . 5 2 特定语音信号的原理 . 7 2.1 基于 MATLAB的特定语音信号时域特征分析 . 7 2.2基于 MATLAB的语

8、音信号频域特征分析 . 12 2.3基于 MATLAB的语音信号线性预测分析 . 15 3 特定声音 MATLAB 的实现和仿真 . 23 3.1基于 MATLAB的语音信号采集 . 23 3.2基于 MATLAB的语音信号时域分析 . 23 3.3基于 MATLAB的语音信号频域分析 . 28 4 特定声音辨识 . 31 4.1原始波形图 . 31 4.2语谱图 . 32 4.3 倒谱系数 . 33 4.4 短时谱 . 34 5结论 . 36 致谢 . 错误 !未定义书签。参考文献 . 37 附录 . 38 1 1 绪论 1.1 本课题来源及研究任务语音识别方法大致可分为基于

9、说话人的语音识别方法、基于说话内容的语音识别方法、基于统计的语音识别方法和基于网络的语音识别方法。数字语音信号处理是将数字信号处理与语音学相结合，解决现代通信领域中人与人、人与机器之间的信息交流的学科。近几年来语音信号处理学科在世界范围内已取得了飞速的发展。与其他生物识别技术，诸如指纹识别、虹膜识别等相比较，特定声音识别技术具有不会遗忘，无需记忆、使用方便等优点，还具有以下的特性：用户接受的程度高，由于不涉及个人的隐私问题，用户没任何心理障碍。更为简便、准确经济及可扩展性良好等众多优势，特别是电信网络的身份识别。特定声音识别技术在 SR 技术上，可以利用人本身

10、的生物特性进行身份鉴别，例如为公安部门进行语音验证、为一般用户提供防盗门开启功能等等。在互联网和通信领域中， SR 技术可以应用于诸如声音拨号、电话银行、电话购物、数据库访问等等众多领域。在呼叫中心应用上， SR 技术同样可以提供更加个性化式对呼叫的人机交互界面。当顾客通过电话的方式对呼叫中心发出请求，系统能够根据话音判断出身份，从而提供个性化的服务。本课题的主要任务是利用 MATLAB 软件进行特定声音识别的辨识。给出三种特定声音枪声、玻璃破碎声音和呼救声，利用 MATLAB 仿真，辨识出这三种特定的声音。 1.2 国内外相关技术发展及动态 1.2.1 国外研究历史及现状随着计算机的发

11、明问世，语音识别的研究得到了迅速的发展。自 1959年第一个用软件实现的英语十音素识别系统的完成，至今已有三十多年历史。共历程颇多艰辛和曲折 1。语音识别的研究工作可以追溯到 20 世纪 50 年代 AT&T 贝尔实验室的 Audry系统，它是第一个可以识别十个英文数字的语音识别系统。但真正取得实质性进展，并将其作为一个重要的课题开展研究则是在 60 年代末 70 年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能，更重要的是语音信号线性预测编码（ LPC）技术和动态时间规整（ DTW）技术的提出，有效的解决了语音信号的特征提取和不等长匹配问题。2 这一时期的语音识

12、别主要基于模板匹配原理，研究的领域局限在特定人，小词汇表的孤立词识别，实现了基于线性预测倒谱和 DTW 技术的特定人孤立词语音识别系统；同时提出了矢量量化 (VQ)和隐马尔可夫模型 (HMM)理论。随着应用领域的扩大，小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽，与此同时也带来了许多新的问题：第一，词汇表的扩大使得模板的选取和建立发生困难；第二，连续语音中，各个音素、音节以及词之间没有明显的边界，各个发音单位存在受上下文强烈影响的协同发音（ Co-articulation）现象；第三，非特定人识别时，不同的人说相同的话相应的声学特征有很大的差异，即使相同的人在不同的时间、生理

13、、心理状态下，说同样内容的话也会有很大的差异；第四，识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。实验室语音识别研究的巨大突破产生于 20 世纪 80 年代末：人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中，比较典型的是卡耐基梅隆大学 (CarnegieMellonUniversity)的Sphinx 系统，它是第一个高性能的非特定人、大词汇量连续语音识别系统。这一时期，语音识别研究进一步走向深入，其显著特征是 HMM 模型和人工神经元网络 (ANN)在语音识别中的成功应用。 HMM 模型的广泛应用应归功于AT&T

14、Bell 实验室 Rabiner 等科学家的努力，他们把原本艰涩的 HMM 纯数学模型工程化，从而为更多研究者了解和认识，从而使统计方法成为了语音识别技术的主流。统计方法将研究者的视线从微观转向宏观，不再刻意追求语音特征的细化，而是更多地从整体平均（统计）的角度来建立最佳的语音识别系统。在声学模型方面，以 Markov 链为基础的语音序列建模方法 HMM（隐式 Markov 链）比较有效地解决了语音信号短时稳定、长时时变的特性，并且能根据一些基本建模单元构造成连续语音的句子模型，达到了比较高的建模精度和建模灵活性。在语言层面上，通过统计真实大规模语料的词之间同现概率即 N 元统计模型来区分

15、识别带来的模糊音和同音词。另外，人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。 20 世纪 90 年代前期，许多著名的大公司如 IBM、苹果、 AT T 和 NTT 都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在 20 世纪 90 年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有： IBM 公司推出的 ViaVoice 和 DragonSystem公司的 NaturallySpeaking,Nuance 公司的 NuanceVoicePlatform 语音平台，Microsoft 的 Whispe

16、r,Sun 的 VoiceTone 等。 3 其中 IBM 公司于 1997 年开发出汉语 ViaVoice 语音识别系统，次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统 ViaVoice98。它带有一个 32,000 词的基本词汇表，可以扩展到 65,000 词 ,还包括办公常用词条，具有“纠错机制”，其平均识别率可以达到 95%。该系统对新闻语音识别具有较高的精度，是目前具有代表性的汉语连续语音识别系统。 1.2.2 国内研究历史及现状我国语音识别研究工作起步于五十年代，但近年来发展很快。研究水平也从实验室逐步走向实用。从 1987 年开始执行国家 863 计划后，

17、国家 863 智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究，其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。清华大学电子工程系语音技术与专用芯片设计课题组，研发的非特定人汉语数码串连续语音识别系统的识别精度，达到 94.8%（不定长数字串）和 96.8%（定长数字串）。在

18、有 5%的拒识率情况下，系统识别率可以达到 96.9%（不定长数字串）和 98.7%（定长数字串），这是目前国际最好的识别结果之一，其性能已经接近实用水平。研发的 5000 词邮包校核非特定人连续语音识别系统的识别率达到 98.73%，前三选识别率达 99.96%；并且可以识别普通话与四川话两种语言，达到实用要求。中科院自动化所及其所属模式科技 (Pattek)公司 2002 年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品 PattekASR，结束了中文语音识别产品自 1998 年以来一直由国外公司垄断的历史。如果从识别系统的词汇量大小考虑，也可以将识别系统分为 3

19、类： (1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。 (2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。 (3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高，识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。 4 1.3 特定声音识别技术的发展 1、神经网络用于训练韵律模型由于人工神经网络具备良好的自学习和自适应能力，将其应用于语音合成系统中的韵律模型研究具有很重要的意义。将神

20、经网络模型与已有的文语转换系统有机结合，可以改变传统的文语转换系统的韵律模型，具有更强的适应性和可训练性，使合成语音的自然度得到显著提高，增加了系统的灵活性和风格的多样性。 2、数据挖掘用于发现语音知识数据挖掘作为一种在大量数据库中发现隐藏新知识的计算技术方法，通过语音定性模型的建立，将数据分析和挖掘结果转化为逻辑规则或用可视化的形式进行表达。因此，将数据挖掘和人机交互接口紧密地联系在一起，将对计算机语音信号处理的研究工作产生巨大的推动力，为语音信号处理提供了一条崭新的研究途径。 3、文本 -可视语音转换系统研制成功文本 -可视语音转换技术的出现是多媒体技术迅速发展的产物也迎合了社会发

21、展的需求。它给人们的生活增添了新的色彩，使计算机更加人性化，人们与计算机的交流变得更为简单。相信在不久的将来，它会在众多的技术、商业和娱乐领域得到广泛的应用，并逐步进入我们每个人的生活。 1.4 语音识别系统的分类语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑，可以将识别系统分为 3 类： (1)特定人语音识别系统：仅考虑对于专人的话音进行识别； (2)非特定人语音系统：识别的语音与人无关，通常要用大量不同人的语音数据库对识别系统进行学习； (3)多人的识别系统：通常能识别一组人的语音，或者成为特定组语音识别系统，该系统仅要求对要识别的那组人的语音进行训

22、练。如果从说话的方式考虑，也可以将识别系统分为 3 类： (1)孤立词语音识别系统：孤立词识别系统要求输入每个词后要停顿； (2)连接词语音识别系统：连接词输入系统要求对每个词都清楚发音，一些连音现象开始出现； (3)连续语音识别系统：连续语音输入是自然流利的连续语音输入，大量连音和变音会出现。如果从识别系统的词汇量大小考虑，也可以将识别系统分为 3 类： (1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。 (2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。 (3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力

23、以及识别系统精度的提高，识别系统根据词汇量大小进行分类也不断进行5 变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。 1.5 特定声音识别的研究方法 MATLAB是一种功能强大，效率高、交互性好的数值计算和可视化计算机高级语言，它将数值分析、信号处理和图形显示有机地融合为一体，形成了一个极其方便、用户界面友好的操作环境。随着 MATLAB 的不断发展，其功能越来越强大，广泛应用于数字语音信号处理、数值图像处理、仿真、自动控制、小波分析和神经网络等领域。同时又由于 MATLAB 具有大量的信号处理工具箱并能利用非线性动态系统分析工

24、具 Simulink等优点，所以近年来 MATLAB已成为数字信号处理的有利工具，因此也成为学习语音信号处理和进行研究工作的仿真软件工具。本次对特定的语音识别正是在 MATLAB 这个平台上实现的，下面简单介绍MATLAB在语音识别中的几个方面的应用。 1，通过 MATLAB 可以对数字化的语音信号进行时域分析和频域分析。通过 MATLAB 可以方便地展现语音信号的时域和频域曲线，并且根据语音的特性对语音进行分析。例如，清浊音的幅度差别、语音信号的端点、信号在频域中的共振峰频率、加不同窗和不同窗长对信号的影响、 LPC分析、频谱分析等。 2，通过 MATLAB 可以对数字化的语音信号进行

25、估计和判别。例如，根据语音信号的短时参数，以及不同语音信号的短时参数的性质对一段给定的信号进行有无声和清浊音的判断、对语音信号的基音周期进行估计等。 3，通过对 MATLAB 的编程对语音信号进行处理。由于 MATLAB 是一种面向科学和工程计算的高级语言，允许用数学形式的语言编程，又有大量的库函数，所以编程简单、编程效果高，易学易懂。我们可以对信号进行加噪和去噪、滤波、截取语音等，也可以进行语音编码、语音识别、语音合成的编程。 1.6 本论文内容安排本论文首先介绍了本课题设计的背景知识，然后描述了特定声音识别的研究主要内容和方法，最后详细介绍本人是如何通过几个关键的参数来研究特定声音的识别的。以下是各章节的具体安排。第一章：绪论部分，通过国外国内语音识别方面的对比，说明我国语音识别发展6 现状，特定声音识别技术的应用以及本论文的研究任务。第二章：简要地概括了特定声音识别的相关参数的基本原理。包括自相关函数、短时过零率、倒谱分析、线性预测等。第三章：对特定声音“呼救声”进行相关分析，并进行仿真。第四章：着重对枪声，玻璃声，呼救声这三种特定声音从几个方面进行辨识。第五章：总结。

展开阅读全文