1、1 毕业设计开题报告 电气工程及其自动化 一种基于 MATLAB 的特定声音识别算法的研究 一、前言 (说明设计或论文的目的、意义,介绍有关概念) 语音是人们在日常生活中互相交流时使用的最多、最自然、最基本也是最重要的信息载体。在高度信息化,智能化的今天,关于语音处理的一系列技术及其广泛的应用成为信息社会不可缺少的一部分。 语音的产生涉及诸多方面的因素,包括心理和生理等方面一系列动作。当人需要通过语音来表达某一信息时,首先这种信息就是以抽象的方式表现在人的大脑里,然后转化为神经信号,这些神经信号又作用于发声器官,从而 产生了语音信号。 语音处理信号的研究,最初是用来对发声器官的模拟。 1939
2、 年,美国人 H.Dudley 通过展示出一系列的简单模拟发声系统,最后逐步发展成为声道的数字模型。在该模板的基础上可以对语音信号进行各种频谱及参数的分析,同时也可以根据分析获得的频谱特征或参数的变化规律,合成语音信号,最终实现语音的合成。 语音识别的作用是将语音转化为等价的书面信息,简单地说,就是能够让计算机听得懂人话,能够正确辨别声音来源。目前,语音识别已经成为语音数字处理研究和难点技术。根据语音识别的对象来划分,可以分为孤立词识 别、连续语音识别等;而 MATLAB 工具为研究特定的声音算法提供了强大的算法工具。 基于以上内容,本论文的指导思想为,充分利用 MATLAB 这种强大的算法工
3、具对特定声音识别算法进行研究,比如说枪声、玻璃破碎的声音等。 1 1 特定声音识别算法介绍 近 20 多年来,语音处理技术取得了一系列重大的进展,语音编码、语音合成、语音识别和说话人识别等方向的研究成果不断推出;尤其是 MATLAB 语言是一种数据分析和处理功能十分强大的计算机应用软件,它可以将声音文件变换为离散的数据文件,然后利用其强大的矩阵运算处理数据,如数字 滤波、傅里叶变换、时域和频域分析、声音回放以及各种图的呈现等,信号处理是MATLAB 重要领域之一,正是 MATLAB 具备这些优点,所以它给特定的声音识别算法提供了可能。所谓特定声音,就是指比较具体的声音如玻璃破碎的声音、枪声、报
4、警声音等。这种声音不同于人说话的声音,受外界干扰较小,研究起来比较方便。 MATLAB 主要对语音算法大致有如下几个方面 : 2 1. 语音信号的采集。 2. 采集到声音的频谱分析 3. 实验仿真 1 2 MATLAB 的介绍 MATLAB 是一种功能强大、效率高、交互性好的数值计算和可视化计算机高级语言,它将数值分析、信号 处理和图形显示有机地融合为一体,形成了一个极其方便、用户界面友好的操作环境。MATLAB 的不断发展,其功能越来越强大,使其广泛应用于数字信号处理、数值图像处理、仿真、自动控制、小波分析和神经网络等领域。 MATLAB 具有下列几大优势 1 友好的工作平台和编程环境。 M
5、ATLAB 由一系列工具组成,这些工具方便用户使用 MATLAB的函数和文件,其中许多工具采用的是图形用户界面。包括 MATLAB 桌面和命令窗口、历史命令窗口、编辑器和调试器、 路径搜索和用于用户浏览帮助、工作空间、文件的浏览器。随着 MATLAB 的商业化以及软 件本身的不断升级, MATLAB 的用户界面也越来越精致,更加接近 Windows 的标准界面,人机交互性更强,操作更简单。而且新版本的 MATLAB 提供了完整的联机查询、帮助系统,极大的方便了用户的使用。简单的编程环境提供了比较完备的调试系统,程序不必经过编译就可以直接运行,而且能够及时地报告出现的错误及进行出错原因分析。 2
6、 MATLAB 一个高级的矩阵 /阵列语言,它包含控制语句、函数、数据结构、输入和输出和面向对象编程特点。用户可以在命令窗口中将输入语句与执行命令同步,也可以先编写好一个较大的复杂的应用程序( M 文件) 后再一起运行。新版本的 MATLAB语言是基于最为流行的 C语言基础上的,因此语法特征与 C语言极为相似,而且更加简单,更加符合科技人员对数学表达式的书写格式。使之更利于非计算机专业的科技人员使用。而且这种语言可移植性好、可拓展性极强,这也是 MATLAB能够深入到科学研究及工程计算各个领域的重要原因。 3 MATLAB 是一个包含大量计算算法的集合。其拥有 600 多个工程中要用到的数学运
7、算函数,可以方便的实现用户所需的各种计算功能。函数中所使用的算法都是科研和工程计算中的最新研究成果,而前经过了各种优化和容错处 理。在通常情况下,可以用它来代替底层编程语言,如 C 和 C+ 。在计算要求相同的情况下,使用MATLAB 的编程工作量会大大减少。 MATLAB 的这些函数集包括从最简单最基本的函数到诸如矩阵,特征向量、快速傅立叶变换的复杂函数。函数所能解决的问题其大致包括矩阵运算和线性方程组的求解、微分方程及偏微分方程的组的求解、符号运算、傅立叶变换和数据的统计分析、工程中的优化问题、 稀疏矩阵 运算、复数的各3 种运算、三角函数和其他初等数学运算、多维数组操作以及建模动态仿真等
8、。 4 MATLAB 对许多专门的领域都开发了功能强大的模块集和 工具箱。一般来说,它们都是由特定领域的专家开发的,用户可以直接使用工具箱学习、应用和评估不同的方法而不需要自己编写代码。目前, MATLAB 已经把工具箱延伸到了科学研究和工程应用的诸多领域,诸如数据采集、数据库接口、概率统计、样条拟合、优化算法、偏微分方程求解、 神经网络 、 小波分析 、信号处理、图像处理、系统辨识、控制系统设计、 LMI 控制、鲁棒控制、模型预测、模糊逻辑、金融分析、地图工具、非线性控制设计、实时快速原型及半物理仿真、嵌入式系统开发、定点仿真、 DSP 与通讯、电力系统仿真等,都在工具箱( Toolbox)
9、 家族中有了自己的一席之地。 二、主题 (阐明有关主题的背景、现状和发展方向,以及对这些问题的评述) 2.1 语音识别的发展历史: 随着计算机的发明问世,语音识别的研究得到了迅速的发展。自 1959年第一个用软件实现的英语十音素识别系统的完成,至今已有三十多年历史。共历程颇多艰辛和曲折 1。 ( 1)国外研究历史及现状 语音识别的研究工作可以追溯到 20 世纪 50 年代 AT&T 贝尔实验室的 Audry 系统,它是第一个可以识别十个英文数字的语音识别系统。 但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在 60 年代末 70 年代初。这首先是因为计算机技术的发展为语音识别的实现
10、提供了硬件和软件的可能,更重要的是语音信号线性预测编码( LPC)技术和动态时间规整( DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和 DTW 技术的特定人孤立词语音识别系统;同时提出了矢量量化 (VQ) 和隐马尔可夫模型 (HMM) 理论。 随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带 来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发
11、音单位存在受上下文强烈影响的协同发音( Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。 实验室语音识别研究的巨大突破产生于 20 世纪 80 年代末:人们终于在实验室突破了大词汇量、 连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是4 卡耐基梅隆大学 (Carnegie Mellon University)的 Sphinx 系统,它是第一个高性能的非特定人
12、、大词汇量连续语音识别系统。 这一时期,语音识别研究进一步走向深入,其显著特征是 HMM 模型和人工神经元网络 (ANN) 在语音识别中的成功应用。 HMM 模型的广泛应用应归功于 AT&T Bell 实验室 Rabiner 等科学家的努力,他们把原本艰涩的 HMM 纯数学模型工程化 , 从而为更多研究者了解和认识,从而使统计方法成为 了语音识别技术的主流。 统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。 在声学模型方面,以 Markov 链为基础的语音序列建模方法 HMM( 隐式 Markov 链 ) 比较有效地
13、解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模语料的词之间同现概率即 N 元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言 处理机制等也在语音识别中得到了应用。 ( 2)国内关于汉语语音的识别研究。 我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从 1987 年开始执行国家 863 计划后,国家 863 智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同
14、步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。 中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室 进行过语音识别方面的研究, 其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。 总之,语音识别的发展从年代上划分,大体上可分为三个阶段 3。 1初期 (1976年以前 ) 在语音识别初期,人们对机器构成识别系统上,使用条件作了限制,使问题得以简化,具体地来说就是:孤立字,即识别的对象是一个个孤立发音的英语单字,对于人来说即指的是某一说话者有效和小字表,即能
15、识别出的单个字,最多不超过一、二百个单字。由于在初期阶段采取了正确的战略决策,在孤立字、特定人和小字表的限制条件下,一些 关键技术基本得到了解决,很快便转入了实用系统的研制。或投放市场,或安装于现场试用,美国生产的 VIP-100系统还获得了国家奖励 2。 5 2中期 (19571971) 最近五六年来,语音识别的研究又出现了一些新动向,这时最主要成果是矢量量化技术: VQ技术早在五十年代的声码器研究中就已提出,直至七十年代末才有人引入语音识别中。这是围绕既节约内存,又不会损失过多信息的一种技术,因而受到重视并在若干系统中得到广泛应用。尤其是 MATLAB的发展更是为语音分析计算提供了可能,使
16、之研究起来更为方便,便捷。 3近期 (1985-) 这个阶段最主要是神经网络模型的出现。神经元网络模型:人工神经元网络是为模拟人脑思维和推理功能而形成的一种全新的概念即一个多层感知器是由一个输入层,一个输出层和若干个隐含层组成。每一层又包含若干细胞,某层中的每个细胞都由连杆( link)到下一层的每一细胞。神经元网络近几年来受到学术界的极大重视,发展也十分迅速,其主要原因就在于,它和传统的按冯,诺依曼原理构成的计算机迥然不同。神经网络是以分布式存贮和并行协同处理方式执行指令。虽然单个神经元的结构和功能极其简单有限,但大且神经元构成的网络,却具有极好的形 象思维能力,因而寄予了厚望。 2.2“
17、MATLAB 特定声音算法 ” 的开发思路 在本次设计中,我们不用神经网络模型,用 MATLAB 进行语音的简单分析即可。 “ MATLAB特定声音算法 ” 是为了满足现在现在语音技术上的需要,充分利用 MATLAB 信号处理的强大功能,这是一般算法工具所不具备的,给语音处理信号带来的优点。在设计思路中,主要遵循的思路有以下几点: 1) MATLAB 进行特定声音的采集。声音的获取,硬件设备可以利用 PC 机和声卡来采集,并可以由实现滤波和 A/D 转换过程。录制方法可以通过 window 自带的录音机录 制或者由其他录音工具来录制后储存到硬盘,也可以通过在 MATLAB 上编写程序来实现录音
18、。 2) MATLAB 上编写程序对采集到的声音进行分析。主要包括短时相关、端点检测、频谱分析等。 3) 实验仿真。 2.3“ MATLAB 特定声音算法 ” 的关键性问题 目前的 pc 机的外部扩展已经很齐全, windows 一般带有频操作软件很全面,软件采用 MATLAB高级程序设计语言设计。所以最关键的是熟悉 MATLAB 语言程序设计,整体框图为: 6 图 1 三、总结 (将有关主题进行扼要总结,提出自己的见解并对其发展方向做一定的展望) 基于 MATLAB的特定语音的算法分析,是对 MATLAB的基本应用,及其分析,在信息技术高速发展的今天,语音处理技术日趋得到成熟,在目前的对语音
19、的分析,相比其他算法, MATLAB有着很大的优势,包括通信、信号处理、神经网络、自动控制等几乎所有的工程领域,这是其他算法软件所不具有的,目前的 MATLAB软件,不仅可以与 C/C+、 VC、 VB等高级语言混合编程、互相调用、还可以调用计算机的硬件设备,是目前的流行软 件。 语音识别技术的最终目标是要让计算机能与人自由交谈。目前,连续语音识别技术正趋于成熟,语音识别也延伸出了诸多实用化的研究方向。今后,语音识别的重点将集中在自然话语识别与理解、实时语音识别和语音识别鲁棒性等方面。作为一门交叉学科,语音识别所涉及到的技术有信号处理、模式识别、概率论和信息论、发声机理、听觉机理和人工智能等。
20、所有利用 MATLAB对特定的声音识别研究,在不久的将来, MATLAB处理语音识别会成为今后的主流分析技术。 四、参考文献 1胡航 / 语音信号处理 M / 哈尔滨工业大学出版社, 2000 2赵胜辉等译 / 离散时间语音信号处理 原理与应用 M / 电子工业出版社, 2004 3王炳锡 / 实用语音识别基础 M / 国防工业出版社, 2005 4林奕林,语音情感识别的研究进展 J.电路与系统学报, 2007,12(1):9098. 声音采集 声音分片 声音 滤波 fft 变化 倒谱分析 实验仿真 7 5Keith Jones, Windows speech Recognition Prog
21、ramming: With Visual Basic and ActiveX Voice Controls, iUniverseInc, Feb-2004 6姚天任, 孙洪,现代数字信号处理,武汉:华中科技大学出版社, 1999 7郑清,杨震,用于分布式识别的语音参数的提取和性能分析,南京邮电学院学报, 2003, 23(2): 31一 34 8邵央,刘丙哲,李宗葛,基于 MFCC 和加权矢量量化的说话人识别系统,计算机 9张雄伟,陈亮,杨吉斌,现代语音处理技术及应用,北京:机械工业出版社, 2007 10 张志涌,精通 MATLAB 北京航空航天大学出版社, 2000 11 胡征,矢量量化原
22、理及应用 西安电子科技大学出版社, 1998 12 张军英,说话人识别的现代 方法与技术 西北大学出版社, 1994 13李志鹏,陈善广,薛亮 .解决 Baum-Welch 算法下溢问题的参数重估公式中存在的问题及其更正 .声学学报, 2001,26( 5): 468475 14胡守仁,余少波,戴奎 .神经网络导论 .长沙:国防科技大学出版社, 1993 15赵力,钱向民,绉采荣,吴镇扬 .从语音信号中提取情感特征的研究 .数据采集与处理, 2000,15( 1): 120123 16 Hermansky H. , Percep tual Linear p redictive ( PLP )
23、analysis of speech J . Journal of Acoustical Soc America, 1990, 87 (4) : 2218. 17 HigginsA L, BahlerL G, Porter J E. Voice identification using nea2 rest neighbor distance measure J . Procedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, April 1993, 2: 3752378. 18 Huang X D.Hidden Markov Models for Speech Recognition. Edinburgh Information Technology Series,1999(7):136-202 19 Rabiner L, Juang B H.Fundamentals of Speech Recognition.Prentice Hall International. Inc,1999