1、1 毕业设计开题报告 电气工程及其自动化 一种基于 MATLAB 的特定声音识别算法的研究 一、 选题的背景、意义 语音识别的研究工作可以追溯到 20世纪 50年代 AT&T贝尔实验室的 Audry系统,它是第一个可以识别十个英文数字的语音识别系统。 但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在 60 年代末 70 年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码( LPC)技术和动态时间规整( DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这一 时期的语音识别主要基于模板匹配原理,研究的领域局限在
2、特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和 DTW 技术的特定人孤立词语音识别系统;同时提出了矢量量化 (VQ) 和隐马尔可夫模型 (HMM) 理论。 20 世纪 90 年代前期,许多著名的大公司如 IBM、苹果、 AT T 和 NTT 都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在 20 世纪 90 年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有: IBM 公司推出的 Via Voice 和 Dragon System 公司的 Naturally Speaking, Nuance公公的 Nuance Voic
3、e Platform 语音平台, Microsoft 的 Whisper, Sun 的 VoiceTone等。 我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从 1987 年开始执行国家 863 计划后,国家 863 智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。 中科院自动化所、声学 所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究, 其中具
4、有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。 2 语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为 信息处理系统建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化程度。 语音信号处理是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。虽然从事这一领域研究的人员主要来自信号与信息处理及
5、计算机应用等学科,但是它与语音学、语言学、声学、认知科学、生理学、心理学等许多学科也有非常密切的联系。 20 世纪 60 年代中期形成的一系列数字信号处理的理论和算法,如数字滤波器、快速傅立叶变换( FFT)等是语音信号数字处理的理论和技术基础。随着信息科学技术的飞速发展,语 音信号处理取得了重大的进展:进入 70 年代之后,提出了用于语音信号的信息压缩和特征提取的线性预测技术( LPC),并已成为语音信号处理最强有力的工具,广泛应用于语音信号的分析、合成及各个应用领域,以及用于输入语音与参考样本之间时间匹配的动态规划方法; 80 年代初一种新的基于聚类分析的高效数据压缩技术 矢量量化( VQ
6、)应用于语音信号处理中;而用隐马尔可夫模型( HMM)描述语音信号过程的产生是 80 年代语音信号处理技术的重大发展,目前 HMM 已构成了现代语音识别研究的重要基石。近年来人工神经网络 (ANN)的研究取得了迅速 发展,语音信号处理的各项课题是促进其发展的重要动力之一,同时,它的许多成果也体现在有关语音信号处理的各项技术之中。 二、 相关研究的最新成果及动态 最近五六年来,语音识别的研究又出现了一些新动向,最主要的是两件: DARPA第二次计划和神经元网络模型 (ANN)的出现。 DARPA第二次计划,总结了第一次 DARPA计划的经验教训,自 1985年起又开始执行第二次计划,这次计划的主
7、要内容是:“不定人大字表连续语音识别”,预计四年完成,参研单位除 CMU, BBN公司。 TI公司 SRI等还有 NBS(美国国家标准局),主要研究目标是识别由 10, 000个单字构成的各种不定人连续语音,另外对响应时间也3 提出了要求 (实时或接近人类正常对话速度 )。 除计划的主体部分外,还包括若干个辅助课题,主要有:收集语音数据供研究、评价系统的使用。专用硬件的开发,标准语音数据库的建立管理以及系统评价标准、手段、方法等,可见,这些辅助课题,都是针对第一次计划中的不足却又十分重要的内容而提出的。 作为该计划的主体工程,就是 CMU开发的 ANGLE系统,其基本思路仍沿用了HEARSAY
8、- II设计方案,即使用了知识源和“黑板 模型”,整个系统由音素识别,单词识别,语言处理和分布式处理四大部分组成。 另外, 1985年以来,亦有一些发达国家,制定了国家一级的或跨国性的研究计划,开展对本国本民族语音识别与理解进行研究,这些计划的特点除了级别高、经费足之外,普遍注意到语音数据库的重要性,以及确定客观评价手段和方法,如日、英、法等国。 神经元网络模型:人工神经元网络是为模拟人脑思维和推理功能而形成的一种全新的概念。五十年代末, F, Rosenblatt提出 T一种感知器模型 (Perception),后由于 Minsksy等指出了它的局限性,一度陷于低谷。直至“多层感知器” (M
9、LP)和用于训练的“回传算法 “ (Back-Propagation)提出之后,这种模型的研究才又重新复苏。有的资料又称联想者模型 (connectionist Approach)。 一个多层感知器是由一个输入层,一个输出层和若干个隐含层组成。每一层又包含若干细胞,某层中的每个细胞都由连杆( link)到下一层的每一细胞。而“连杆”某一权值 ijW 自细胞 i到下一细胞 j,可正可负,视前一细胞对下一细胞是“激 发” (excite)还是“抑制” (inhibit)而定。此细胞即通称为“神经元” (neurons),连杆称“突触”(Synapses),在物入细胞上引入一个激励,并在网络中传播。
10、在每个细胞上,由“连杆”传来的加权能盆的总和如超过了某一门限值,则该细胞就继续往更高层次传播。在训练阶段,当这种刺激到达输出细胞时,就通过计算回传给低层误差值而与所需的输出响应相比较,以便调整连杆上的权值和细胞上的兴奋门限,直至网络参数足够稳定为止。在识别阶段,“刺激”被传播到输出层,具有最高刺激值输出细胞就表明待4 识模式。 神经元网 络近几年来受到学术界的极大重视,发展也十分迅速,其主要原因就在于,它和传统的按冯,诺依曼原理构成的计算机迥然不同。神经网络是以分布式存贮和并行协同处理方式执行指令。虽然单个神经元的结构和功能极其简单有限,但大且神经元构成的网络,却具有极好的形象思维能力,因而寄
11、予了厚望。 三、课题的研究内容及拟采取的研究方法难点及预期达到的目标 本文通过对特定语音的识别,例如对枪声这种特定语音的识别,主要从以下几个方面来进行研究: 1)研究设计型实验 1: 基于 MATLAB 的语音信号时域特征分析 , 自己设计程序,给出某一语音信号 的短时过零率、短时能量、短时自相关特征的分析结果,并借助时域分析方法检测所分析语音信号的基音周期 . 2)研究设计型实验 2: 基于 MATLAB 分析语音信号频域特征 , 自己设计程序,给出某一语音信号的短时谱、倒谱、语谱图的分析结果,并借助频域分析方法检测所分析语音信号的基音周期或共振峰 。 3)研究设计型实验 3: 基于 MAT
12、LAB 进行语音信号的 LPC 分析 , 给出某一语音信号的 LPC 分析结果,包括 LPC 谱、LPCC 谱的分析结果,并借助 LPC 分析方法检测所分析语音信号的基音周期和共振峰 研究方法的几个难点: 1、短时能量 由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。因此对语音的短时能量进行分析,可以描述语音的这种特征变化情况。定义短时能量为: 221 ( ) ( ) ( ) ( ) nn m m n NE x m w n m x m w n m ,其中 N 为窗长 特殊地,当采用矩形窗时,可简化为: 5 2 ()nmE x m 过零率可以反映信号的频谱特性。当离散时间信号相邻
13、两个样点的正负号相异时,我们称之为 “过零 ”,即此时信号的时间波形穿过了零电平的横轴。统计单 位时间内样点值改变符号的次数具可以得到平均过零率。定义短时平均过零率: sg n sg n ( 1 ) ( )n mZ x m x m w n m 其中 sgn 为符号函数, 1 , ( ) 01 , ( ) 0sg n ( ) xnxnxn ,在矩形窗条件下,可以简化为 11 sg n ( ) sg n ( 1 ) 2 nnm n NZ x m x mN 短时过零率可以粗略估计语音的频谱特性。由语音的产生模型可知,发浊音时,声带振动,尽 管声道有多个共振峰,但由于声门波引起了频谱的高频衰落,因此浊
14、音能量集中于 3KZ 以下。而清音由于声带不振动,声道的某些部位阻塞气流产生类白噪声,多数能量集中在较高频率上。高频率对应着高过零率,低频率对应着低过零率,那么过零率与语音的清浊音就存在着对应关系。 . 2、时域分析方法 1)基音频率的估计 首先可利用时域分析(短时能量、短时过零率、短时自相关)方法的某一个特征或某几个特征的结合,判定某一语音有效的清音和浊音段;其次,针对浊音段,可直接利用短时自相关函数估计基音频率 。 2)语音端点的检测与估计 可利用时域 分析(短时能量、短时过零率、短时自相关)方法的某一个特征或某几个特征的结合,判定某一语音信号的端点,尤其在有噪声干扰时,如何准确检测语音信
15、号的端点,这在语音处理中是富有挑战性的一个课题。 通过对语音信号得到频域以及时域方法的研究,而且 语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。语音信号分析可以分为时域和变换域等处理方法,其中时域分析是最简单的方法,直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量,短时平均过零率,短时自相关函数等。对语音频域方法的研究主要是通过傅里叶 的变换,6 采取短时分析方法。这样一来,通过对语音的基本参数研究,我们就可以从上述研究方法出发,可准确的识别出特定声音。 四、论文详细工作进度和安排 1.2010 12-2011 1 充分检索资料的基础上完成课题外文翻译、
16、文献综述、开题报告; 2.2011 2-2011 3 完成整体方案构思。 3.2011 4-2011 5 完成软硬件的开发工作,完善并完成技术文档。 4.2011 5 整理毕业设计的资料,毕业答辩; 五、主要参考文献 1胡航 / 语音信号处理 M / 哈尔 滨工业大学出版社, 2000 2赵胜辉等译 / 离散时间语音信号处理 原理与应用 M / 电子工业出版社, 2004 3王炳锡 / 实用语音识别基础 M / 国防工业出版社, 2005 4林奕林,语音情感识别的研究进展 J.电路与系统学报, 2007,12(1):9098. 5Keith Jones, Windows speech Reco
17、gnition Programming: With Visual Basic and ActiveX Voice Controls, iUniverseInc, Feb-2004 6姚天任,孙洪,现代数字信号处理,武汉:华中科技大学出版社, 1999 7郑清,杨震,用于分布式识别的语音参数的提取和性能分析,南京邮电学院学报, 2003, 23(2): 31一 34 8邵央,刘丙哲,李宗葛,基于 MFCC 和加权矢量量化的说话人识别系统,计算机 9张雄伟,陈亮,杨吉斌,现代语音处理技术及应用,北京:机械工业出版社, 2007 10 张志涌,精通 MATLAB 北京航空航天大学出版社, 2000
18、11 胡征,矢量量化原理及应用 西安电子科技大学出版社, 1998 12 张军英,说话人识别的现代方法与技术 西北大学出版社, 1994 13李志鹏,陈善广,薛亮 .解决 Baum-Welch 算法下溢问题的参数重估公式中存在的问题及其更正 .声学学报, 2001,26( 5): 468475 14胡守仁,余少波,戴奎 .神经网络导论 .长沙:国防科技大学出版社, 1993 15赵力,钱向民,绉采荣,吴镇扬 .从语音信号中提取情感特征的研究 .数据采集与处理, 2000,15( 1): 120123 16 Hermansky H. , Percep tual Linear p redictiv
19、e ( PLP ) analysis of speech J . Journal of 7 Acoustical Soc America, 1990, 87 (4) : 2218. 17 HigginsA L, BahlerL G, Porter J E. Voice identification using nearest neighbor distance measure J . Procedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, April 1993, 2: 3752378. 18 Huang X D.Hidden Markov Models for Speech Recognition.Edinburgh Information Technology Series,1999(7):136-202 19 Rabiner L, Juang B H.Fundamentals of Speech Recognition.Prentice Hall International. Inc,1999