西南林学院.DOC

上传人:天*** 文档编号:942545 上传时间:2018-11-09 格式:DOC 页数:24 大小:307KB
下载 相关 举报
西南林学院.DOC_第1页
第1页 / 共24页
西南林学院.DOC_第2页
第2页 / 共24页
西南林学院.DOC_第3页
第3页 / 共24页
西南林学院.DOC_第4页
第4页 / 共24页
西南林学院.DOC_第5页
第5页 / 共24页
点击查看更多>>
资源描述

1、西 南 林 学 院本 科 毕 业(设计)论 文(二四 届)题 目: 基于 DTW 模型的语音识别 分院系部: 计算机与信息科学系 专 业: 计算机科学与技术 姓 名: 导师姓名: 导师职称: 二四年六月一日基于 DTW 模型的语音识别彭丹(西南林学院 计算机与信息科学系,云南 昆明 650224)摘要:语音识别(Speech Recognition)是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。在课题中,通过采用 DTW(Dynamic time warping, 动态时间伸缩)算法,对实现孤立词的识别进行了初步探讨和研究,实现了在MATLAB 软件环境下孤立词语的语音识别

2、,并针对 DTW 的主要特点及不足做出了总结。DTW 算法基于动态规划(DP)的思想,解决了孤立词发音长短不一的模板匹配问题。文中还针对动态规划的不足提出了改进。关键词:语音识别 DTW MATLAB 动态规划Voice-Identification Based on DTW ModelDan Peng(Dept. of Computer and Information Science, Southwest Forestry College, Kunming, Yunan, 650224, China) Abstract: Voice-identification is a kind of t

3、echnology that is using computer to transfer the voice signal to an associated text or command by identification and understand. In this paper, DTW arithmetic is adapted to study and research the implement the identification of single-word, and Speech recognition for single-word is realized by using

4、 MATLAB. In the end, this paper gets a conclusion on the feature and the shortage of DTW.DTW arithmetic based on the method of DP has solved the problem that the voice has different time during the template matching. This paper also put forward some advises about DP. Key words: Voice-Identification

5、DTW MATLAB DP目 录引言 .11 开发背景及可行性分析 .11.1 开发背景 .11.2 可行性分析 .22 语音识别基础 .22.1 语音识别概述 .22.2 语音识别系统分类 .32.3 语音识别技术介绍 .32.3.1 语音识别单元的选取 .32.3.2 特征参数提取技术 .42.3.3 模式匹配及模型训练技术 .42.4 语音识别系统的基本构成 .53 MATLAB 简介 .64 算法阐述 .74.1 DTW 算法原理 .74.2 DTW 算法实现 .94.2.1 算法简介 .94.2.2 程序运行流程 .94.3 运行结果 .104.4 算法改进 .115 总结 .125

6、.1 语音识别难点 .125.1.1 语音识别系统的开发过程中的难点 .125.1.2 语音识别系统的实际应用中的难点 .135.1.3 语音识别所面临的实际情况 .135.2 课题总结 .145.3 课题心得及长远发展 .14参考文献 .15致谢 .16附录 源程序代码 .17西南林学院 2004 届本科毕业论文1引言语言是人类特有的功能,声音是人类最常用的工具。通过语音传递信息是人类最重要、最有效、最常用和最方便的信息交换形式 12。语言信号是人类进行思想疏通和情感交流的最主要途径。让计算机能听懂人类的语言,是自计算机诞生以来人类梦寐以求的想法。在本课题中,将针对 DTW 算法,讨论如何实

7、现对个别个体的特定声音进行语音识别的问题。1 开发背景及可行性分析1.1 开发背景本项目来源于云南省重点项目西双板纳自然保护区系统建设。在该项目中综合应用传感器技术,数字仿真技术,数据编码与数据压缩技术,DSP 技术,无线传输技术等,研究自然保护区视频信号、声音信号以及其他监测信号的采集、传送、处理方案,设备选型方案,二次开发技术,为自然保护区信息系统建设。研究内容:1) 自然保护区图像与声音等监测信息自动采集技术及专用设备研究。恶劣的自然环境下,其有低成本,高可靠性,免维护太阳能供电,间歇工作条件,窄带宽,单一功能的信息采集设备的研制。2) 自然保护区监测信息无线传输技术与方法研究。最佳频点

8、选择,组网方式,图上作业,机站选点,天线类型,实验设备选型等。3) 自然保护区监测信息数据格式及 DSP 芯片开发技术研究。与华为等开发商合作进行专用设备的设计与开发等。4) 重点保护动物自动跟踪技术研究。监测设备之间的配合,待机与激活状态的自动切换等。5) 太阳能电围栏智能化改造现有太阳能电围栏设备,由于技术太简单,野象很容易适应并能找到对策,本项目拟在进一步研究野象生活习性的基础,引入其他技术,如:声、光、影像伪装基于 DTW 模型的语音识别2技术和智能技术,改进现有简单、被动的野象防护技术,并对太阳能产品性能作进一步研究。该课题的目标是基于研究内容的第一点实现野生大象的语音识别。1.2

9、可行性分析语音识别有两种特殊形式:说话人识别和语种辨别,它们和语音识别一样,都是通过提取语音信号的特征和建立相应的模型进行分类判断的 12。说话人识别力求找出包含在语音信号中说话人的个性因素,强调不同人之间的特征差异;而语种辨别则要从一个语音片段中判别它是哪一个语种,所以就要尽可能的找出不同语种的差别特征。在课题中,我们要实现的是大象声音的识别,即实现在所听到的声音中判别哪个声音发自于大象,或判别听到的一个声音是否发自于大象。这实际上就是语音的模糊识别,但为了实现方便,只实现了对个别个体的特定语音识别。个别个体是指因为算法的不完善以及研究对象的相对独立,只能识别某只特定的大象,而对于象群的模糊

10、识别,还未能达到要求。特定声音是指因为语音数据库的不完善,只能正确的识别大象在特定情绪下的语音。这部分内容在总结部分将会重点提出。2 语音识别基础2.1 语音识别概述语音识别:语音识别(Speech Recognition)重要是指让机器听懂人说的话,即在各种情况下,准确的识别语音的内容,从而根据其信息,执行人的各种意图或执行特定的任务 12。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解) ,其最终目标是实现人与机器进

11、行自然语言通信。西南林学院 2004 届本科毕业论文32.2 语音识别系统分类语音识别系统按照不同的角度,不同的应用范围,不同的性能要求会有不同的系统设计和实现,有以下几种类型:1) 孤立词,连接词,连续语音识别系统以及语音理解和会话系统。2) 大词汇,中词汇和小词汇量语音识别系统。3) 特定人和非特定人语音识别系统。在我们的课题中由于要实现的是对大象声音的识别,所以可以将其归结为第 3类,即特定人和非特定人的语音识别系统。2.3 语音识别技术介绍语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。2.3.1 语音识别单元的选取选择识别单元是

12、语音识别研究的第一步。语音识别单元有单词(句) 、音节和音素三种,具体选择哪一种,由具体的研究任务决定 4。单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约 1300 个音节,但若不考虑声调,约有 408 个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的 4。音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在

13、于汉语音节仅由声母(包括零声母有 22 个)和韵母(共有 28 个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区基于 DTW 模型的语音识别4分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究 4。2.3.2 特征参数提取技术语音信号中含有丰富的信息,如何从中提取出对语音识别有用的信息是语音识别的关键。特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量

14、减少说话人的个人信息(对特定人语音识别来讲,则相反) 。从信息论角度讲,这是信息压缩的过程。线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于 LP 技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点 4。Mel 参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果 4。实验证明,采用这种技术,语音识别系统的性能有一定提高。2.3.3 模式匹配及模型训练技术模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹

15、配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW) 、隐马尔可夫模型(HMM) 、概率语法分析法和人工神经元网络( ANN) 。DTW(Dynamic Time Warping 动态时间伸缩算法)是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。DTW 是用满足一定条件的时间归正函数描述待识别模式和参考模板的时间对应关系,求解两模板匹配是累计距离最小所对应的归正函数,从而保证了模板间存在的最大的声学相似性。DTW 算法在

16、词汇表较小以及各个词条不容易混淆的情况下具有一定的优越性,但在由于其只是简单的模板匹配,在处理要求更高的语音识别就显得力不从心了。因为对于连续语音识西南林学院 2004 届本科毕业论文5别系统来讲,如果选择词,词组,短语甚至整个句子作为识别单位,为每个词条建立一个模板,那么随着系统用词量的增加,模板的数量将达到天文数字,而这在实际应用中是不可能被允许出现的情况。HMM 模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor 链,另一个是与 Markor 链的每一状态相关联的观察矢量的随机过程(可观测的) 。

17、隐蔽 Markor 链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽 Markor 链的转移概率描述。模型参数包括 HMM 拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM 模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称 DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称 CHMM)以及半连续隐马尔可夫模型(SCHMM,集 DHMM 和 CHMM 特点) 。一般来讲,在训练数据足够的,CHMM 优于 DHMM和 SCHMM。语法分析法:一方面由于不同的人说同一

18、些语音时,相应的语谱极其变化有种种差异,但总有一些共同的特点足以使他们区分于其他语音,也即语音学家提出的“区别性特征 ”。而另一方面,人类的语言要受词法,语法,语义等约束,人在识别语音的过程中充分应用了这些约束以及对话环境的有关信息。于是,将语音识别专家提出的“区别性特征 ”与来自构词,句法,语义等语用约束相互结合,就可以构成一个“由底向上 ”或“自顶向下”的交互作用的知识系统,不同层次的知识可以用若干规则来描述。人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN 本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是 HMM 模型不具备的,但 ANN 又不具有 HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。2.4 语音识别系统的基本构成语音识别的典型方案如图 1 所示。输

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。