1、南阳师范学院 2012 届毕业生毕业论文(设计)题 目: 语音识别技术及发展 完 成 人: 陈 哲 班 级: 软件工程 20 班 学 制: 2 年 专 业: 软件工程 指导教师: 赵艳丽 完成日期: 2012-04-14 目 录摘要 (1)1绪论 (1)1.1 本课题研究的背景与意义 (1)1.2 国内外研究概况 (3)1.3 目前仍存在的问题 (5)1.3.1 语音识别的方言和口音问题 (5)1.3.2 信道问题 (5)1.3.3 背景噪音问题 (5)1.3.4 自然语音理解领域 (5)1.3.5 语音合成 (5)2语音识别技术概述 (6)2.1 语音识别的类型 (6)2.1.1 以所要识别
2、的单位来分 (6)2.1.2 以说话人来分 (6)2.1.3 以识别方法来分 (6)2.2 语音识别的原理 (7)2.3 语音识别的基本过程 (7)3语音识别的基本方法 (8)3.1 基于语音学和声学的方法 (9)3.2 模版匹配的方法 (9)3.2.1 动态时间规整(DTW) (9)3.2.2 隐马尔可夫法(HMM) (9)3.2.3 矢量量化(VQ) (9)3.3 神经网络的方法 (10)4语音识别系统的结构和所面临的问题 (10)4.1 语音识别系统的结构 (10)4.1.1 语音信号预处理与特征提取 (10)4.1.2 声学模型与模式匹配 (11)4.1.3 语音模型与语音处理 (12
3、)4.2 语音识别所面临的问题 (12)4.2.1 算法模型方面 (12)4.2.2 自适应方面 (12)4.2.3 强健性方面 (13)4.2.4 多语言混合识别已经无限词汇识别方面 (13)4.2.5 多语种交流系统的应用 (13)5语音识别的应用 (14)5.1 语音识别的应用简介 (14)5.2 语音识别在公安工作中的应用 (15)5.2.1 历史背景和现状 (15)5.2.2 在侦查工作中的应用 (15)5.2.3 在抓捕中的应用 (16)5.2.4 在取证中的应用 (16)5.2.5 在执行取保候审、监视居住等强制措施中的应用 (17)6总结 (17)参考文献 (18)Abstra
4、ct (18)语音识别技术及发展作 者:陈 哲指导教师:赵艳丽摘要:语音是人们相互之间交流最直接最有效的方式,作为一种人机界面,语音与键盘、鼠标输入相比是最自然的输入方式。语音识别技术从上世纪 50 年代开始到现在已经有了巨大进展,促使人们迫切把它推向实用领域,而不 满足于只是理论研究。人 们期望通过在移动通讯设备中引入语音识别系统使得语音识别技术真正从实验室走向日常生活。关键词:语音识别;低代价;实时;端点检测;说话人自适应 1绪论1.1本课题研究的背景与意义随着现代科学的发展,人们在与机器的信息交流中,需要一种更加方便、自然的方式,而语言是人类最重要、最有效、最常用和最方便的通信形式。这就
5、很容易让人想到能否用自然语言代替传统的人机交流方式(如键盘、鼠标等)。人机自然语音对话就意味着机器应具有听觉,能“听懂”人类的口头语言,这就是语音识别(Speech Recognition)的功能。语音识别是语音信号处理的重要研究方向之一,它是一门涉及面很广的交叉学科,与计算机、通信、语音语言学、数理统计、信号处理、神经生理学、神经心理学、模式识别、声学和人工智能等学科都有密切的联系。它还涉及到生理学、心理学以及人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解) 1。语音识别技术以语言为研究对象,涉及生理学、语言学、计算机及信号处理等多个领域,是语言信号处理的一个重要研究方向,在
6、智能控制、多媒体、人机对话等方面有着极其广泛的应用前景。特别是在各种智能机器人领域,基于语音识别技术的导航控制为人机交流、合作提供了有效的途径,成为当前智能机器人的热点之一。语音是语言信息的载体,语音识别的基本任务是将输入的语音转化为相应的语言代码。这样,不仅使存储或传输这样的语言代码时的数码率比起存储或传输原来有语音信号来大幅度降低,而且还在于它把一种连续的语音信号变成了一种有限符号,这样的符号容易被计算机(或专用信息处理单元)理解其含义,并且便于与人进行交流,因而语音识别得到十分广泛的应用 2。随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需要的语音识别系统的实现
7、成为可能。近二三十年来,语音识别在工业、军事、交通、医学、民用诸方面,特别是在计算机、信息处理、通信与电子系统、自动控制等领域中有着广泛的应用。当今,语音识别产品在人机交互应用中已经占到越来越大的比例 3。语音识别技术发展到今天,除了 PC 机的语音识别系统正趋于成熟外,随着语音算法的深入研究和集成电路技术的发展,出现了一些具有实用价值和市场前景的语音识别芯片。近年来,随着消费类电子产品对低成本、高稳健性的语音识别芯片的需求快速增加,使得语音识别系统大量地从实验室的 PC 平台转移到嵌入式设备中。通过研究者的不断努力,现在嵌入式非特定人语音识别系统识别精度已经达到 98%以上,而对特定人语音识
8、别系统的识别精度就更高了 4。嵌入式语音识别系统与 PC 机的语音识别系统相比,虽然其运算速度和存储容量有限,但它具有自己的一些特点。首先,它是一个完整的语音识别系统。除语音识别功能外,为了有一个友好的人机界面和对识别正确与否的验证,该系统还具备语音提示(语音合成)及语音回放(语音编码记录)功能。其次,嵌入式语音识别系统多为实时系统。即当用户说完待识别的词条后,系统立即完成识别功能并有所回应。第三,嵌入式语音识别系统具有体积小、可靠性高、耗电省、投入少、价格低便携性好、可支持移动作业等优点。这是嵌入式语音识别系统与 PC 机的语音识别系统相比最大的优势。嵌入式语音识别系统的优点使得其应用的领域
9、十分广泛 5。语音识别技术目前在嵌入式系统中的应用主要为语音命令控制,它使得原本需要手工操作的工作用语音就可以方便地完成。语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省体积。这样使用者就真正做到“君子动口不动手” 。在西方经济发达国家,大量的嵌入语音识别产品已经进入市场。一些用户电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。可以预测在近五到十年内,嵌入式语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现
10、在市场上。据美国专家预测到 2008 年,具有语音识别功能的产品可达 50 亿美元,同时人们也将调整自己的说话方式以适应各种各样的识别系统。但在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,但我们正一步步朝着改进语音识别系统的方向迈进 6。1.2国内外研究概况语音识别技术是语音处理技术的一个分支。语音处理技术发展过程也就是语音识别技术的发展史。由此可以将语音识别分为三个阶段。第一个阶段是萌芽阶段,在这一阶段(20 世纪 30 年代至 50 年代) ,人们对语音处理的研究主要是根据语音学知识,提取若干特征参数,并利用这些参数制作成模拟电路来模仿人
11、的发音过程,实现简单的语音处理功能。语音识别的研究工作始于 50 年代,它开始的标志是 AT&TBell 实验室实现了第一个可识别十个英文数字的语音识别系统Audry 系统。第二个阶段是发展阶段,在这一阶段(20 世纪 60 年代至 80 年代初) ,随着集成电路技术和计算机技术的发展,语音识别的理论和技术亦日趋完善和成熟。60 年代,提出了用动态规划(DP) 方法来解决语音识别中不等长的问题。70 年代,出现了基于线性预测倒谱和动态时间规整技术(DTW)技术的特定人孤立语音识别系统。80 年代,最显著的特征是隐马尔可夫(HMM)模型和人工神经元网络(ANN)在语音识别中的成功应用。第三个阶段
12、是实用阶段,在这一阶段(20 世纪 90 年代至今) ,随着遵循摩尔定律的超大规模集成电路技术的迅速发展,极大地促进了计算机多媒体技术和人工智能技术的迅猛发展,使人类社会进入到数字信息时代。在此社会背景下,人们对语音识别技术的实际需求愈发迫切,这极大地促进了语音识别技术的不断深入和发展,使语音识别系统从实验室走向实用,从而不断出现利用现语音识别技术的产品 7。嵌入式语音是在 20 世纪六七十年代以来,科研人员一直致力于研究的热门课题。但当时研究出来的嵌入式语音识别专用芯片大多数识别性能差,不能符合实用要求。直到近 10 年来,随着语音识别算法的深入研究和集成电路技术的发展,才出现了一些具有实用
13、价值和市场潜力巨大的语音识别专用芯片。我国的语音识别系统的研究起步比较晚,但也取得了很好的成绩,研究水平也从实验室逐步走向实用。从 1987 年开始执行国家 863 计划后,国家 863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国 PC机语音识别技术的研究水平己经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,但独立开发的专用汉语语音识别芯片还是较少,多数都是与国外研究机构合作开发研制的 8。我国所研究的最有代表性的语音识别芯片有清华大学与华录集团合作研究开发的国内第一个具有自主知识产权的语音识别专用芯片。该芯片能够识别2030 条特定人语音命令,同时具有语音合
14、成(提示) 与语音编码、解码(回放)功能,语音识别率为 98%以上,由于优先考虑了语音识别技术在玩具业的应用,与国际上同类芯片相比,其语音识别在基于汉语的 SI(不依靠说话者语音) 技术的应用方面有明显的优势。同时,它还增加了其他同类芯片没有的自带 LCD驱动功能,更吸引人的是比其他的芯片的功耗低 12 倍 5。此外,清华大学还与 Infineon 公司合作开发了的语音芯片 UniSpeech。 UniSpeech 芯片是为语音信号处理开发的专用芯片,采用 0.18 um 工艺生产。它将双核(DSP+MCU)、存储器、模拟处理单元(ADC 与 DAC)集成在一个芯片中,构成了一种语音处理 So
15、C 芯片。这种芯片的设计思想主要是为语音识别和语音压缩编码领域提供一个低成本、高可靠性的硬件平台。UniSpeech 芯片集成了2 路 8kHz 采样 12bit 精度的 ADC 和 2 路 8kHz 采样 11 bit 的 DAC,采样后的数据在芯片内部均按 16bit 格式保存和处理。对于语音识别领域,这样精度的ADC/DAC 己经可以满足应用。ADC/DAC 既可以由 MCU 核控制,也可以由DSP 核控制 6。1.3目前仍存在的问题21 世纪作为“语音的世纪”除了蕴含无限的商机以外,也表明了它们存在发展的空间。概括地讲,有这样一些问题急需解决。1.3.1 语音识别的方言和口音问题中文有
16、八大方言区,现在很多语音识别系统,对标准普通话的识别性能很好,但是一旦有方言或者口音,性能就会马上下降。解决这个问题有着非常重要的意义,这将极大地拓展该技术的使用空间,因此必须下力气解决好这个问题。1.3.2 信道问题我们知道在无线互联应用中,涉及到的信道种类可能会很多,比如固定电话、手机、IP、网络、车载系统等等,各种各样的信道都有不同的特性。语音识别、声纹识别和语音理解如何去适应不同信道的差异是一个不得不面对的问题。1.3.3 背景噪音问题语音识别、声纹识别、语音理解等系统往往在有背景噪音时就不能正常工作了,这是由于背景噪音破坏了原始语音的频谱,或者说把原始语音部分或全部掩盖在噪音当中,因
17、而无法准确地分离出来的缘故。解决好背景噪音的问题也是技术上面临的挑战之一。1.3.4 自然语音理解领域我们必须有很好的理论和技术去解决口语语言现象,比如口语中的重复、改正、强调、倒叙、省略、拖音、韵律等等。1.3.5 语音合成应该说现在的语音合成技术做得很好,能够把给它的文本正确地发出声音来,但是其中存在着一个很大的问题,就是它的声音不够自然。语音合成当中,怎样能够很好地把感情色彩、情绪等正确地表达出来,也需要进一步去研究。首先要解决的一个问题就是必须先对这句话(甚至整个段落)进行理解,理解之后才能够知道如何把韵律加进去,如何表达感情和情绪等 9。2语音识别技术概述近些年来,随着计算机、通讯技
18、术的飞速发展,语音识别技术的重要性进一步得以体现。语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高技术。现在,语音技术的应用已经成为一个具有竞争力的高新技术产业,语音识别正逐步成为信息技术中人机接口的关键技术。将语音识别技术应用于机器人,使机器人能够按照人的语音命令进行操作,这就是机器人听觉。机器人听觉是机器人智能水平的一个重要标志。因此,学习语音识别技术的基本原理和方法,对进一步研究开发智能机器人的功能有重要作用。2.1语音识别的类型在语音识别系统中,主要有以下几种分类方法:2.1.1 以所要识别的单位来分有孤立词识别、音素识别、音节识别、单句识别、连续语言识别和理解
19、。语音理解是在语音识别的基础上,用语言学知识来推断语音的含义。语音理解系统是更高一级的语音识别系统。这类语音识别的发展情况是先从最原始的单音节识别,到限定数量的单词识别,再到对内容进行某种程度限制的会话识别。目前已进入实用的语音识别系统是单词语音的识别,以几百个限定单词为识别对象,现已有性能较好的产品在市场上出售。2.1.2 以说话人来分有单个特定说话人、有限的说话人和无限的说话人。特定说话人的语音识别比较简单,能得到较高的识别率,目前商品化的识别设备多属此种。后两种为非特定说话人,这种识别系统不容易得到高的识别率。研究人员正在为提高识别率而努力,这种系统如果能够实用化,将会有很高的经济价值和
20、深远的社会意义。2.1.3 以识别方法来分有模板匹配法、随机模型法和概率语法分析法。这三种方法都属于统计模式识别方法。其他的识别方法还有句法模式识别、用模糊数学的识别、用人工神经网络的识别等 10。2.2语音识别的原理一般的语音识别系统都采用了模式匹配的原理。从图 2-1 中可以看出语音识别一般分两个步骤。第一步是系统“学习”或“训练”阶段。这一阶段的任务是建立识别基本单元的声学模型以及进行文法分析的语言模型,即构建参考模式库。第二是“识别”或“测试”阶段。根据识别系统的类型选择能够满足要求的一种识别方法,采用语音分析方法分析出这种识别方法所需要的语音特征参数,按照一定的准则和测度与参考模式库
21、中的模型进行比较,通过判决得出结果 1。图 2-1 语音识别系统的原理结构2.3语音识别的基本过程任何语音识别系统的基本识别过程如图 2-2 所示。由图可见,语音识别的基本过程包括:(1)采样,将模拟信号数字化;(2)确定输人信号(单元或词)的起始端和终止端,通过语音检测器对语音信号的幅度值是否超过最低限值来判定;(3)由数字滤波器直接地或由模拟滤波器间接地计算语音谱;(4)音调轮廓图估价;(5)分解输人信号,鉴定语音的特征;(6)单词识别,既可利用“自底朝上”技术将输人的语音特征与所需要词汇的特征比较而确定,也可以利用“自顶朝下”技术在数据库的模式中确定全部输人单元代表的词语;(7)对输人信息做出响应,即显示相应的词汇或字符串等 10。 输入的正字法表示确定输入单元首尾采样和量化SPCE061A单词识别(产生词典式或数码式书写的形式)计算语音谱估价音调轮廓说话者或语音发生器 拾音器分解鉴定语音特征噪声对信息的响应 信息存储