1、I摘 要语音识别(Speech Recognition)是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术以语音信号处理为研究对象,涉及语言学、计算机科学、信号处理、生理学、心理学等诸多领域,是模式识别的重要分支。该技术有非常广阔的应用前景。论文主要研究语音识别的基本原理和不同的识别算法,并着重研究基于 MATLAB的语音识别算法。在此基础上论文构建了一个基于 MATLAB 的孤立词语音识别系统。该系统完成了语音识别的主要过程,包含预处理、端点检测、特征参数提取和模式匹配。预处理主要进行了预加重和加窗分帧,端点检测采用了双门限方法,特征参数提取采用的是线性预测分析方
2、法,选取了美尔倒谱系数(MFCC)作为主要的特征参数,利用 DTW 算法完成了几个孤立词 “前进、后退、停 ”的训练和识别。多人实验的结果表明,该系统的识别率还算可观,对简单孤立词语音识别非常实用,可以满足系统的设计要求。关键词:matlab;语音识别;孤立词IIAbstractSpeech Recognition (Speech Recognition) is to allow machines to identify and understand the process of the voice signal into the appropriate text or order of th
3、e technology. Voice recognition technology to voice signal processing for the study, involving linguistics, computer science, signal processing, physiology, psychology and other fields, is an important branch of pattern recognition. The technology has a very broad prospects. Major research papers sp
4、eech recognition and the basic principles of different algorithms to identify and focus on MATLAB-based speech recognition algorithm. On this basis, build a thesis based on MATLAB isolated word speech recognition system. The system completed the process of the main speech recognition, including pret
5、reatment, the endpoint detection, feature extraction and pattern matching. Pretreatment a major pre-emphasis and processing window-frames, endpoint detection using a dual-threshold method, feature extraction using a linear prediction analysis, the United States and Seoul has been selected inverted c
6、oefficients (MFCC) as the main parameters, the use of DTW algorithm completed a few isolated words “forward, rewind, stop“ the training and recognition. More than the results of the experiment shows that the system of recognition rate still considerable, the simple words in isolation speech recognit
7、ion is useful, to meet the design requirements. Key words: matlab; speech recognition; isolated wordsIII目 录1 绪 论 .11.1 语音识别概述 .11.1.1 语音识别研究的重要意义 .11.1.2 语音识别的发展现状 .21.2 语音识别研究的现状及发展趋势 .31.2.1 语音识别研究的现状 .31.2.2 语音识别研究面临的问题 .31.2.3 语音识别未来的趋势 .42 语音识别的基本原理 .62. 1 语音识别的基本原理 .62.2 语音信号的预处理 .72.2.1 预加重 .
8、72.2.2 端点检测 .92. 3 语音信号特征参数提取 .122. 3. 1 线性预测分析的基本原理 .132.3.2 美尔倒谱参数 .152.3.4 美尔倒谱参数的计算 .162. 4 模板匹配技术 .182. 4. 1 动态时间规整(DTW) .183 基于 MATLAB 的语音识别系统 .203.1 语音识别简介 .203.1.1 语音识别系统的分类 .203.1.2 语音识别系统的基本构成 .213.2 语音识别的参数 .213.2.1 线性预测倒谱系数 .213.2.2 MFCC 系数 .233.3 特定人语音识别算法 DTW 算法 .24IV3.3.1 DTW 算法原理 .24
9、3.3.2DTW 的高效算法 .273.4 非特定人语音识别算法 HMM.283.4.1 HMM 的原理 .284 实验仿真及结果分析 .304. 1 仿真实验原理 .304.1.1 录音的数据格式 .304.1.2 语音采集 .314. 2 预处理 .314. 2. 1 预加重 .314. 2. 2 端点检测 .324.3 基于 MATLAB 的个别词汇语音识别系统设计 .324. 3. 1 识别过程及结果 .32总 结 .35致 谢 .36参考文献 .37附 录 A 英文文献 .40附 录 B 中文翻译 .45附 录 C 程序部分 .4911 绪 论1.1 语音识别概述1.1.1 语音识别
10、研究的重要意义语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算机的人机界面,从而对计算机的发展以及推广应用产生深远的影响。随着计算机的小型化,键盘己经成为移动平台的一个很大障碍,想象一下如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作己经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术的结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用己经成为一个具有竞争性的新兴高技术产业。语音识别技术作为声控产业,必将对编辑排版、办公自动化、工业过程和机器操作等的声控技术起到重大的推进作用。语音识别技术在人机交互应用中,也已经占到了越来
11、越大的比例。如基于电话的语音识别技术,使计算机直接为客户提供金融、证券和旅游等方面的信息查询及服务成为可能,进而成为电子商务进展中的重要一环。在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者 ”和生活“伙伴”;使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息。因此可以预见,语音技术必将对工业、金融、商业、文化、教育等诸方面产生革命性的影响。这是一项具有巨大应用推广前景的工程。正是由于这一点,一些主要先进国家都把语音识别的研究列为国家级的研究项目。语音识别按照其服务对象、词表大小、工作环境、发音方式、任务性质、识别方法
12、等,可分为以下几类:(1)按发音方式按发音方式可分为孤立字语音识别系统、连接词语音识别系统和连续语音识别系统。孤立字发音识别系统指人在发音时,以单字的发音方式向语音识别系统输入语音,词与词之间要有足够的时间间隙。连接词语音识别系统指以词或词组为发音单位向系统输入语音。连续语音识别系统指在输入语音时,完全按照人的最自然的说话方式输2入。(2)按服务对象服务对象是指语音识别系统是提供给特定的人使用,还是不确定的任意人使用的。按服务对象可分为特定人和非特定人语音识别系统。(3)按词汇表的大小每个语音识别系统都有一个词汇表.系统只能识别此表中包含的词条。按词汇表的大小可分为小词汇表识别系统、中等词汇表
13、识别系统、大词汇表识别系统和无限词汇表识别系统。1.1.2 语音识别的发展现状语音识别的研究工作大约开始于五十年代,当时 AT(2)语音识别系统的灵活性差,不能适应人类灵活、自然的说话方式;(3)连续语音流中语音信号的声学特征随与之前后相连的语音的不同而有很大的变化,且各语音单位之间不存在明显的界线,语音切分很困难;(4)语音特征变化大。语音特征随发音人的不同、发音人生理或心理状态的变化而有很大的差异;(5)语音的模糊性,同音词大量而普遍存在:(6)对韵律信息的利用不足;韵律信息指的是说话之中的重音、语调等超音段信息:如何在语音识别中结合韵律信息还有待进一步的研究;(7)自然语言的多变性难以借
14、助于一些基本语法规则进行描述,语法、语义规则定义困难。对于汉语语音识别来说除具有一般语音识别的特点外,还有其独特的方面,因为:(1)汉语字以单音节为单位,发音时间短,不像英语以多音节为主;(2)汉语有大量的同音字;汉语由 60 个左右的声母和韵母组成 40 多个无调音节和1200 多个有调音节,音节与音节之间相似性大、易混淆;(3)中国民族众多,不同地区之间发音变化很大,方言多;(4)汉语的字词不分使得词的切分成为汉语语言理解与处理独有和首要的问题;(5)灵活自由的语言表述难以用汉语语言知识表示方法来表达。1.2.3 语音识别未来的趋势语音识别热点的研究技术有:鲁棒性语音识别、说话人自适应技术
15、、大词汇量关键词识别算法、语音识别的可信度评测算法、基于类的语言模型和自适应语言模型以及深层次的自然语言的理解等等。 语音识别发展的方向有:(1)不同语种之间的语音一语音的翻译;(2)非特定人、大词汇量、连续语音识别;(3)人体语言与口语相结合的多媒体人机交互技术;(4)面向通讯和互联网的语音识别,网络语音识别和电话语音识别;(5)微型化方向发展,就是由 PC 平台发展到 PDA 掌上电脑这样的语音识别,再发展到嵌入式的,能嵌入到各种各样的电器、控制系统和仪器里面的嵌入式系统的语音5识别。2 语音识别的基本原理2. 1 语音识别的基本原理目前大多数语音识别系统都采用了模式匹配原理。根据这个原理
16、,未知语音的模式要与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。语音识别的步骤分为两步。第一步是根据识别系统的类型选择能够满足要求的一种识别方法,采用语音分析方法分析出这种识别方法所要求的语音特征参数,这些参数作为标准模式由机器存储起来,形成标准模式库,这个语音参数库称为“模板” ,这一过程称为“ 学习” 或“训练”。第二步就是识别。根据模式匹配原理构成的语音识别系统如图 2.1 所示。图 2.1 语音识别的原理框图语音识别系统本质上是一种模式识别系统,因此它的基本结构与常规模式识别系统一样,包含有特征提取,模式匹配,参考模式库等三个基本单元。但是由于语音识别系统所处理的
17、信息是结构非常复杂,内容极其丰富的人类语言信息,因此,它的系统结构比通常的模式识别系统要复杂得多。下面对其说明如下。1.预处理包括反混叠滤波、模/数变换、自动增益控制、去除声门激励及口唇辐射的影响,在语音识别中,预处理还包括在声学参数分析之前正确选择识别基本元的问题。2.特征提取经过预处理后的语音信号,就要对其进行特征参数分析。特征提取是指从语音信6号波形获得一组能够描述语音信号特征的参数的过程。特征提取也称为特征参数提取,与之相关的内容是特征间的距离测度。P 特征参数可以选择下面的某一种或几种:平均能量、过零数或平均过零数、频谱、共振峰(包括频率、带宽、幅度)、倒谱、线性预测系数。3.距离测
18、度用于语音识别的距离测度有多种,如欧式距离及变形的距离,似然比测度。4.参考模式库即声学参数模板。它是用训练与聚类的方法,从单讲话或多讲话的多次重复的语音参数,经过长时间的训练而聚类得到的。5.训练与识别方法语音训练和识别的方法很多,如 DTW, VQ, FSVQ、带学习功能的矢量量化(LVQ2 ),HMM、模糊逻辑算法等,也可以棍合使用上述各种方法。测度估计是语音识别的核心。目前,已经研究过多种求取测试语音参数与模板之间的测度的方法。比较经典的有三种:动态时间归整法 (DTW);隐马尔科夫模型法(HMM);矢量量化方法(VQ) 。6.专家知识库用来存储各种语言学知识。知识库中要有词汇、语法、
19、语义和常用词语搭配等知识,知识库中的知识要便于修改和扩充。对于不同的语言有不同的语言学专家知识库,对于汉语要有其特有的专家知识库。7.判决对于输入信号计算而得的测度,根据,若干准则及专家知识,判决选出可能的结果中最好的那个,由识别系统输出,这一过程就是判决。2.2 语音信号的预处理2.2.1 预加重由于语音信号的平均功率谱受声门激励和口鼻辐射影响,信号的高频部分大约在800Hz 以上按 6dB/倍频程跌落,即语音信号的频谱产生高频衰落现象。所以系统得到语音信号频谱时,频率越高相应的成分越少,高频部分的频谱比低频部分的难求,为抵消这种影响就进行预加重(Pre-emphasis) 处理。预加重的目的是提升高频部分,使信
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。