1、 1 毕业论文文献综述 电子信息工程 多种语音识别实现技术的比较及技术前景 摘要: 现如今,随着生活品质的不断提高,人们对于各种技术的要求也在不断提高。语音识别也是一项很具研究价值的项目,在很多情况下,不一定很适合用我们的手去控制一台设备, 但是普通操作无法让人能同时做两件事,当你专注于一件事时,另一件就得不到很好的关注,因此语音识别技术正是解决该问题的最有效的方式。 本文将着重讨论目前使用单片机来实现语音识别的各种方法,以及它们之间的优劣。 关键词: 语音识别技术 ;SPCE061A 单片机 一、 语音识别技术简介 语音 识别技术是一门交叉学科,它涵盖了多门学科,因此具有一定的难度,简单的说
2、,语音识别技术就是通过微处理器的处理、识别,把语音信号 转变成相应的文本或命令的技术 。 机器处理和识别语音过程与人对语音处理和识别过程基本上是一致的,目前主流的语音识别技术是基于统计模式识别的基本理论。一个语音识别系统主要有信号 去噪 、 端点检测、语音识别 等几个环节 1, 见下图 1。 去 噪端 点 检 测 特 征 提 取识 别结 果语 音 输 入输 出训 练参 考模 板参 考模 板识 别图 1.语音识别系统原理图 从图中可知, 语音识别需要完成两个步骤,首先必须训练,建立语音模型库,然后才能通过模式匹配来辨识所提取的语音信号。 二、 语音识别系统 的分类 语音识别系统根据不同的应用范围
3、也可以分为多种分类 23。 ( 1)孤立词、连接词和连续语音识别系统。 孤立词识别系统每次只能识别一个词、一个词组。 实现算法有传统的 DTW、 HMM、神经网络识别算法。在文献 4中,作者使用 MATLAB 软件实现了基于 DTW 算法的孤立字词语音识别,这种算法具有很高的精度。在文献 5中,由于传统的各种语音识别方法都存在计算量过大,因此作者提出了基2 于 DWPTMFCC 的孤立字词语音识别,此算法在不降低识别精度的同时,又降低了运算量,由此可以缩短训练时间,提 高识别速度。 连接词识别一般是由十个数字组成的多位数,显然,这类系统多应用于数字使用频率较高的场合 。 在文献 6中,作者提出
4、了多个特定人连接词语音识别方法,通过在端点检测阶段引入平均的概念,避免了声卡漂移,一定程度上提高了识别精度。 连续语音识别系统较前两者而言就更加复杂,而且成本也比较高。 在文献 7中,作者设计了基于 HMM 的维吾尔语连续语音识别系统,维吾尔语具有超大量的词汇,而且有其独特的语音特征,它的实时识别率还不能满足实时翻译的需求。在文献 8中,作者采用 DSP 芯片设计了一种基于前 向一后向 HMM 连续的、小词量的语音识别系统,实验证明,该系统在室内室外都具有很高的识别率,而且具有良好的实用性和可移植性。 ( 2) 大词汇量、中词汇量和小词汇量语音识别系统。这 三 种系统是根据所支持的词汇量而分的
5、,其中,小词汇量是指 1-20 个词汇,中词汇量是指 20-1000 个词汇,大词汇量是指 1000 以上个词汇。此分类方式大多数情况下与前者所述分类相对应,即小词汇量基本上都是孤立字词语音识别,大词汇量基本上都是连续语音识别,但它们之间并没有明显的界限 。 ( 3) 特定人和非特定人语音识别系统。特定人 ,简单的说就是指命令发出者和训练机器的人为同一人,非特定人是指指令发出者为各种各样不同的人 。 此分类不同于前两者,因为无论何种语音系统都要明确是针对特定人还是非特定人。相比之下,非特定人将具有更大的难度。在文献 9中,由于主流 HMM 算法存在鲁棒性不够理想,抗噪性弱,而且需要大量训练,因
6、此作者提出了一种基于双权值神经网络的非特定人连续语音识别算法,采用了动态搜索的方式,实现了不用切分的连续语音识别,实验证明可以提高识别率。 三、 语音识别的实现技术比较 由多带通滤波器及线性匹配电路构成的语音系统。这是最早的 语音集成电路,出现于 80年代,语音识别功能很低,基本不使用 10。 使用 DSP来处理语音信号,构成语音识别系统。由于 DSP运算能力强,精度高,适合高性能语音识别系统,但是价格较贵。 如文献 8中,作者便是用 TMS320DM642芯片实现连续语音识别系统,该系统具有良好的鲁棒性,识别率达到实用要求。 SPCE061A单片机。它属于系统级芯片,而且用户使用方便,外围电
7、路也很简单,很容易就能实现语音信号的输入和输出功能,在语音识别方面,它有现成的函数可以直接调用。另外其 CPU最高时钟可达 49 MHz,因此可以能与 DSP的处理性能相媲美,并且在价格方面有着很大的优势 。 在文献 11中,作者利用凌阳 SPCE06lA芯片,设计了非特定人嵌入式语音识别系统,采用 (DHMM)离散隐马尔可3 夫模型,利用 Baum welth重估算法、前向后向算法、 viterbi算法完成对语音信号的提取特征参数,训练以及识别,这种系统,在处理复杂数字信号方面能与 DSP相媲美,但价格更便宜,并且有很强的中断处理能力 。 使用专门的交互式语音集成芯片。例如美国 ISD公司生
8、产的单片语音录放电路, ISD2560等。 在文献 12中, 作者设计了一种基于单片机与语音芯片的语音系统,采用 ISD2560与的 89C52实现录音、放音及循环放音的功能, ISD2560内部包括前置放大器、内部时钟、定时器、采样时钟、滤波器、自动增益控制、逻辑控制、模拟收发器、解码器和 480K字节的 E2PROM等,不同于 80年代的集成电路板,该芯片能将语音和音频信号直接以其原本的模拟形式存入 E2PROM存储器,而且 语音质量 好 , 支持 断电语音保护 。因为在程序设计方面更加的方便,价格便宜,所以它较 SPCE061A更有优势。 目前,对于产品开发而言,使用专门的语音识别 芯片
9、的情况较多,因为它能节约很大一部分的程序设计时间;而 SPCE061A单片机主要用于项目研究、开发等情况。 四、 语音识别技术的难点 当然,语音识别技术发展至今,也存在着比较难克服的技术难点,主要体现在以下方面: ( 1) 噪声问题。通常在输入语音信号的时候,同时都存在着或多或少的噪音信号,这些无用信号的存在会导致辨识结果不准确。因此要在硬件消除噪声,和语音识别算法上加以攻克。 在文献 13中,作者设计了基于小波一 RBF网络的抗噪语音识别系统,主要是针对噪音环境下语音系统性能较差的问题,使用小波基替 代 RBF网络中激活函数的小波一 RBF神经网络结构,并采用了全监督训练算法,实验证明,该系
10、统比 RBF网络具有更好的识别能力,尤其在噪声环境下,具有更强的鲁棒性。 ( 2) 自适应的问题。语音识别系统的自适应差体现在对环境条件的依赖性强。就是在某种环境下采集到的语音训练信号只能在同种环境下识别,否则辨识度将会急剧下降。 在文献 14中,作者设计了一种基于矢量泰勒级数的模型自适应算法,它通过测试环境下的少量自适应数据,将 HMM模型的参数变换到测试环境下,从而提高系统的自适应能力。实验表明,在低信噪比环境中性能 提高明显。 ( 3) 语言表达的问题。人说话时很可能会存在不同的语调、语速、音量及共振峰变化多种情况,这就得考验识别系统的识别能力,应在信号的处理上寻求解决办法。 ( 4)
11、端点检测的问题。语音信号的端点检测时语音识别的关键。有研究表明,语音识别系统即使是在安静的环境下,系统一半以上的识别错误是来自端点监测器。因此,提高语音识别效率还得进一步提高端点检测技术。 在文献 15中,作者提出了一种基于改进能零法的连续语音端点检测方法,该方法通过对相邻两帧信号的短时能量正向做差来确定语音信号的起始点,反向做 差来确定语音信号的终点;并且利用信号与背景噪声的短时过零率之比来修正语音信号的终点。实验表明,该4 方法通过多次检测,更精确的找到信号端点,而且并没有增加计算量。 五、 语音识别技术的前景 语音识别技术的应用前景是无可限量的。通过运用该技术,人们的日常生活会变得更加便
12、捷、舒适。例如用语音对门、车、家电进行控制,在不看手机屏幕的情况下通过语音拨号 , 汽车驾驶员当其在驾驶过程中通过发出语音指令让计算机执行特定的任务 16。既增加了安全性,又提高了人们的生活品质。将语音识别应用于自动翻译 ,全世界的人们在沟通上将不再 有障碍 17,世界文化交流将迎来一个全新的时代。 参考文献 1 张震宇 ,王华 .基于凌阳单片机的语音识别技术及应用EB/OL,2009-9-10.http:/ 2 曹建林 .语音识别中 HMM 的研究 D.南京 :东南大学 ,2005. 3 李昌禄 .基于单片机平台下的语音识别技术应用方式研究 D.天津 :天津大学 ,2009. 4 汪清泉 ,
13、黄明红 .语音识别的软件实现 J.大众科技 ,2010,8:13 15. 5 李国良 ,郑郁正 ,刘潇营 .新型识别算法在孤立字词语音识别中的应用 J.成都信息工程学院学报 ,2010,2,25(1):1 6. 6 龙银东 ,刘宇红 ,敬岚 ,乔卫民 .在 MATLAB 环境下实现的语音识别 J.微计算机信息 ,2007,23(34):255 256. 7 那斯尔江吐尔逊 ,吾守尔斯拉 .基于隐马尔可夫模型的维吾尔语连续语音识别系统 J.计算机应用 ,2009,7,29(7):2009 2011. 8 于晓明 ,柏松 .基于前向 -后向 HMM 的连续语音识别系统的研究 J.计算机工程与设计
14、,2009,30(18):4339 4341. 9 叶虹 , 祝永华 , 张 有 正 . 基 于 神 经 网 络 的 语 音 识 别 研 究 J. 科 学 技 术 与 工程 ,2010,7,10(19):4797 4799. 10 陈慧 .凌阳 SPCE061A 语音功能在自动售货机中的应用研究 J.华东交通大学学报, 2010, 2,27(1): 63. 11 英锋 ,冯玉芬 .基于 SPCE061A 的语音识别系统的设计 J.微计算机信息 ,2008,6,24(6-2): 121 122. 12 王坤 ,张文科 .基于单片机与语音芯片的语音系 统设计 J.科技信息 ,2009,6:177.
15、 13侯雪梅 .小波网络和 RBF 网络的抗噪语音识别 J.计算机工程与应用 ,2009,45(19):150 152. 14 吕勇 , 吴镇扬 . 基于矢量泰勒级数的模型自适应算法 J. 电子与信息学报 , 5 2010,1,32(1):107 111. 15 郭振兴 ,罗中明 ,王黎黎 ,许伟平 .一种基于改进能零法的连续语音端点检测方法 J.哈尔滨理工大学学报 ,2009,4,14(增刊 1):86 88. 16 Ziming Qi,Tom Moir.An Adaptive Wiener Filter for Automatic Speech Recognition in a Car E
16、nvironment with Non-Stationary NoiseC.Smart Sensors and Sensing Technology,Berlin:Springer Berlin Heidelberg,2008,7: 299. 17 Michael W.Frandsen,Susanne Z.Riehemann,Kristin Precoda.IraqComm and FlexTrans: A Speech Translation System and Flexible FrameworkC.Tarek Sobh.Innovations and Advances in Computer Sciences and Engineering,Netherland:Springer Netherlands,2010,3:531 532.