1、 1 毕业设计开题报告 电气工程及其自动化 一种基于 STC 单片机的特定声音识别系统设计 1 前言部分 (阐明课题的研究背景和意义) 与机器进行语音交流,让机器明白你说什么 ,从而使机器明白需要做什么 , 出现了什么情况 这是人们长期以来梦寐以求的事情。 声 音识别技术 就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高 科技技术。 其中一般的声 音识别技术主要包括特征提取技术、模式 匹配准则及模型训练技术三个方面。 根据识别的对象不同, 声 音识别 可以分为特定声音的识别和语音识别两种。其中语音识别 任务 又 大体可分为 3 类,即孤立词识别( isolated word r
2、ecognition),关键词识别(或称关键词检出, keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如 “开机 ”、 “关机 ”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处 出现,如在一段话中检测 “计算机 ”、 “世界 ”这两个词。 1特定声音的识别是针对一种特定的声音进行识别,如报警声,玻璃破碎的声音,呼救声等。对特定声音识别的研究,能在吵杂或着空旷的地方对特定异常声音(比如枪击声、呼救声等)进行监控与定位,就能防止治安
3、事件的发生对安全事业做出不小的贡献。 2 主题部分 (阐明课题的国内外发展现状和发展方向,以及对这些问题的评述) 人们对语音识别研究已经有半个多世纪了,最早研究声音识别系统的是1952 年贝尔实验室的 Davis 等人,他们利用语音音素特征做了一个单人的独立数字识别系统。他 们主要是通过数字元音段频谱曲线的相似度来进行独立数字识别的。到了 1959 年,英国的 Fry 等人采用了频谱分析和模式识别技术设计了一个音素识别器,它能识别 4 个元音和 9 个辅音。六十年代,日本2 在语音识别方面做出了不少研究,主要集中在硬件识别元音、音素以及在利用滤波器进行频谱分析等方面为语音识别作出了不少贡献。
4、1963 年 NEC 公司在语音识别方面做出了硬件数字识别器,由于这一创举的推动使得他们在随后几十年里一直在语音识别方面保持着国际先进水平。六十年代后期 RCA实验室的 Matin 和他的同事一起研究了语音信号中时间刻度 非一致性问题,找到了一种可以寻找语音信号端点的检测方法,很大程度上解决了由于语音信号的时变性造成的系统识别性能下降问题,现在也是语音处理时要处理的首要问题。与此同时原苏联研究人员 Vintsyuk 提出了语音信号的动态时间规整算法,这个算法被广泛的使用,直到现在这个算法还是比较出色的。同一时期的另外一个巨大成就就是 Carnegie Mellon 大学的 Reddy 在连续语
5、音流识别工作中取得的成果,他使用的是动态音素跟踪技术。这两项技术对以后的语音识别产生了很大影响,他们的思想到现在仍然有一定的参考价值。 3 七十 年代语音识别技术取得了长足的进步,这期间的代表成果有孤立词识别技术,这个技术被广大学者研究的比较多,他们相互借鉴取得了不错的成果,使之成为实用技术。前苏联学者引入的模式识别技术给语音识别带来了新的动力,对语音识别起到了巨大的推动作用。同时日本的研究表明动态规划和线性预测也可以用于语音识别,并且在语音识别上取得了不小的成果,如线性预测系数(Linear Predictive Coefficients,LPC)至今仍然是语音识别的一个关键技术。美国的IB
6、M 在语音识别领域一直作着努力,并且取得了不错的成果,推出了 可以用于简单的数据库查询和办公信函工作的大词汇量语音识别系统,以上的不懈努力保证了 IBM 在语音 识别技术的领先地位。同一时期贝尔实验室开始研究非特定人的语音识别系统,它在各类聚集算法、参数选择、距离测度、说话人自适应等方面取得了不错的成绩。 3 八十年代是语音识别的黄金年代,一大批学者投身于语音识别的研究 当中去,取得了巨大的成果。尤其以贝尔实验室 L.R.Rabiner 为代表的一 批学者在 DARPA 计划支持下,积极开展了基于隐形马尔可夫模型 (Hidden Markov Mode, HMM)语音识别方 面的研究,发表了一
7、系列论文和著作, 3 几乎讨论了孤立词汇语音识别、连续词汇语音识别、大词汇表连续语音流 语音识别等各方面的问题,将语音识别技术的研究推向了一个新高潮。这期间尤其以美国、日本以及我国台湾地区的研究最为突出。其中在利用 HMM进行大词汇量语音识别取得的成果最为显著。可以说八十年代为语音识别成果辈出的时代。有代表性的语音识别系统为 IBM 的 DragonSystem, CMU 的SPHINX,以及贝尔实验室、 MIT、林肯实验室取得一些不错技术成果。 3 九十年代相对来说是一个平稳期,不像八十年代那 么波澜壮阔。这是 由于人们看到 HMM 在语音识别方面取得了巨大成果,以为语音识别将很 快的被解决
8、,但是当深入研究后发现 HMM 也存在一些问题,这时有的学 者开始考虑是不是研究方向出了什么问题,开始怀疑以前的研究成果。但 是研究工作还是在一些大学和研究机构中默默的进行着。正是由于这些扎 实的研究工作才有可能为未来的技术突破带来希望。其中一方面学者们在 改进语音模型的不足,如用人耳听觉机理来改进语音识别特征参数(Mel-Frequency Cepstral Coefficients ,MFCC )、声道长度归一化来 适应说话人的变化、音素状态矩阵表现音素的细微声学差别等。另一方面剑桥大学的Steve Young 开发了基于 HMM 的用于连续语音识别的 HTK 工具包,使很多学者有了一个很
9、好的研究平台, 2000 年 9 月这个工具包的 3.0 版本己经免费开放了全部源代码,为更多学者提供了更好的研究条件。还有就是 IBM 推出的ViaVioce 软件,在实践中取得了一定的成果。随着神经网络的研究取得了一定成果,出现了以神经网络为建模方式的语音识别算法。人工神经网络现在也是现在研究的一个热点。以上这几种技术推动了语音识别技术的发展,并将在语音识别 的历史上留下了自己光辉的一页。最近小波理论的发展在其它领域取得了不小的成功,也有人希望小波理论能够应用于语音识别,但是效果不是很理想。 国内语音识别研究工作开展的比较晚,但是进展的速度比较快,现在已经能够紧跟国际先进水平。另外我国政府
10、对语音识别也比较重视, 863 计划中语音识别就占有很重要的位置。由中科院自动化所、声学所、北京大学等单位实施。国家 863 计划智能计算机专家组于 1998 年 4 月进行4 了对国内大词汇量连续语音识别系统的测评,其中以清华大学的系统最为优秀。其试验结果与 IBM 的语音识别系统成绩不相上下。中科 院自动化所的非特定人、纯净语音环境下的连续语音听写系统和汉语语音对话系统的字正确率和响应率达到 90%以上。中科院自动化所的机器人现在已经能够跟非特定人进行简单的特定词汇的对话。以上这些成就说明中国的语音识别技术现在己经能够在国际语音识别界占有一席之地。作为高科技应用领域研究的热点,语音识别技术
11、从理论研究到产品的应用已经经历了半个多世纪的历程。并且取得了长足的进步。它在军事、办公和商业系统的数据库语音查询、工业生产部门的语音控制、电话以及电信系统的自动拨号以及很多领域都发挥了巨大的作用,并在未来一定会成为新一 代操作系统的接口。实用语音识别技术是一项具有很大市场潜力的技术,但是现在的语音识别远远没有达到计算机与人交流的最终目标,它现在还存在着很多问题,在语音识别技术里面必然包括如何从语音信号中提取信息和理解含义的工作。只有弄清人的发声规律和听觉特性才能在语音识别方面有长足的进步,才能有一个质的飞跃。如何充分借鉴和利用人完成听觉过程是一个很大的课题,值得学者们深入的进行研究 3 现阶段
12、的语音识别研究中存在很多困难,语音识别系统的适应性差, 也就是鲁棒性不好,对环境的依赖性特别强。在某种特定环境下建立的语 音识别系统,如果环境发生改变,识别效果会急剧变坏。而且全世界语言 众多,一种语言还有很多种方言,还有说话人的情绪波动也能对对语音识 别系统的识别性能带来很大的破坏。因此如何加强系统的鲁棒性是语音识 别的一个重要研究方向。 3 目前国内乃止国际上使用的声音识别所常用的一些声学特征有线性预测系数 LPC、倒谱系数 CEP、 Mel 倒谱系数 MFCC 和感知线性预测 PLP、 MFCC的计算 。其中: 线性预测系数 LPC 是指 线性预测分析 。 通过对声道的短管级联模型的研究
13、,认为系统的传递函数符合全极点数字滤 波器的形式,从而 n 时刻的5 信号可以用前若干时刻的信号的线性组合来 预测 。通过 对 实际语音的采样值和线性预测采样值之间达到均方差最小 LMS,即可得到线性预测系数 LPC。对 LPC 这一特征系数 的计算方法有自相关法(德宾 Durbin 法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与 LPC 这种预测参数模型类似的声学特征还有线谱对 LSP、反射系数等等。 4 倒谱系数 CEP 是指 利用同态处理方法,对语音信号 进行 离散傅立叶变换 ,然后取 对数,再求反变换 从而 得到倒谱系数。对 LPC 倒谱( LPCCEP)
14、,在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。 4 Mel 倒谱系数 MFCC 和感知线性预测 PLP 是 通过对人的 听觉系统研究而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。 Mel 刻度是对这一临界带宽的度量方法之一。 4 MFCC 计算 时, 首先 要 用 FFT 将时域信号转化成频 域,之后对其对数能量谱用依照 Mel 刻度分布的三角滤波器组进
15、行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换 DCT,取前 N 个系数。 PLP 仍用德宾法去计算 LPC 参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行 DCT 的方法。 4 语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算 。 HMM 声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机, 隐马尔可夫模型 HMM 是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用 HMM 刻画语音信号需作出两个假设,一是内部状态的转移只与上
16、一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。 HMM 的打分、解码和训练相应的算法是前向算法、Viterbi 算法和前向后向算法。 8 6 语音识别中使用 HMM 通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别 基元建模,一个音素就是一个三至五状态的 HMM,一个词就是构成词的多个音素的 HMM 串行起来构成的 HMM,而连续语音识别的整个模型就是词和静音组合起来的 HMM。上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其
17、他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为 Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。 4 英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为 senone。决策树用来实现高效的 triphone 对 senone 的对应,通过回答一系列前后音所属类别(元 /辅音、清 /浊音等等)的问题,最终确定其 HMM 状态应使用哪个 senone。分类回归树 CART 模型用以进行词到音素的发音标注。 4 语言
18、模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中 N-Gram 简单有效,被广泛使用。 4 N-Gram:该模型基于这样一种假设,第 n 个词的出现只与前面 N-1 个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计 N 个词同时出现的次数得到。常用的是二元的Bi-Gram 和三元的 Tri-Gram。 语言模型的性能通常用交叉熵和复杂度( Perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从 压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一
19、文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的 N 元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、 Katz 平滑和 Kneser-Ney 平滑。 4 3 总结部分 (将全文主题进行扼要总结,提出自己的见解并对进一步的发展方向做出预测 ) 7 现在的声音识别都需要硬件做 FFT 变换,在 FFT 变换后再做相关的判定。但单片机的数据处理和存储能力有限,在 stc 的单片机上做 FFT 变换会很慢,不切实际,再鉴戒已有的技术后有些技术可以在本次设计中应用到的比如找端点,判断过零域等,但由于考虑单片机的数据处理能
20、力数据采集处理,和最后进行识别的过程仍然需要参考跟多的资料和进行更多的实验。 4 参考文献 1蔡莲红,黄德智 .现代语音技术基础与应用 .北京 :清华大学出版社 2003 2徐金甫 .基于特征提取的抗噪声语音识别研究 .华南理工大学工学博士学位论文 .2000 3马龙华 .车载环境下语音识别方法 . 哈尔滨工程大学 .研究工学士学位论文 .2008 4蒋文建 .噪声环境下语音识别新算法研究 .华南理工大学工学博士学位论文 .2001 5吴宗济,林茂灿等 .实验语音学教程 .北京 :高等教育出版社, 1989 6李祖鹏,姚佩阳 .一种语音段起止端点检测新方法 .电讯技术 .2001 7 赵晶 .
21、非负稀疏信号分解及在单声道声音分离中的应用 .电子科技大学 .2006 8 张勇 ,窦维蓓 .强干扰环境下的特定声方向定位 . 清华大学 .2009 9 李祖鹏,姚佩阳 .一种语音段起止端点检测新方法 .电讯技术 .2001 10 吴兆熊,黄振兴,黄顺吉等 .数字信号处理 .北京 :国防工业出版社 . 1985 11康 华光 .电子技术基础 .高等教育出版社 .1999 12邱关源 .电路 . 高等教育出版社 .1999 13李朝青 .单片机原理及接口技术 .北京航空大学出版社 .2005 14 Xu Xianghua Zhu Jie Guo Qiang.Speaker-independent speech recognition based on HHM state-restructuring method. Journal of Southeast University .2004 15Jean-Claude Junqua, Jean-Paul Haton. Robustness in automatic speech recognition: fundamentals and applications. America:Kluwer Academic Publishers_ 1996 8