1、 1 毕业设计开题报告 电气工程及其自动化 一种基于 STC 单片机的特定声音识别系统设计 1、 选题的背景、意义 该题目的研究思想指导为,开发一个具有实用价值的“特定声音识别系统”。该系统以 stc 单片机作为识别芯片,通过咪头、放大电路、滤波电路等声音信号采集处理电路把把声音信号采集过来并送到单片机上。单片机对得到的信号进行计算处理并与已经储存在单片机里面的声音样本进行比较,识别是不是我们所要识别的特定声音。 长期以来,视频监控是安防行业里绝对的主流。 但也存在着一些成本高,维护不方便的问题。比如把视频监控技术应用于治安 监控薄弱的城乡结合部、农村地区、城市的偏僻路段就会出现上述问题。而且
2、,虽然目前社会的治安稳定,但在一些偏僻路段还是会发生些打架斗殴,甚至比较恶劣的刑事案件,可见对偏僻路段的治安监控也是必不可少的。本设计针对特定声音进行识别,识别如枪击声、呼救声、玻璃破碎声音等,根据这种特定声音的识别了解是否发生了特定事件,从而起到了监控的作用。 2、 相关研究的最新成果及动态 早在半个世纪以前,贝尔实验室的 Davis 等人利用语音音素特征做了一个单人的独立数字识别系统。他们主要是通过数字元音段频谱曲线的相似度来进行独立数字识 别的。这是人们最早研究的语音识别系统。 1963 年 NEC公司在语音识别方面做出了硬件数字识别器,由于这一创举的推动使得他们在随后几十年里一直在语音
3、识别方面保持着国际先进水平。六十年代后期RCA 实验室的 Matin 和他的同事一起找到了一种可以寻找语音信号端点的检测方法,解决语音信号中时间刻度非一致性问题。解决语音信号中时刻非一致的问题也是现在语音处理时要处理的首要问题。与此同时原苏联研究人员Vintsyuk 提出了语音信号的动态时间规整算法,另外 Carnegie Mellon 大学的2 Reddy 在连续语音流识别工作中取 得的成果,他使用的是动态音素跟踪技术。这两项技术对以后的语音识别产生了很大影响,他们的思想到现在仍然有一定的参考价值。 到七十年代的时候,语音识别技术取得了长足的进步,这期间的代表成果有孤立词识别技术。同时日本的
4、研究表明动态规划和线性预测也可以用于语音识别,并且在语音识别上取得了不小的成果,如线性预测系数 (Linear Predictive Coefficients,LPC)至今仍然是语音识别的一个关键技术。 IBM 在语音识别领域一直作着努力,并且取得了不错的成果,推出了可以用于简单的数据库查询和办公信函工作 的大词汇量语音识别系统,以上的不懈努力保证了 IBM 在语音 识别技术的领先地位。同一时期贝尔实验室开始研究非特定人的语音识别系统,它在各类聚集算法、参数选择、距离测度、说话人自适应等方面取得了不错的成绩。 八十年代是语音识别的黄金年代,以贝尔实验室 L.R.Rabiner 为代表的一批学者
5、在 DARPA 计划支持下,积极开展了基于隐形马尔可夫模型(HiddenMarkov Mode, HMM)语音识别方面的研究,发表了一系列论文和著作,几乎讨论了孤立词汇语音识别、连续词汇语音识别、大词汇表连续语音流语音识别等各 方面的问题,将语音识别技术的研究推向了一个新高潮。这期间尤其以美国、日本以及我国台湾地区的研究最为突出。其中在利用 HMM进行大词汇量语音识别取得的成果最为显著。可以说八十年代为语音识别成果辈出的时代。有代表性的语音识别系统为 IBM 的 DragonSystem, CMU 的SPHINX,以及贝尔实验室、 MIT、林肯实验室取得一些不错技术成果。 九十年代相对来说是一
6、个平稳期。一些学者们在改进语音模型的不足,如用人耳听觉机理来改进语音识别特征参数 (Mel-Frequency Cepstral Coefficients ,MFCC )、声道长度归一化来适应说话人的变化、音素状态矩阵表现音素的细微声学差别等。剑桥大学的 Steve Young 开发了基于 HMM 的用于连续语音识别的 HTK 工具包,使很多学者有了一个很好的研究平台, 2000年 9 月这个工具包的 3.0 版本己经免费开放了全部源代码,为更多学者提供了更好的研究条件。还有就是 IBM 推出的 ViaVioce 软件,在实践中取得了3 一定的成果。随着神经网络的研究取得了一定成果,出现了以神
7、经网络为建模方式的语音识别算法。人工神经网络现在也是现在研究的一个热点。以上这几种技术推动了语音识别 技术的发展,并将在语音识别的历史上留下了自己光辉的一页。 国内语音识别研究工作开展的比较晚,但是进展的速度比较快,现在已经能够紧跟国际先进水平。另外我国政府对语音识别也比较重视, 863 计划中语音识别就占有很重要的位置。由中科院自动化所、声学所、北京大学等单位实施。国家 863 计划智能计算机专家组于 1998 年 4 月进行了对国内大词汇量连续语音识别系统的测评,其中以清华大学的系统最为优秀。其试验结果与 IBM 的语音识别系统成绩不相上下。中科院自动化所的非特定人、纯净语音环境下的连续语
8、音听写系统和汉语语音对话系统的字正 确率和响应率达到 90%以上。中科院自动化所的机器人现在已经能够跟非特定人进行简单的特定词汇的对话。以上这些成就说明中国的语音识别技术现在己经能够在国际语音识别界占有一席之地。作为高科技应用领域研究的热点,语音识别技术从理论研究到产品的应用已经经历了半个多世纪的历程。并且取得了长足的进步。它在军事、办公和商业系统的数据库语音查询、工业生产部门的语音控制、电话以及电信系统的自动拨号以及很多领域都发挥了巨大的作用,并在未来一定会成为新一代操作系统的接口。实用语音识别技术是一项具有很大市场潜力的技术,但是现在的语音 识别远远没有达到计算机与人交流的最终目标,它现在
9、还存在着很多问题,在语音识别技术里面必然包括如何从语音信号中提取信息和理解含义的工作。只有弄清人的发声规律和听觉特性才能在语音识别方面有长足的进步,才能有一个质的飞跃。如何充分借鉴和利用人完成听觉过程是一个很大的课题,值得学者们深入的进行研究 现阶段的语音识别研究中存在很多困难,语音识别系统的适应性差,也就是鲁棒性不好,对环境的依赖性特别强。在某种特定环境下建立的语音识别系统,如果环境发生改变,识别效果会急剧变坏。而且全世界语言众多,一种语言还有很多种方言,还 有说话人的情绪波动也能对对语音识别系统的识别性能带来很大的破坏。因此如何加强系统的鲁棒性是语音识别的一个重要研究方向。 4 目前国内乃
10、止国际上使用的声音识别所常用的一些声学特征有线性预测系数 LPC、倒谱系数 CEP、 Mel 倒谱系数 MFCC 和感知线性预测 PLP、 MFCC的计算 。其中: 线性预测系数 LPC 是指 线性预测分析 。 通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而 n 时刻的信号可以用前若干时刻的信号的线性组合来 预测 。通过 对 实际语音的采样值和线性预测采样值之间达到均方 差最小 LMS,即可得到线性预测系数 LPC。对 LPC 这一特征系数 的计算方法有自相关法(德宾 Durbin 法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与
11、 LPC 这种预测参数模型类似的声学特征还有线谱对 LSP、反射系数等等。 倒谱系数 CEP 是指 利用同态处理方法,对语音信号 进行 离散傅立叶变换 ,然后取 对数,再求反变换 从而 得到倒谱系数。对 LPC 倒谱( LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。 Mel 倒谱系数 MFCC 和感知线性预测 PLP 是 通过对人的 听觉系统研究而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界
12、带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。 Mel 刻度是对这一临界带宽的度量方法之一。 MFCC 计算 时, 首先 要 用 FFT 将时域信号转化成频域,之后对其对数能量谱用依照 Mel 刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换 DCT,取前 N 个系数。 PLP 仍用德宾法去计算 LPC 参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行 DCT 的方法。 语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算 。 HMM 声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,
13、 隐马尔可夫模型 HMM 是指这一马尔可夫模型的内部状态外界不可见,外界只能看5 到各个时刻的输出值。对语音识别系统 ,输出值通常就是从各个帧计算而得的声学特征。用 HMM 刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。 HMM 的打分、解码和训练相应的算法是前向算法、Viterbi 算法和前向后向算法。 语音识别中使用 HMM 通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的 HMM,一个词就是构成词的多个音素的 HMM 串行起来构成的 HMM,而
14、连续语音识别的整个模型就是词和静音组合起来的 HMM。 上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为 Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。 英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为 senone。决策 树用来实现高效的 trip
15、hone 对 senone 的对应,通过回答一系列前后音所属类别(元 /辅音、清 /浊音等等)的问题,最终确定其 HMM 状态应使用哪个 senone。分类回归树 CART 模型用以进行词到音素的发音标注。 语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中 N-Gram 简单有效,被广泛使用。 N-Gram:该模型基于 这样一种假设,第 n 个词的出现只与前面 N-1 个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计 N 个词同时出现的次数得到。常用的是二元的Bi-Gram 和三元的
16、Tri-Gram。 语言模型的性能通常用交叉熵和复杂度( Perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的 N 元组合赋予6 一个概率值,以保证词 序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、 Katz 平滑和 Kneser-Ney 平滑。 3 课题的研究内容及拟采取的研究方法(技术路线)、研究难点及预期达到的目标 声音识别系统是一定硬件平台的应用软件,硬件系统可以有很多种,如普通的 pc
17、机、工作站、甚至服务器和嵌入式硬件系统。操作系统可以是各种操作系统如 Windows、 Linux、 Unix 和嵌入式操作系统。在我们研究的课题里面用的是有 stc 公司生产的单片机,即嵌入式硬件系统,相应的操作系统是适合 stc 的 c语言。一般的语音 识别的主要模块分别为:预处理模块、特征提取模块、识别模块、专家知识库模块。语音识别系统一般是先训练,然后再使用,即先“学习”然后再进行“使用”。一般来说语音识别可以由下图来表示 基于单片机的数据处理能力在,在上图的模块中得有所取舍,在研究的语音识别系统中省去了反馈学习和专家知识库模块,特征提取由电脑处理,在采样的过程中,声道都采用 8khz
18、 的声道,因为根据人发音的频率和采样定律 8khz 符合要求。在采集语音信号后需要对语音信号进行预处理,预处理主要包括, 语音信号的声电转换,这个任务主要由麦克风完成,前置滤波,滤波与语音识别无关的高频信号。然后将电信号进行放大,进行自动增益调整,将电信号放大到一定的范围,然后对其进行数字化处理,也就是进行采样。经过处理后的语音信号要进行断点检测,因为语音信号在时间上是不连续的,是有间断的。断点检测的主要语音信号 端点检测 特征提取 专家知识库 识别模型 反馈学习 7 作用是将含有语音的信号和不含语音的信号进行区分,这样可以降低语音识别系统的负担。语音端点检测的主要技术有过零率、能量、频带能量
19、方差、熵等。在本次研究的过程中我们主要研究过零率和短时能量进行端点检测。在端点检测后应该就是对语音信 号进行计算识别了,一般这时需要系统进行快速傅里叶计算,对语音信号做到谱分析。但单片机的计算能力有限,不能做到谱分析,所以只能换种方法进行语音识别,即记录过零点的时间间隔,再利用模糊识别的方法进行语音识别。 研究的难点是对声音进行端点检测,与声音模糊识别算法的研究。预期能够识别如报警,和玻璃破碎等的特定的声音。 4、 研究工作详细进度和安排 2010.122011.1 充分检索资料的基础上完成课题外文翻译、文献综述。 2011.2.2011.3 完成整体方案构思,和开题报告。 2011.4 20
20、11.5 完成硬件制作,软件的编写工作,完善并完成技术文档。 2011.5 整理毕业设计的资料,毕业答辩。 5、 参考文献 1蔡莲红,黄德智 .现代语音技术基础与应用 .北京 :清华大学出版社 2003 2徐金甫 .基于特征提取的抗噪声语音识别研究 .华南理工大学工学 博士学位论文 .2000 3马龙华 .车载环境下语音识别方法 . 哈尔滨工程大学 .研究工学士学位论文 .2008 4蒋文建 .噪声环境下语音识别新算法研究 .华南理工大学工学博士 学位论文 .2001 5吴宗济,林茂灿等 .实验语音学教程 .北京 :高等教育出版社, 1989 6李祖鹏,姚佩阳 .一种语音段起止端点检测新方法
21、.电讯技术 .2001 8 7 赵晶 .非负稀疏信号分解及在单声道声音分离中的应用 .电子科技大学 .2006 8 张勇 ,窦维蓓 .强干扰环境下的特定声方向定位 . 清华大学 .2009 9 李祖鹏,姚佩阳 .一种语音段起止端点检测新方法 .电讯技术 .2001 10 吴兆熊,黄振兴,黄顺吉等 .数字信号处理 .北京 :国防工业出版社 . 1985 11康华光 .电子技术基础 .高等教育出版 社 .1999 12邱关源 .电路 . 高等教育出版社 .1999 13李朝青 .单片机原理及接口技术 .北京航空大学出版社 .2005 14 Xu Xianghua Zhu Jie Guo Qiang.Speaker-independent speech recognition based on HHM state-restructuring method. Journal of Southeast University .2004 15Jean-Claude Junqua, Jean-Paul Haton. Robustness in automatic speech recognition: fundamentals and applications. America:Kluwer Academic Publishers_ 1996