1、桂林电子科技大学毕业设计(论文)报告用纸 摘 要本文论述了一个采用语音识别技术的电风扇控制系统,采用凌阳 16 位单片机微处理器作为整个系统的核心,且由语音输入输出电路以及电风扇驱动电路组成。本系统能识别特定人的语音命令自动完成对风扇启动、关闭以及档位切换的控制。在本语音识别控制系统中充分利用凌阳单片机内部的 10 位高精度 AD 资源采集特定人控制命令信号,同时也充分利用其内部 10 位高精度 DA 资源转换处理好的语音信号进行输出,这样不用外加 AD、DA 芯片,不仅节约了成本,而且也简化了整个系统的设计。在特定人发出语音命令后,单片机接收语音信号并与语音参考样本进行对比识别,其中识别对比
2、采用的是 DTW 动态时间规整算法。识别成功后,单片机给相应 I/O 口发出电平驱动控制电风扇工作运转。设计中加入了液晶显示模块,让命令者能及时地知晓风扇的工作状态。针对目前语音识别系统普遍存在的缺陷:识别正确率低,本文所设计系统的亮点是在一定程度上提高语音识别的正确率,能较准确听从特定人命令完成对电风扇启动关闭以及档位切换的控制。本文所设计的系统还有一个特色是实用性很强,通过适当的硬件电路改造,该语音识别系统还可以应用于其他家用电器的控制中,且本系统相对于市场上其他语音识别产品,其设计成本较低。关键词:语音识别;SPCE061A ;电风扇控制系统桂林电子科技大学毕业设计(论文)报告用纸 Ab
3、stractThis paper mainly discusses a control system of electric fan which depends on the speech recognition. This control system applies the Sunplus 16 SCM microprocessor as its operating core and is made up of voice input and output circuit, as well as electric fan drive circuit. The speech recognit
4、ion control system fully utilizes the 10 high-precision AD resources in the Sunplus SCM SPCE061A to collect the certain control command signal. At the same time, the voice signal which disposed by 10 high-precision DA resources are fully applied to output data. In this way, it is no need to add the
5、AD and DA chips, so that more costs can be reduced and design of system can be simplified. When the given person launches the voice command, SCM begins to receive the voice signal and conduct the comparison identification with voice samples. The comparison identification applies DTW dynamic time alg
6、orithm. After the identification finishing, SCM issues the electrical level to the corresponding I/O, in order to control the operation of electronic fan. In the design process, the LCD Module is used, which allows the commander know the working condition of electronic fan in time.In terms of the ex
7、isting drawbacks of the current speech recognitionlow accuracy rate of identification, the polishing point of this paper is that the accuracy rate of speech recognition system will be improved and the commanders control of switches of “on” “off” and “change” for electronic fans. In addition, another
8、 feature of this paper falls on the high practical applicability. The speech recognition system can be applied to control other domestic appliances by appropriately transforming the hardware circuit. Whats more, comparing to other speech recognition products in the current market, this design proces
9、ses a relatively low costs.Key words: speech recognition;SPCE061A; control system of electronic fan桂林电子科技大学毕业设计(论文)报告用纸 目 录1 绪论 .11.1 课题设计背景.11.2 语音识别目前国内外发展现状.11.2.1 语音识别国外现状.11.2.2 语音识别国内现状.21.3 语音识别技术的应用领域.21.4 控制系统设计的主要任务.32 语音识别的原理 .42.1 模型匹配方法.42.1.1 DTW 动态时间规整算法 .42.1.2HMM 隐马尔可夫法算法 .52.1.3VQ
10、矢量量化算法 .52.2 语音识别的分类.62.2.1 特定人语音识别.62.2.2 非特定人语音识别.63 方案设计与确定 .73.1 主控制系统处理芯片的选择和论证.73.1.1 方案一:采用 DSP 芯片 .73.1.2 方案二:采用凌阳单片机 16 位单片机 SPCE061A .73.1.3 主控制处理芯片的确定.73.2 系统驱动电路方案的论证和选择.83.2.1 方案一:运用三个继电器外加一些外围电路闭合断开。.83.2.2 方案二:运用光耦芯片来触发控制控制晶闸管的导通与截止。.83.2.3 系统驱动电路方案的确定.83.3 总体方案设计.93.3.1 总体设计框图.94 硬件电
11、路设计.104.1 主控制系统的设计.104.1.1 凌阳单片机 SPCE061A 最小系统设计 .104.1.2 系统电源设计.114.1.3 音频输出电路设计.11桂林电子科技大学毕业设计(论文)报告用纸 4.1.4 音频输入电路设计.124.1.5 显示电路设计.124.1.6 I/O 接口电路设计 .134.2 驱动电路的设计.134.3 电风扇内部电路改造:.155 软件设计 .155.1 音频的概述.155.2 数字音频的采样和量化.155.3 音频格式的介绍.165.3.1 声音文件的格式.165.4 语音压缩编码基础.175.5 本系统所用音频论述.195.5.1 本系统音频压
12、缩算法的编码标准.195.5.2 压缩分类.195.5.3 本系统的音频形式和压缩算法.205.6 本系统的应用程序接口 API 的功能 .205.6.1 概述.205.7 自制本控制系统所用到的语音资源.215.8 自制本控制系统所用到的语音资源总结.225.9 程序设计.235.9.1 程序控制思路.235.9.2 程序流程图.245.9.3 程序中编写的重要文件.255.9.4 程序中编写的重要函数.256 系统调试 .286.1 硬件调试.286.1.1 主控制模块的调试.286.1.2 驱动模块调试.296.1.3 电风扇电路改造检查.306.1.4 系统硬件电路连接.316.2 软
13、件调试.317 结论 .32谢 辞.33参考文献 .34附 录.35桂林电子科技大学毕业设计(论文)报告用纸 桂林电子科技大学毕业设计(论文)报告用纸 第 1 页 共 49 页1 绪论1.1 课题设计背景语言是人类特有的功能,是人们思维最重要的寄托体,是人类交流最主要的途径。语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。语言和语音与人类社会科学文化发展紧密相连。语音识别研究的根本目的是研究出一种具有听觉功能的机器,能直接接受人的口呼命令,理解人的意图并做出相应的反映。语音识别系统的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一
14、个多学科综合性研究领域。1.2 语音识别目前国内外发展现状1.2.1 语音识别国外现状语音识别的研究工作可以追溯到 20 世纪 50 年代 AT&T 贝尔实验室的 Audry 系统,它是第一个可以识别十个英文数字的语音识别系统。 但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在 60 年代末 70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,
15、实现了基于线性预测倒谱和 DTW 技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。 随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其
16、他干扰。因此原有的模板匹配方法已不再适用。 实验室语音识别研究的巨大突破产生于 20 世纪 80 年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学的 Sphinx 系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。 桂林电子科技大学毕业设计(论文)报告用纸 第 2 页 共 49 页这一时期,语音识别研究进一步走向深入,其显著特征是 HMM 模型和人工神经元网络(ANN) 在语音识别中的成功应用。 HMM 模型的广泛应用应归功于 AT&TBell 实验室 Rabiner 等科学家的努力,他们把原本艰涩
17、的 HMM 纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。 统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面,以Markov 链为基础的语音序列建模方法 HMM(隐式 Markov 链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模语料的词之间同现概率即 N 元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言
18、处理机制等也在语音识别中得到了应用。 1.2.2 语 音 识 别 国 内 现 状我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从 1987 年开始执行 国家 863 计划后,国家 863 智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程
19、系与中科院自动化研究所模式识别国家重点实验室。 1.3 语音识别技术的应用领域语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于 98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果
20、。调查统计表明多达 85%以上的人对语音识别的信息查询服务系统的性能表示满意。 可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍桂林电子科技大学毕业设计(论文)报告用纸 第 3 页 共 49 页然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在 60 年代,谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。图
21、 1.1 语音识别技术的实际应用及学科基础1.4 控制系统设计的主要任务设计是根据毕业设计任务书要求,结合实际应用而考虑的。设计的风扇控制系统能根据特定人的语音命令信号,作出相应的语音回答并对电风扇进行开启和关闭以及三个档位切换几个任务。其中涉及到语音命令问答、风扇启动、档位切换几个任务,要求语音回答准确、控制动作准确,并且协调性要好。设计中要解决的问题有:(1) 主控制系统电路的设计;(2) 驱动电路的设计;(3) 显示的电路设计;(4) 语音识别算法的设计;(5) 电风扇的改造;(6) 语音资源的获取;设计出来的控制系统最主要是能达到智能化,能够命令者即特定人的语音命令,作出相应的回答并且
22、能够根据命令对电风扇进行相应的控制并且在液晶显示上还能显示相应的风扇工作状态的信息。设计需完成以下总体图 1.2 的任务:语 音 识 别电 话 拨 号听 写 机查 询 系 统消 费 电 子残 疾 人用 品信 息 论声 学 信 号 处 理 语 音 学 人 工 智 能 模 式 识 别数 理 统 计实际应用学科基础桂林电子科技大学毕业设计(论文)报告用纸 第 4 页 共 49 页2 语音识别的原理2.1 模型匹配方法语音识别系统一般均采用了模式匹配的原理。模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种:动态时间
23、规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。 2.1.1 DTW 动 态 时 间 规 整 算 法 语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60 年代日本学者 Itakura 提出了动态时间规整算法(DTW:DynamicTimeWarping)。算法的思想就是把未知量均匀的升长或缩短,直到与参软件整体框架设计查找资料确定方案电风扇内部电路的改造电气总体设计原理图制作P
24、CB 制作各个模块整合及调试弄清各芯片操作相关子程序编写程序整合总装整合,调试调试完成DCV关稳感器人可以成功完成务电气,软件图 1.2 系统设计总框图桂林电子科技大学毕业设计(论文)报告用纸 第 5 页 共 49 页考模式的长度一致。在这一过程中,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模型特征对正。 2.1.2HMM 隐 马 尔 可 夫 法 算 法 隐马尔可夫法(HMM)是 70 年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。HMM 方法现已成为语音识别的主流技术,目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于 HMM 模型的。HMM 是对语
25、音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的 Markov 链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov 链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见 HMM 合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。 2.1.3VQ 矢 量 量 化 算 法矢量量化(VectorQuantiz
26、ation)是一种重要的信号压缩方法。与 HMM 相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的 k 个样点的每一帧,或有 k 个参数的每一参数帧,构成 k 维空间中的一个矢量,然后对矢量进行量化。量化时,将 k 维无限空间划分为 M 个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离” 最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比。 核心思想可以这样理解:如果一个码书是为某一特定的信源而优化设计的,那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真,也就是说编码器本身存在区分能力。 在实际的应用过程中,人们还研究了多种降低复杂度的方法,这些方法大致可以分为两类:无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。在图 2.1 和 2.2 中可以看到语音识别一般分为两个步骤。第一步是识别系统的“学习”或者称为“训练”阶段。在这一阶段的