1、山东建筑大学毕业论文I目 录摘 要ABSTRACT1 绪 论1.1语音处理研究状况11.2语音处理的硬件基础和应用42 系统硬件部分概述2.1 DSP 系统设计概述62.2 系统的总体构成72.3 硬件系统核心芯片的选择 82.4 实时语音处理的基本要求 93 设计部分3.1 设计目的和要求103.2 设计原理103.3 设计内容113.3.1 理论依据113.3.2 信号特征分析113.3.3 方案设计113.3.4 方案论证123.3.5 器件选型(硬件电路的设计)134 软件设计4.1 DSP 软件开发工具和编程特点254.2 软件设计 264.3 DSP 初始化274.4 音频采集程序
2、 304.5 TMS320VC5402 的并行引导装载分析和 设计32山东建筑大学毕业论文II总结与致谢34参考文献35附 录 36山东建筑大学毕业论文III摘 要提出一个基于 TMS320VC5402 的音频信号采集与处理系统。介绍了该系统的总体方案和硬软件设计。讨论了模/数(A/D)和数/模(D/A)转换电路的设计方法以及如何利用TMS320VC5402 的多通道缓冲同步串口(McBSP)和 PCM1800 及 PCM1744 芯片接口来实现音频信号的采集和输出。实验证明:所设计的基于 DSP 的硬件和软件系统是一个很好的音频信号采集与处理系统。关键词:多通道缓冲同步串口;音频信号;TMS
3、320VC5402;采集与处理山东建筑大学毕业论文IVDSP-based real-time voice processing systemAbstractAbstract: A TMS320VC5402-based audio signal acquisition and processing system. Describes the general scheme of the system and the hardware and software design. Discussed the analog / digital (A / D) and digital / analog (D
4、 / A) converter circuit design and how to use TMS320VC5402 multi-channel synchronous serial port buffer (McBSP) and the PCM1800 and PCM1744 chip interface for audio signal acquisition and Output. Experimental results show: the designed DSP-based hardware and software system is a good audio signal ac
5、quisition and processing system.Keywords: Simultaneous multi-channel buffered serial port;audio signal; TMS320VC5402; acquisition and processing山东建筑大学毕业论文- 1 -1 绪 论11 语音处理的研究状况语音是人类进行信息交流最直接、最方便、最有效的工具,语音信号是携带语音信息的语音声波。在信息化时代,人们也期望用这种最便捷的信息交流工具和各种信息存储、处理的设备和终端进行信息交互。语音信号处理研究如何能更加有效地产生、传输和获取语音信息的一门学科
6、。它涉及数字信号处理、语言学、语音学,生理学、心理学、模式识别以及人工智能等多个学科的知识,是信息技术学科中发展最为迅速的一个领域。语音信号处理内容非常广泛,它包含语音识别语音合成,此外还有语音压缩编码、语音理解、说话人识别、语音增强等各个分支,总的来说语音信号处理包含了语音信号的数字表示方法,语音信号处理的各种方法和技术以及语音处理理论和技术在各个领域中的实际应用。语音信号的处理最早可以追溯到1874年电话的发明,电话的理论基础是尽可能不失真地传送语音波形。直到1939年Dudley发明声码器,通道声码器技术取代了“波形原则”的处理方法,它的理论基础认为语音是由人的声带振动产生的声源(载波)
7、受到不断变化的声道的控制(调制)而产生的,这一概念就是以后迅速发展起来,并广泛应用到各种理论研究和应用实际过程中的语音参数模型的雏形,由此人们开始了语音合成和语音压缩编码的研究。上个世纪60年代中期数字信号处理的方法和技术取得突破性进展,主要是快速傅立叶变换算法的成功应用。出现了第一台以数字计算机为基础的孤立词语音识别器,随后又成功研制出第一台有限连续语音识别器。70年代初,Flanagan出版的重要著作语音分析合成和感知,奠定了数字语音处理的系统理论基础。与此同时,倒谱分析技术和线性预测技术在语音处理中得到成功应用,微电子和集成电路技术取得新的进展,高性价比的微处理器芯片和性能优异的专用信号
8、处理芯片不断问世,再次推动了语音信号处理技术的发展和应用。语音识别 ASR 以语音为研究对象,它是语音信号处理的一个重要研究领域, 是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终日标是实现人与机器进行自然语言通信,让人机交互界面更加自然和容易使用。语音识别是语音处理中的难点,对它的研究开始的比较晚,但它的一些研山东建筑大学毕业论文- 2 -究方法和结果可以运用到另外的研究分支中去,因此也是语音处理研究中的重点。1952 年贝尔实验室的 Davis 等人首次研制成功能识别十
9、个英语数字的特定人孤立数字识别系统,该系统的成功研制标志着人们开始语音识别的研究工作。此后很长的时间里,语音识别的研究方法主要是用特殊的硬件获取语音信号的特征参数,再在计算机上进行模板匹配和判决,由于受当时计算机技术和信息处理理论的限制,语音识别一直未取得突破性进展。直到上个世纪 70 年代,动态时间归正技术(DTW)算法、线性预测分析技术(LPC)理论、LPC 频谱分析、隐马尔可夫模型(HMM)、人工神经元网络(ANN)、矢量量化(V-Q)等理论,并在语音识别中成功运用,开创了语音识别研究的新局面,语音识别系统的识别率得到了显著的提高。此后语音识别系统由原来的特定人小词汇量孤立词的系统发展到
10、能进行非特定人、大词汇量、连续语音识别。1988 年美国卡内基-梅隆大学运用 VQ 和 HMM 技术研制出了非特定人、大词汇量、连续语音识别系统SPHINX 系统,它可以理解由 1000 个单词构成的 4200 个句子,是语音识别历史的一个里程碑。我国语音识别理论研究和应用起步较晚,但由于汉语具有音节种类较少的特点,汉语是单音节语言,汉语中音节数只有 400 个,加上音调才 1200 个,词是由音节组合成,便予以音节识别为基础实现大词汇的语音识别,因此,进展较快。清华大学、中国科学院声学所和西安电子科技大学相继成功研制出无限词汇的汉语听写机。四达公司在90 年代初推出首批汉语听写机之后,与哈尔
11、滨工业大学合作研制出具有自然理解能力的新产品。模识科技公司 PattekASR 中文语音识别产品,它面向不同计算平台和应用,具有国际先进水准,是我国第一个拥有完全自主知识产权的语音识别技术产品。模识科技公司此次推出的产品具有识别率高、对环境噪声和不同口音适应能力强、系统占用资源少等特点,PattekASR 对方言的识别率在 95以上。只要对现有的手机、家电、电话总机稍作改装,就可以用语音命令上网查阅资料、控制电视、接通电话分机,国外一些著名的大公司纷纷加大对汉语语音识别研究的投入。进入上个世纪 90 年代,随着多媒体时代的来临,语音识别系统由实验室走向实用。许多发达国家和一些公司如美国、日本、
12、韩国以及 IBM、Apple、ATT、NTT 等著名公司都为语音识别系统的实用化开发研究投以巨资,其中语音识别软件的发展最为迅速。语音识别软件是语音识别理论和计算机技术相结合的产物。IBM 公司于 1997 年开发汉语 Via Voice 语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统 Via Voice98,平山东建筑大学毕业论文- 3 -均识别率可达到 95。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。IBM 宣布,为增强网络浏览和语音电子邮件的功能,将推出其新一代语音识别软件。可使用户通过语音,而不是使用键盘来浏览网络、切
13、换应用程序、执行命令、口授邮件和文本文件等操作。Microsoft 也在语音识别研究领域进行了投资,其开发的 windows xp 语音识别技术,可以在包括 word 在内的所有应用程序的文本信息的区域记事本、Internet Explorer 地址栏和 Outlook Express 内使用口述输入方式,来替代传统的键盘、鼠标按钮输入方式。Speech Work 公司的代表产品 SpeechWork6,利用该产品,用户可以在没服务人员介入的情况下, 用自然语言同系统进行信息交互完成诸如旅游预约、股票交易、银行服务、订票服务等。市场上还出现了语音识别电话、语音识别记事本等产品,如美国 VPTC
14、 公司的 Voice Organizer 和法国的 Parrot 等。语音合成是最早被研究的语音处理分支,它研究的主要内容是让人们通过听觉来获取以其他形式表示的信息。最早的语音合成是用机械的方式模拟人的发声过程而产生声音。1939 年 Dudley 发明的声码器,用电子线路产生语音的声源,并构成滤波器模拟声道的滤波作用。现代的语音合成都是基于计算机技术的语音处理过程。由DKlatt 设计的串、并联混合,是语音合成研究中最具代表性的工作。20 世纪 90 年代末,日本的一些研究学者提出一种少样本、不等长语音拼接合成技术PS0LA,该方法来源于利用短时傅立叶变换重构信号的叠接相加法。当前汉语语音合
15、成系统中,合成效果较好的都是采用波形拼接的合成技术,文本-语音转换系统(TTS)是语音合成的一个重要应用形式。语音合成的应用领域十分广泛,如:自动报警、报时、车站机场广播、电话查询业务以及各种电子出版物的语音朗读等。语音压缩编码是伴随语音的数字化而产生的,它的研究和语音合成一样起源于1939 年 Dudley 发明的声码器,若简单地由连续语音信号抽样量化得到的数字语音信号传输和存储,就会占用太多的信道资源和存储空间。研究表明语音信号中含有大量的冗余信息,如何采用各种编码技术,在保证尽量少的失真并具有一定的可懂度和自然度的情况下,减少语音信号的冗余度,成为语音压缩编码的主要内容。最早研究和使用的
16、编码方法是不依赖语音产生模型假定,以 PCM 和 ADPCM 为代表的波形编码技术,它的编码数率较高,一般在 16kbs64kbs,具有语音音质高、抗躁能力强的特点。1974 年,LPC 编码首次用于分组语音通信,传输数率达到 35kb/s,实现了低速的编码。一些以 LPC 以及由其改进和演变的混合编码为代表的基于模型假定的编码方法,可以更大程度上减少语音信号的冗余度, 山东建筑大学毕业论文- 4 -使低速率传输、存储语音信息成为可能。美国在 1980 年公布了一种 24kbs 的线性预测编码技术后,于 1988 年又公布一个 4.8kbs 的码激励线性预测编码(CELP)语音编码算法,随后欧
17、洲也推出了 16kbs 的规则脉冲激励(RELP)线性预测编码算法。这些语音编码算法具有较好的可懂度和自然度。随着对低速率语音编码算法研究的深入和计算机网络技术的迅速发展,语音信号经过压缩后在互联网上以数据包的形式传输,就形成了 IP 电话,它用 VOIP 技术实现的通过 TCPIP 网络以不同于传统的电话网来传输语音信号。由此衍生出在网络环境下的语音识别和语音压缩编码,成为语音处理新的发展方向。20 世纪 90 年代,针对不同的应用,国际电联和一些地区标准协会制定一系列语音压缩编码标准,如数码率为 53-64kbs 的 G7231,以及数码率为8kbs 的 G729等,这些标准的制订保证了应
18、用在通信网中的各种语音编码具有良好的兼容性。语音处理的研究取得很大的成绩,一些应用也取得突破性的进展,有很多有关的研究成果已实现商品化生产并投放市场,取得较好的经济效益和社会效益。一些信息科学中的新出现的理论和处理方法引入语音处理的研究中,如小波分析、分形理论以及语音信号的非线性处理方法。由于语音本身和应用环境的复杂多变,语音处理系统的性能还是有很多不尽人意的地方,用它来解决实际问题还是有很多困难,如无限词汇汉语合成中连续语流中各基音轮廓的平滑过渡问题,语音识别系统的适应性差,主要体现在对环境依赖性强,高噪声环境下语音处理的进展缓慢。12 语音处理的硬件基础和应用绝大多数语音信号数字处理系统有
19、很高的实时性要求,要对输入的语音信号做出快速的反应,因此系统工作在实时方式(在线方式)下,就对系统所采用硬件的性能要求很高,包括处理速度和存储容量等。语音处理所要完成的任务越来越复杂,处理效果的要求不断提高,语音处理算法也随之日益复杂,它会要求语音处理器件以及其辅助器件在几十个毫秒或更短的时间内处理、存储大量的语音数据。需要语音处理器的运算速度达到 1020MIPS,在应用中会根据任务的要求不同处理速度甚至要达到50MIPS。语音识别与合成等领域对处理系统的内存容量往往要求达到若干 MB。实时语音信号数字处理系统通常以两种方式实现:第一种是用一台计算机作为主机,插上一块或若干块数字信号处理板来
20、构成,后者由通用或专用的数字信号处理器芯片(DSP 芯片)及相应的存储芯片、接口芯片和语音信号的转换芯片组成。第二种则由专用或通用的 DSP 芯片及其它辅助芯片构成一个独立工作的系统。前者通常称为非脱机工作系统,用于语音识别、合成、增强或模拟实验中。山东建筑大学毕业论文- 5 -后者称为脱机工作系统,用于编码、小词汇表识别与合成等场合。通用 DSP 芯片的出现及其性能价格比的迅速提高为各种实用化语音信号处理系统的应用实现提供了硬件基础。自从 1980 年以来,DSP 芯片得到了迅猛发展, 很多运算速度达到几 MIPS。生产 DSP 芯片的公司有 80 多家,其中以美国的 TI 公司为代表,出产
21、了一系列种类齐全可用于不同行业的 DSP 芯片,一些型号的芯片的运算速度和功能完全满足实时语音信号处理的要求,本文在硬件系统中采用 TI 公司的 TMS320VC5402 通用 DSP 处理芯片。随着微电子集成技术的发展,很多公司相继研制出了专用的语音处理芯片。语音处理芯片外接一些控制器,构成一个语音处理系统就可完成特定的语音处理任务。如TI 公司、Votrax 公司、ISD 公司等生产的语音存储与再生芯片,以 ISD 公司的 ISD 系列芯片为代表。语音合成芯片有 TI 公司的 TMS5220,语音识别芯片有东芝公司的T6658A,语音编码芯片有 Digital Voice System1n
22、c 推出的 AMBE-1000 以及美国国家半导体公司生产的 CMX639。山东建筑大学毕业论文- 6 -2 系统硬件部分概述本章首先对 DSP 系统进行介绍,围绕以 TMS320C5402 为核心,给出一个 DSP 系统硬件部分的设计方案,重点分析了系统各组成模块的功能,给出了具体实现方法。2.1 DSP 系统设计概述一个数字信号处理系统是电子技术、信号处理技术与计算机技术相结合的产物。其设计通常分为两个方面的内容:信号处理部分和非信号处理部分。信号处理部分包括系统的输入和输出、数据的编排和处理、各种算法的实现、数据结果的显示和传输等;非信号处理部分包括电源、硬件结构、成本、体积、可靠性和可
23、维护性等。一个应用系统的设计大致可分为 7 个部分:(1) 确定系统性能指标(2) 信号分析(3) 核心算法模拟与验证(4) DSP 芯片和系统外围器件的选型(5) 硬件设计和调试(6) 软件设计和调试(7) 系统集成与测试下面对每个部分的内容给予简要的说明:(1)确定系统性能指标:它主要根据用户对应用系统的要求,给出系统级的技术要求和相关说明。这些要求和说明包括处理的项目和方式、处理系统的所有性能指标(包含系统非信号处理的性能)以及系统的测试和验证方式等。(2)信号分析: 这部分主要定义输入输出信号的类型,即将分析的信号是随机或确定信号, 模拟信号或数字信号,是一维还是多维信号。分析信号的频率范围和系统的带宽, 估计信号的最大和最小电平,是否需要进行预处理。确定输出信号使用的方式、数据的吞吐率和对实时性的要求。信号分析的结果是进行信号处理算法设计的基础。(3)核心算法模拟和验证: 在这部分依据第 1 部分提出的要求和第 2 部分对信号分析