1、IP 电话介绍,IP电话的形式 Voice over IP (VoIP) Internet 电话 IP电话关键技术 IP电话系统结构 IP电话的质量控制 管理与计费 IP电话的标准,2018/9/27,第二章 音频信息处理 音频编码标准,2,IP 电话 (Voice over IP, VoIP),Internet电话的四种形式:计算机到计算机计算机到电话电话到计算机电话到电话Internet电话的优点:费用低;“Call anywhere; Talk forever; Never pay long distance.”安全保密;选择交谈者。,2018/9/27,第二章 音频信息处理 音频编码标
2、准,3,IP 电话 (Voice over IP, VoIP),AT&T:1997年11月在Internet 上进行IP电话试验,1998年5月,在亚特兰大、波士顿、旧金山推出IP电话服务。Bell Atlantic/GTEVocalTecGlobal Exchange CarrierIP电话经营试验:中国电信、中国联通、吉通公司、中国网通、(中国移动互联网)、中铁通信,2018/9/27,第二章 音频信息处理 音频编码标准,4,Internet 电话 (IP phone),从1999年4月开通IP电话试验网到1999年底,在这9个月中,IP电话话务量总计达到10387万分钟,其业务量在电信总
3、业务中的比例为0.192%。2000年4月,中国IP电话开始正式运营,截止到2000年底, IP电话业务量增长至307492万分钟。与1999年试验期相比,2000年IP电话业务量在我国电话业务量中的比例,呈现大幅度增长态势,比例达到4.5%;中国IP电话国际长途通话时长已经占到国际长途话务量的20%,分流了大批的国际话务量,这也是固定电话国际长途话务量和港澳台长途话务量出现负增长的主要原因。,2018/9/27,第二章 音频信息处理 音频编码标准,5,Internet 电话 (IP phone):,信息产业部决定:从2000年4月1日起开放我国的IP电话业务采用TCP/IP协议的网络,提供国
4、内长途电话、国际长途或传真。信息产业部制定:IP电话/传真业务总体技术要求IP电话网关设备互通技术规范,2018/9/27,第二章 音频信息处理 音频编码标准,6,IP 电话产品,中国联通海南分公司采用华为A8010 IP电话设备承建了覆盖广州、海口、三亚的VoIP实验网,以国标的方式实现网内互通。华为进行了基于IP电话的新业务IPN和华为设备与思科设备互通的演示。 华为公司的VoIP设备具有电信级的可靠性,符合国标;设备容量大,可扩展性好,可根据业务的发展持续平滑扩容;接通率高,在模拟呼叫器产生的大话务量呼叫的情况下语言和传真质量良好;能够很好地支持PSTN的各种信令;支持集成建设,能与IP
5、网关、接入网关、接入服务器统一硬件平台;具有路由备份转换功能;能在实验环境下通过互通代理设备的方式实现与思科设备的完全互通;能够灵活方便地提供增值业务;在网管和话务统计方面功能较好。,2018/9/27,第二章 音频信息处理 音频编码标准,7,IP 电话产品,我国 IP电话网关设备最大的一次出口:三九电脑技术有限公司自主研发生产的IP电话网关设备最近大规模打入美国电信市场,出口总金额为1876万美元。 “三网合一”:即数据、语音、图像网统一在单一的IP网络上,三九电脑技术公司研发的VOIP电话网关设备在商业上的应用揭开了这一合网的序幕。三九VOIP根据不同用户的需求推出了电信级、企业级、家用级
6、产品系列。,2018/9/27,第二章 音频信息处理 音频编码标准,8,IP电话产品,CentriQ 1000Communication Gateway通信网关,CG3500Telephony Cable Modem支持话音的电缆调制解调器,2018/9/27,第二章 音频信息处理 音频编码标准,9,IP 电话关键技术,语音流的连续数字化技术语音流的连续、实时压缩 / 解压缩技术回声抑制技术Internet 打包策略Internet 传输的质量保障管理和结算,2018/9/27,第二章 音频信息处理 音频编码标准,10,IP 电话系统结构,2018/9/27,第二章 音频信息处理 音频编码标准
7、,11,IP 电话质量控制,2018/9/27,第二章 音频信息处理 音频编码标准,12,IP 电话计费,PSTN电话计费方式 链路占用按时间计费Internet计费方式 分组交换按流量计费或按时间计费(ISP) 不适用有服务质量要求的多媒体应用Internet上的电话计费方式 服务质量要求按资源使用状况和服务质量计费,2018/9/27,第二章 音频信息处理 音频编码标准,13,管理与结算,全球各站点的管理全球各站点之间的互相结算站点与电话局以及ISP之间的结算,2018/9/27,第二章 音频信息处理 音频编码标准,14,管理与结算,2018/9/27,第二章 音频信息处理 音频编码标准,
8、15,IP电话标准,国际电信联盟标准化部门(ITU-T):电信标准 H.323欧洲电信标准协会(ETSI):商业实现Internet 工程任务组(IETF):IP标准多媒体远程会议集团(INTC):互操作性 VoIP 相关:H.323 网关标准 G.TIGIN 控制协议 H.248 语音编码:G.723.1 、G.729和G.711,2018/9/27,第二章 音频信息处理 音频编码标准,16,MP3编解码器,语音合成技术,概述 语音合成的历史 计算机言语输出的主要技术 文字-语音转换(TTS) 概念到语音的转换(CTS),2.5.1,An Introduction to Text to Sp
9、eech Technologies,2018/9/27,第二章 音频信息处理 音频编码标准,18,1. 概 述,什么是语音合成?语音合成就是让计算机象人那样讲话。人们用语言进行交流时,用声音来表达自己的意向、情感。例如:如某人问你:你愿意和我一起去看电影吗?你的回答可能是:“是的,我很高兴和你一起去看电影。”(肯定,高兴)“抱歉,我不能和你一起去看电影,因为我要去开会。”(无可奈何)“不去,还是你自己去看吧。”(否定)这三句话表达了不同的意向和情感。计算机也应该像人那样来回答。,2018/9/27,第二章 音频信息处理 音频编码标准,19,语音合成的研究目标是: 可懂 清晰 自然 具有表现力研
10、究意义语音合成技术可以大大改善人机交互环境计算机反馈信息的方式是屏幕显示。这种单调的信息输出方式给用户带来许多不便,特别是长时间地注视显示屏使人疲劳,降低人获取信息和理解信息的能力。网络环境的输出设备多种多样:这种枯燥单一的交互方式影响了计算机的应用。计算机语音输出能提供声文并茂的信息表示方式,可以改变人机交互“默默无闻”的状况,为计算机的普及应用创造更好的条件。将“能看到”、“看不到”的信息变成“可听”的信息将“非即时获得的信息”变成“即时可听”的信息,2018/9/27,第二章 音频信息处理 音频编码标准,20,语音合成是一门跨学科的前沿技术,涉及到下列相关研究领域:它将上述领域的研究成果
11、结合在一起,使计算机具备说话的能力。,2018/9/27,第二章 音频信息处理 音频编码标准,21,语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场。和语音识别相比,语音合成的技术相对说来要成熟一些,并已开始向产业化方向成功迈进,大规模应用指日可待。语音合成,又称文语转换(Text to Speech)技术,它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。我
12、们所说的“让机器像人一样开口说话”与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统),如磁带录音机,是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”。文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这也涉及到自然语言理解的问题。文语转换过程是先将文字序列转换成音韵序列,再由系统根
13、据音韵序列生成语音波形。其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。因此一般说来,文语转换系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持。,http:/ 音频信息处理 音频编码标准,22,http:/ 音频信息处理 音频编码标准,23,语音合成有着广阔的应用前景 它可应用于: 盲人计算机,电话信息查询,文本校对,专家系统的有声输出、火车站、飞机场的航班信息报告等领域。有限词汇语音合成的应用语音手表(闹钟)、玩具、
14、教具仪器/电器(打印机、微波炉)有声信息发布车站列车、机场航班信息发布114的电话号码报出办公系统中的有声信息,2018/9/27,第二章 音频信息处理 音频编码标准,24,Microsoft Mary,Sam,Mike,有限词汇语音合成: Kinsofts Power Word,利用Microsoft TTS Engine,2018/9/27,第二章 音频信息处理 音频编码标准,25,语音合成有着广阔的应用前景多媒体数据库电子字典、电子文档、电子图书的有声输出盲人计算机PDA等掌上计算机语音合成与电话结合的应用电话银行、邮局、税务、考试/录取信息发布/查询股市行情查询/交易168信息台全面更
15、新,2018/9/27,第二章 音频信息处理 音频编码标准,26,典型应用Network based,Internet,Web Server,计算机,PSTN,交换机,电话,2018/9/27,第二章 音频信息处理 音频编码标准,27,典型应用电子有声文库,2018/9/27,第二章 音频信息处理 音频编码标准,28,Voice CommunicationUniform Servers,2018/9/27,第二章 音频信息处理 音频编码标准,29,Voice CommunicationVoice Gateway,文本数据包,语音数据包,转发文本数据包,主语音网关,Email Gateway,I
16、 V R,负载平衡控制,从语音网关A,从语音网关B,Interactive Voice Response systems,2018/9/27,第二章 音频信息处理 音频编码标准,30,Voice CommunicationVoice Mail,2018/9/27,第二章 音频信息处理 音频编码标准,31,2. 语音合成的历史,1939年 Voder 第一个电子合成器1987年 Klatt 共振峰合成,语音合成技术的研究已有两百多年的历史,但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的。主要是让计算机能够产生高清晰度、高自然度的连续语音。在语音合成技术的
17、发展过程中,早期的研究主要是采用参数合成方法,后来随着计算机技术的发展又出现了波形拼接的合成方法。,2018/9/27,第二章 音频信息处理 音频编码标准,32,机械式语音合成器,Pneumatic speech synthesiser developed by von Kempelen in 1791. http:/www.ling.mq.edu.au/units/slp807/history_synthesis/,2018/9/27,第二章 音频信息处理 音频编码标准,33,http:/mambo.ucsc.edu/psl/smus/smus.html,Does it likes a Pi
18、ano or an Organ?,2018/9/27,第二章 音频信息处理 音频编码标准,34,第一个电子合成器:Voder,At the 1939 Worlds Fair a machine called a Voder was shown . A girl stroked its keys and it emitted recognizable speech. No human vocal cords entered into the procedure at any point; the keys simply combined some electronically produced
19、vibrations and passed these on to a loud-speaker. (As We May Think by Vannevar Bush, 1945. ) http:/ 音频信息处理 音频编码标准,35,3. 计算机言语输出技术,语音输出的实现方法录音/重放若采用录音/重放的方法,首先要把模拟语音信号转换成数字序列,编码后,暂存于存储设备中(录音),需要时,再经解码,重建声音信号(重放)。录音/重放可获得高音质声音,并能保留特定人的音色。但所需的存储容量随发音时间线性增长。语音合成(亦称“文语转换,Text-to-Speech,TTS”)文一语转换(TTS)是基于
20、声音合成技术的一种声音产生技术。它可用于语音合成和音乐合成。文一语转换是语音合成技术的延伸,它能把计算机内的文本转换成连续自然的语声流。若采用这种方法输出语音,应预先建立语音参数数据库、发音规则库等。需要输出语音时,系统按需求先合成语音单元,再按语音学规则或语言学规则,连接成自然的语流。,2018/9/27,第二章 音频信息处理 音频编码标准,36,语音合成方法发音器官参数语音合成这种方法对人的发音过程进行直接模拟。它定义了唇、舌、声带的相关参数。由这些发音参数估计声道截面积函数,进而计算声波。这是对人发音过程的直接模拟,有可能产生逼真的语音。但由于人发音生理过程的复杂性,理论计算与物理模拟之
21、间的差异,合成语音的质量暂时还不理想。,2018/9/27,第二章 音频信息处理 音频编码标准,37,合成方法声道模型参数语音合成,这种方法基于声道截面积函数或声道谐振特性合成语音,如共振峰合成、线性预测系数(LPC)合成。较为著名的共振峰合成器是MIT教授D. Klatt设计的串/并联混合型共振峰合成器。他用串联通道产生元音和浊辅音;并联通道产生轻辅音。还可以对声源作各种选择和调整,以模拟不同的嗓音。在此基础上开发的DEC Talk英语文语转换已广泛的应用于各个方面。 国内外已有不少基于参数合成技术的语音合成系统。这类系统需要的存储量低,音质适中,易于实现韵律修改。,2018/9/27,第二
22、章 音频信息处理 音频编码标准,38,http:/www.ling.mq.edu.au/units/slp807/history_synthesis/figure2.html,2018/9/27,第二章 音频信息处理 音频编码标准,39,什么是“共振峰”,语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下,声波经谐振腔(声道),由嘴或鼻辐射声波。因此,声道参数、声道谐振特性一直是研究的重点。在图1所示的某一语音的频率响应图中,标有Fp1, Fp2, Fp3, 处为频率响应的极点,此时,声道的传输频率响应有极大值。习惯上,把声道传输频率响应上的极点称之为共振峰,而语音
23、的共振峰频率(极点频率)的分布特性决定着该语音的音色。,2018/9/27,第二章 音频信息处理 音频编码标准,40,合成方法波形编辑语音合成,这是一种非源滤波器的方法。它直接把语音波形数据库中的波形拼接在一起,输出连续语流。这种语音合成技术用原始语音波形替代参数,而且这些语音波形取自自然语音的词或句子,它隐含了声调、重音等细微特性,合成的语音清晰自然。其质量普遍高于参数合成。 80年代末E. Moulines和F. Charpentier提出基于时域波形修改的语音合成算法PSOLA (Pitch Synchronous Over Lap Add),该方法较好地解决了语音拼接中的问题,从而推动
24、了波形编辑语音合成技术的发展与应用。 PSOLA就是基音同步叠加。它把基音周期的完整性作为保证波形及频谱平滑连续的基本前提。该算法按以下三步实施:它以基音周期的整数倍为窗长,对原始波形进行分析,产生中间的表示;然后对中间表示进行修改;将修改过的中间表示重新合成为语音信号。由于修改的参数不同,又分为时域TD-PSOLA、频域FD-PSOLA和线性预测LP-PSOLA。 这种语音波形编辑技术多用于文语转换系统中,现已有英、日、德、法、汉语等多种语言的系统问市。采用这种技术应解决好以下几个问题:语音基元的选取、波形拼接过程中的平滑滤波;韵律修改以及语言学的分析和处理。,2018/9/27,第二章 音
25、频信息处理 音频编码标准,41,http:/www.ircam.fr/equipes/analyse-synthese/peeters/PSOLA/,2018/9/27,第二章 音频信息处理 音频编码标准,42,4. Concept-to-Speech,What is it?输入:建立在格结构和短语模型基础上的概念描述输出:合成语音关键技术:自然语言生成韵律修饰语音合成实例:日本大阪大学的SOCS(Speech Output from Case Structure Representation),2018/9/27,第二章 音频信息处理 音频编码标准,43,5. 文语转换应用系统介绍,Aliv
26、e Text to Speech开发商:AliveMedia, Inc. USAhttp:/ C&E Ver2.1语音合成系统 开发商:安徽中科大讯飞信息科技有限公司 http:/ 音频信息处理 音频编码标准,44,AliveMedia Inc. TTS,Alive TTS应用系统界面,Grid computing is becoming an important framework for enabling applications to utilize widely distributed collections of computational and data resources 。,
27、样本文件: Alive TTS.txt,2018/9/27,第二章 音频信息处理 音频编码标准,45,科大讯飞语音合成系统,http:/ 音频信息处理 音频编码标准,46,应用举例,语音合成,又称文语转换(Text to Speech)技术,它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。,以上TTS语音采用科大讯飞语音合成系统 InterPhonic C&E Ver2.1合成。http:/ 音频信息处理 音频编码标准,47,其他Text-to-Speech系统2nd
28、 Speech Center,http:/www.text-to-speech- Clipboard Options - You decide how IISC behaves when your computers clipboard changes.Alarm & Reminders - Just as a alarm clock, IISC can announce time to you every special interval depend on your settings. And IISC also maintains a reminders list to remind y
29、ou of your important business.Configurable GLOBAL Hotkeys - IISC allows you to define your favorite GLOBAL hotkeys to control IISC even in other program. This feature is very useful for weak-eyed users.Optional MP3 Quality - The Output Sample Frequencies and Output Bitrates options allow you to make
30、 a choice between the quality and the size. Powerful Command Lines - As a advanced user, you can use the command lines of IISC to do you want to do!Multiple Output Modes - Output synthesized speech either to your speakers or to audio files. Choose between WAV and MP3 audio file formats.Support Multi
31、ple Languages/Engines - Including English, Spanish, British English, Dutch, French, German, Italian, Portuguese, etc.,2018/9/27,第二章 音频信息处理 音频编码标准,48,其他Text-to-Speech系统CommPower,http:/ specializes in the development and deployment of secure and reliable message handling systems and gateways as well a
32、s unique systems solutions to real world problems. It creates solutions for the United States Defense Department, NATO allies, the National Weather Service (NWS), the FAA, the U.S. intelligence community, European and Canadian prime government contractors.,2018/9/27,第二章 音频信息处理 音频编码标准,49,其他Text-to-Sp
33、eech系统Acroname,http:/ Recognition,语音识别(SR, Speech Recognition),又称之为自动语音识别(ASR, Automatic Speech Recognition)是指计算机将人发出的声音、字或短语转换成文字、符号或作出相应(如执行控制、做出回答)。 本节主要介绍语音识别技术的发展历史、分类、语音识别系统的工作原理及其应用等方面的内容。,2.6,内 容 提 要,http:/,内容提纲,语音识别技术概述 语音识别的基本方法简介 语音识别系统的结构及工作原理 汉语的语音识别研究进展 几个著名的语音识别系统 附录:相关的技术,一、语音识别概述,语音
34、识别的概念及发展历史 语音识别系统的分类 语音识别的关键技术 语音识别的困难与对策 语音识别的应用,2018/9/27,第二章 音频信息处理 音频编码标准,53,语音识别的概念,语音识别(SR, Speech Recognition),又称之为自动语音识别(ASR, Automatic Speech Recognition)是指计算机将人发出的声音、字或短语转换成文字、符号或作出相应(如执行控制、做出回答)。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的
35、表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。,2018/9/27,第二章 音频信息处理 音频编码标准,54,语音识别的发展历史,语音识别的研究工作大约开始于二十世纪50年代,当时AT&T的Bell实验室实现了第一个可识别十个英文数字的语音识别系统Audry系统。二十世纪60年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP, Dynamic Programming)和线性预测分析技术(LP, Linear Prediction),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。二十世纪60年代末,由于在
36、孤立词识别方面的研究取得了一些较大的成果,因此掀起了语音识别研究的热潮。,2018/9/27,第二章 音频信息处理 音频编码标准,55,语音识别的发展历史(Cond.),二十世纪70年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态时间规整技术(DTW, Dynamic Time Warping,其目标是找出两个向量之间的最短距离)基本成熟,特别是提出了矢量量化(VQ, Vector Quantification)和隐马尔可夫模型(HMM, Hidden Markov Models)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 (DTW, VQ
37、, HMM的概念详见本节PPT的附录)在这一时期,模板匹配(Template Matching)方法基本成熟,基于模板匹配的孤立词识别取得了较大成功。但是,不能适应连续语音识别的需求,2018/9/27,第二章 音频信息处理 音频编码标准,56,语音识别的发展历史(Cond.),二十世纪80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN, Artificial Neural Networks)在语音识别中的成功应用。HMM模型的广泛应用应归功于ATT Bell实验室L. Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解
38、和认识。ANN和HMM模型建立的语音识别系统,性能相当。实验室语音识别研究的巨大突破产生于二十世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(Carnegie Mellon University)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。,2018/9/27,第二章 音频信息处理 音频编码标准,57,语音识别的发展历史(Cond.),进入二十世纪90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、Apple、
39、ATT、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音识别的研究列入“863”计划,由中科院声学所、自动化所及北京大学等单位研究开发。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到相当高水平。因此,国内除了要加强理论研究外,更要加快从实验室演示系统到商品的转化。,2018/9/27,第二章 音频信息处理 音频编码标准,58,语音识别系统的分类,分类方法方法1 :按可识别的词汇量分类大(1000个单词)、中(100个单词)、小( 10
40、0个单词)方法2:按语音的输入方式孤立词(音节连续的词条)、连接词(连呼词)、连续语音(自然语言)方法3:按发音人特定人(只针对某人专门训练)、限定人(只针对某一群人)、非特定人(不必经使用者训练就可以识别不同发音者的语音)对说话人的声文进行识别,称之为说话人识别,研究如何根据语音来辨认说话人、确认说话者。,2018/9/27,第二章 音频信息处理 音频编码标准,59,语音识别的关键技术,主要包括如下几个方面的关键技术(基于统计的方法)语音识别单元的选取选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。单词(句)单元广泛应用于中
41、小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样
42、虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。,2018/9/27,第二章 音频信息处理 音频编码标准,60,语音识别的关键技术 (Cond.),主要包括如下几个方面的关键技术(基于统计的方法)语音信号特征的提取技术语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信
43、息论角度讲,这是信息压缩的过程。线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。,2018/9/27,第二章 音频信息处理 音频编码标准,61,语音识别的关键技术 (Cond.),主要
44、包括如下几个方面的关键技术(基于统计的方法)模式匹配准则及模型训练技术模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经网络(ANN)。DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。HMM模型是语音信号时变特征的有参表
45、示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。人工神经元网络在语音识别中的应用是现在研究的又一热点。,2018/9/27,第二章 音频信息处理 音频编码标准,62,语音识别的困难与对策,语音识别技术目前存
46、在的问题与面临的困难语音识别的目的是抽取语音信号携带的信息,而语音信号本身具有如下特性:时变性、瞬变性。其随机性和非平稳性给识别工作带来极大的困难。语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。,