1、 语音信号压缩编码原理及应用随着通信、计算机网络等技术的飞速发展,语音压缩编码技术得到了快速发展和广泛应用,尤其是最近20年,语音压缩编码技术在移动通信、卫星通信、多媒体技术以及IP电话通信中得到普遍应用,起着举足轻重的作用。 语音是人类最重要、最有效、最常用和最方便的交换信息的形式,是人们思想疏通和情感交流的最主要途径。在实际的语音通信中,有些信道难以扩宽且质量很差;有些信道正被广泛使用,短期内难以更新;有些昂贵的信道,每压缩一个比特都意味着节省开支。因此,语音压缩编码无疑在语音通信及人类信息交流中占有举足轻重的地位。语音编码就是将模拟语音信号数字化,数字化之后可以作为数字信号传输、存储或处
2、理,可以充分利用数字信号处理的各种技术。为了减小存储空间或降低传输比特率节省带宽,还需要对数字化之后的语音信号进行压缩编码,这就是语音压缩编码技术。一,语音压缩编码技术的发展 自从1937年A.H.Reeves提出脉冲编码调制(PCM)以来,语音编码技术已有60余年的发展历史。尤其近20年随着计算机和微电子技术的发展语音编码技术得到飞速发展。 CCITT于1972年确定64kb/sPCM语音编码G.711建议,它已广泛的应用于数字通信、数字交换机等领域,至今,64kb/s的标准PCM系统仍占统治地位。这种编码方法可以获得较好的语音质量但占用带宽较多,在带宽资源有限的情况下不宜采用。CCITT于
3、80年代初着手研究低于64kb/s的非PCM编码算法,并于1984年通过了32kb/sADPCM语音编码G.721建议,它不仅可以达到PCM相同的语音质量而且具有更优良的抗误码性能,广泛应用于卫星,海缆及数字语音插空设备以及可变速率编码器中。随后,于1992年公布16kb/s低延迟码激励线性预测(LD-CELP)的G.728建议。它以其较小的延迟、较低的速率、较高的性能在实际中得到广泛的应用,例如:可视电话伴音、无绳电话机、单路单载波卫星和海事卫星通信、数字插空设备、存储和转发系统、语音信息录音、数字移动无线系统、分组化语音等。最后共轭代数码激励线性预测(CS-ACELP)的8kb/s语音编码
4、G.729建议已在1995年11月ITUTSG15全会上通过,并于1996年6月ITUTSG15末此会议上通过G.729附件A减少复杂度的8kb/sCS-ACELP语音编解码器,正式成为国际标准。这种编码方法延迟小,节省87.5%的带宽,可以提供与32kb/s的ADPCM相同的语音质量,其音质是同档次码速率中最优的,而且在噪声较大的环境中也会有较好多语音质量。广泛应用于个人移动通信、低C/N数字卫星通信、高质量移动无线通信、存储/检索、分组语音和数字租用信道等领域。其它一些国际组织或国家也积极制定自己的标准。二,语音压缩技术的现状及发展方向 语音压缩编码技术的发展是十分迅速的,CELP的编码速
5、率较低,但复杂度较高,可以在4.8kb/s左右的码速率上获得较高质量的语音,是当今中低速率语音编码技术的主流技术之一,许多国际标准化组织及机构纷纷将这一编码方案作为语音编码标准。在对其改善质量、降低复杂度、减少编码延迟等方面都提出了不少新的方法,使CELP在实践中得到广泛应用。随着DSP技术的发展,CELP技术还具有一定的潜力,例如将G.729扩展到6.4kb/s,用于TDMA/CDMA移动无线系统和DCME。目前,语音压缩编码技术主要有两个努力方向:一个是中低速率的语音编码的实用化,及如何使用化过程中进一步减低编码速率和提高其抗干扰、抗噪声能力;另一个是如何进一步的降低其编码速率,目前已能在
6、5kb/s-6kb/s的速率上获得高质量的重建语音,下一个目标则是要在4kb/s的速率上获得短延时、高质量的重建语音。特别是对中长延时编码,人们正在研究其更低速率(如400b/s-1200b/s)的编码算法,在这个过程中当编码速率降至2.4kb/s速率以下时,CELP算法即使应用更高效的量化技术也无法达到预期的指标,需要其它一些更符合低速率编码要求的算法,目前比较好的算法还有正弦变换编码(STC) 、混合激励线性预测编码(MELPC) 、时频域插值编码(TFI) 、基音同步激励线性预测编码(PSELP)等,同时还要求引入新的分析技术,如非线性预测、多精度时频分析技术(包括子波变换技术) 、高阶
7、统计分析技术等,这些技术更能挖掘人耳听觉掩蔽等感知机理,更能以类似人耳的特性作语音的分析与合成,使语音编码系统更接近于人类听觉器官的处理方式工作,从而在低速率语音编码的研究上取得突破。三,语音压缩编码技术的种类1.波形编码(waveform coding)基本原理是在时间轴上对模拟话音信号按照一定的速率来抽样,然后将幅度样本分层量化,并使用代码来表示。在接收端将收到的数字序列经过解码恢复到原模拟信号,保持原始语音的波形形状。话音质量高,编码速率高。如 PCM 编码类(a 率或 u 率 PCM、ADPCM 、ADM),编码速率为 6416kb/s,语音质量好。2.参数编码(声源编码paramet
8、ric coding)根据语音信号产生的数学模型,通过对语音信号特征参数的提取后进行编码(将特征参数变换成数字代码进行传输) 。在接收端将特征参数,结合数学模型,恢复语音,力图使重建语音保持尽可能高的可懂度,重建语音信号的波形同原始语音信号的波形可能会有相当大的区别。如线性预测(LPC)编码类。编码速率低,2.4-1.2kb/s,自然度低,对环境噪声敏感。3.混合编码(Hybrid coding)将波形编码与参数编码相结合,在2.4-1.2kb/s速率上能够得到高质量的合成语音。规则码激励长时预测编码RPELPT即为混合编码技术。混合编码包括若干语音特征参量又包括部分波形编码信息,以达到波形编
9、码的高质量和参量编码的低速率的优点。四,语音压缩编码使用的编码算法1.波形编码(waveform coding)使用的算法脉冲编码调制(pulse code modulation,PCM)、差值脉冲编码调制(DPCM) 、增量调制(DM)以及它们的各种改进型自适应差分编码(ADPCM) 、自适应增量调制(ADM) 、自适应差值脉冲编码调制(ADPCM) 、自适应传输编码( Adaptive Transfer Coding,ATC)和子带编码(SBC)等都属于波形编码技术。2.参数编码(声源编码parametric coding)线性预测(LPC)编码线性预测编码的基础是假设声音信号(浊音)是音
10、管末端的蜂鸣器产生的,偶尔伴随有嘶嘶声与爆破声(齿擦音与爆破音) 。尽管这看起来有些原始,但是这种模式实际上非常接近于真实语音产生过程。声带之间的声门产生不同强度(音量)与频率(音调)的声音,喉咙与嘴组成共鸣声道。嘶嘶声与爆破声通过舌头、嘴唇以及喉咙的作用产生出来。线性预测编码通过估计共振峰、剔除它们在语音信号中的作用、估计保留的蜂鸣音强度与频率来分析语音信号。剔除共振峰的过程称为逆滤波,经过这个过程剩余的信号称为残余信号。描述峰鸣强度与频率、共鸣峰、残余信号的数字可以保存、发送到其它地方。线性预测编码通过逆向的过程合成语音信号:使用蜂鸣参数与残余信号生成源信号、使用共振峰生成表示声道的滤波器
11、,源信号经过滤波器的处理就得到语音信号。由于语音信号随着时间变化,这个过程是在一段段的语音信号帧上进行处理的。通常每秒30到50帧的速度就能对可理解的信号进行很好的压缩。3.混合编码(Hybrid coding)规则码激励长时预测编码RPELPT即为混合编码,多脉冲激励线性预测编码(MPLPC) ,规划脉冲激励线性预测编码(KPELPC) ,码本激励线性预测编码(CELP)等都是属于混合编码技术。其数据率和音质介于参数和波形编码之间。多脉冲激励线性预测编码(MPLPC)的改进原始的MPLPC方法中,LP滤波器的阶数和激励脉冲的个数都是固定的,对其改进算法使用了可变阶数滤波器的语音编码方法。主要
12、思想是:对于不同的语音帧使用不同阶数的线性预测滤波器,只要低阶滤波器满足要求就不使用高阶滤波器。由于各语音帧滤波器阶数不同,使用的编码位数也不同。为了使整个语音传输速率基本恒定,对于滤波器阶数较低的语音帧,可以相应地增加激励脉冲的个数或增加各脉冲的比特数。用MATLAB对改进MPLPC方法进行模拟,结果表明,此方法可以在6kbs以下的速率上得到有一定自然度的合成语音,比同速率下的原始多脉冲激励方法有明显改善。但此方法在有噪声和失真的信道上传输的情况需要进一步实验,每帧激励脉冲个数的最佳值需要进一步研究。五,编码器的性能及应用场合标准 编码速率(kb/s) 算法 MOS得分 应用 G.711 64 U律或a律PCM 4.3 公用网G.721 32 ADPCM 4.1 公用网G.723.1 5.3 ACELP 3.2 无线网G.729 8 CS-ACELP 3.8 无线网GSM 13 RPE-LTP 3.9 无线网六,个人总结本人综合多年来语音信号压缩编码技术的发展由来,以及近年来该技术的发展成熟状况和未来语音信号压缩编码技术的发展趋势,对该技术做了一个详细的介绍。同时根据编码技术的分类,对三种不同的编码方式原理和编码算法进行了介绍,是我们对语音信号压缩编码原理有了一个很清晰的认识。本文中,介绍了该技术在我们生活中的广泛应用,特别是在个人设备通信等领域,已经与我们息息相关。