音频信息处理概述-中科大继续教育学院.ppt

举报
资源描述
第二章 音频信息处理,这 一章将讨论声音、音乐编码以及语音的处理。我们将介绍声音的基本概念、常用格式以及声音在计算机中的表现形式。由于在多媒体系统中,声音主要是以音乐和/或语音的形式出现、所以我们还着重讨论音乐和音乐的MIDI标准以及语音的合成、识别、传输技术。,本章 重点讲述,内 容 目 录,2.1 多媒体中音频信息与信息处理 2.2 音频编码基础 2.3 音频编码标准 2.4 音乐合成和MIDI 2.5 语音合成 2.6 语音识别,2003年9月,第二章 音频信息处理  引言,3,,音频信息处理概述,上课思路  简述音频信息和音频信息处理的概念。  介绍音频信息的应用前景  介绍一些音频处理工具,§2.1,2003年9月,第二章 音频信息处理  引言,5,多媒体中音频信号处理应用和处理技术,从人与计算机交互的角度来看音频信号相应的处理如下: 人与计算机通信(计算机接收音频信号) 音频获取;语音识别与理解 计算机与人通信(计算机输出音频) 音频合成:包括音乐合成和语音合成 声音定位:包括立体声模拟;音频/视频同步;目的是让计算机产生真实感声音 人—计算机—人通信 人通过网络,与处于异地的人进行语音通信 语音采集、音频编码/解码、音频传输;说话人识别;基于内容检索;口语翻译,一、多媒体中音频信息,音频信息的分类 音频信息的特点 声音的物理特性,2003年9月,第二章 音频信息处理  引言,7,多媒体中音频信息,,,,Audio音频,Unvoice 清 不带音,Noise 杂音,Sound 非语音 声音,Voice 浊 带音,Music 乐音,Speech 语音 言语,音频处理技术?,音频是多媒体的重要媒体之一:,2003年9月,第二章 音频信息处理  引言,8,声音的物理特征,频率 振幅,声音是机械振动。振动越强,声音越大。,2003年9月,第二章 音频信息处理  引言,9,音频信息的特点,音频携带的信息量大、精细、准确 音频被用来传递消息、意向、情感,是人类最熟悉的传递消息的方式。 以某个汉字为例,表3.1列出了其表达方式、数据量和信息:,二、音频处理基础,音频信号的数字化与数字化音频 信号采样与特征采样 抽样与混叠 量化与噪声 音频信号的分析与处理 音频信号分析:时域、频域、倒谱分析,线性/非线性预测 短时处理,2003年9月,第二章 音频信息处理  引言,11,音频处理基础,什么是数字音频? 话筒把机械振动转换成电信号,模拟音频中以模拟电压的幅度表示声音强弱。 在数字音频中,数字声音是一个数据序列。它是由模拟声音经抽样、量化和编码后得到的。,2003年9月,第二章 音频信息处理  引言,12,,模拟电压、量化和编码举例,2003年9月,第二章 音频信息处理  引言,13,音频处理基础,音频数字化 把模拟音频信号转换成有限个数字表示的离散序列,即实现音频数字化。它涉及到音频的抽样、量化和编码。 在数字音频中,用数字来表示音频幅度时,只能把无穷多个电压幅度用有限个数字表示。即把某一幅度范围内的电压用一个数字表示,这称之为量化。 当把模拟声音变成数字声音时,每隔一个时间间隔在摸拟声音波形上取一个幅度值,这称之为抽样。该时间间隔称为抽样周期(其倒数称为采样频率)。,2003年9月,第二章 音频信息处理  引言,14,采样与量化,采样间隔△t,量化,2003年9月,第二章 音频信息处理  引言,15,,2003年9月,第二章 音频信息处理  引言,16,,抽样定理,Why?,乃奎斯特(Nyquist)采样理论: 采样频率不应低于声音信号最高频率的两倍,即 这样就能把以数字表达的声音还原成原来的声音。 例如: 电话话音的信号频率约为 3.4 kHz,采样频率一般选用 8 kHz,或者,2003年9月,第二章 音频信息处理  引言,17,,2003年9月,第二章 音频信息处理  引言,18,,连续/离散 周期/非周期,连续 非周期,连续 周期,离散 周期,离散 非周期,2003年9月,第二章 音频信息处理  引言,19,,抽样与混叠 常用的音频抽样率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz。,2003年9月,第二章 音频信息处理  引言,20,,抽样与混叠,2003年9月,第二章 音频信息处理  引言,21,,抽样与混叠,2003年9月,第二章 音频信息处理  引言,22,,量化,2003年9月,第二章 音频信息处理  引言,23,,量化噪声,2003年9月,第二章 音频信息处理  引言,24,,量化噪声的特点,2003年9月,第二章 音频信息处理  引言,25,,量化性能评价,2003年9月,第二章 音频信息处理  引言,26,,量化性能评价,2003年9月,第二章 音频信息处理  引言,27,分析与处理,音频信号的时域(Time Domain)分析,,,T,V,0,语音信号的时域波形,2003年9月,第二章 音频信息处理  引言,28,时域分析,语音信号的时域分析就是分析和提取语音信号的时域参数。贯穿于语音信号分析全过程的是“短时分析技术” 语音信号是时变的,但在较短的时间内(10 ~ 30ms)其特性被认为是基本保持不变(或者说具有相对的稳定性) 将语音信号时域波形划分成段,逐段进行分析(每一段称之为一个帧) 时域参数包括:短时能量(度量语音信号幅度值变化的函数)、短时过零率(表示一帧语音中语音信号波形穿过横轴(零电平)的次数)、短时自相关函数和短时平均幅度差函数等等,2003年9月,第二章 音频信息处理  引言,29,,特征计算、短时处理,2003年9月,第二章 音频信息处理  引言,30,,特征计算、短时处理 加窗处理:假设语音特征在短时间内基本不变,那么,可以将语音利用加窗处理,截成一个个短段。,2003年9月,第二章 音频信息处理  引言,31,,特征计算、短时处理,2003年9月,第二章 音频信息处理  引言,32,,特征计算、短时处理 如何计算其平均幅度? 设音频信号抽样频率为10KHz,设矩形窗的窗长为100点,2003年9月,第二章 音频信息处理  引言,33,频域分析,语音信号的频域分析就是分析语音信号的频域持征。从广义上讲,语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等,而常用的频域分析方法有带通滤波器组法、傅里叶变换法、线件预测法等几种。,浊音段的功率普密度举例,清音段的功率谱密度举例,凸起的转折点称之为“共振峰”,凸起的转折点称之为“共振峰”,2003年9月,第二章 音频信息处理  引言,34,语谱图分析,语音信号的语谱(Sonogram)图分析:把和时序相关的傅里叶分析结果显示的图形称为语谱图(Sonogram,或者 Spectrogram ),它表示语音频谱随时间变化的三维图形。,Spectrogram : time, frequency, amplitude,Sonogram,2003年9月,第二章 音频信息处理  引言,35,倒谱分析,倒频谱(Cepstrum),其英文为Spectrum的前4个字母的倒排列 将语音卷积信号(乘积形式,音源信号与声道脉冲信号的乘积)的频谱转换为加性形式,其中要进行离散傅里叶变换与逆变换,其结果为复数形式,称之为“复倒谱(Complex Cepstrun)”,其实部形式称之为“倒谱(Cepstrun)” 在语音识别技术中将详细描述,三、音频信息的应用,音频信息在各领域中的应用 应用举例 Internet 电话及VoIP (Voice over IP)简介,2003年9月,第二章 音频信息处理  引言,37,音频信息的应用,视频图象的配音、配乐。如静态图象的解说、背景音乐 可视电话、电视会议中的话音。游戏中的音响效果 Internet 电话 (IP phone); 声音欺骗系统 现代“芝麻开门”系统 电子读物的有声输出 声音控制命令: 用声音控制Web,或读出Web的内容 用声音控制电话拨号 Internet上的实时音频 用电话听电子邮件、股票信息 智能房间中的音频、虚拟现实中的声音模拟,2003年9月,第二章 音频信息处理  引言,38,,声音欺骗 复制敌人声音将作为一种作战技巧。 截获敌人的无线电信号,改变其内容,用敌军话务员的原声把信号重新传送出去。 声音伪造装置将截获的信号分割成0.25秒的片断,把敌军话务员的声音分为几十个音素。转换成参考模板,储存在电子图书馆里。情报技师可用自己的声音讲话,但只要触发相应敌军话务员的音素参考模板。 声音欺骗系统需要高超的声音分析技术和语音合成技术。 声纹识别可以用来破案。,2003年9月,第二章 音频信息处理  引言,39,,现代“芝麻开门”系统,阿里巴巴利用“芝麻开门”的咒语防止不相干的人进入宝库,而现代“芝麻开门”系统比童话更好地防止假冒 。 这一进口通道控制的自动化系统是一个声音、图象和动作的综合认知系统。 它的信息输入部分由一个话筒和一个装在半透明的镜子后面的摄像机组成,训练时系统把人的声音和和嘴唇动作存入一个处理器。,2003年9月,第二章 音频信息处理  引言,40,,用光盘听书(e-Book) 数字图书馆、语音翻译、信息咨询服务系统 数字式有声信息系统”,这是通过计算机或专用设备,访问存于光盘中的电子出版物,并用声音将其读出的一种装置。读者可通过简单的操作,根据目录“听”到一本书的任意一页或其中的某一段。这将极大地改变目前盲文书籍和磁带给盲人带来的不便。 一张光盘可存放十几本图书,相当于50小时的录音。电子出版物的有声输出可采用录音/重放方式,也可采用语音合成技术。通过语音合成技术,还可以实现有声电子邮件、有声主页。,2003年9月,第二章 音频信息处理  引言,41,,虚拟主持人 英国报纸联合新闻社设计出世界首位虚拟播音员—安娜诺娃(安娜诺娃网络公司)(ANANOVA.COM) 中国“混血儿”虚拟主持人比尔 www.cnmaya.com 中国首个虚拟主持人言东方上班,比尔-邓 言东方,2003年9月,第二章 音频信息处理  引言,42,,英国电脑专家的杰作,科学家把她的性格和外貌塑造得尽善尽美—安娜芳龄28岁,未婚,样貌糅合了辣妹乐队成员维多利亚、名模米诺格及新闻主播福德曼的五官特征,衣着入时,有品位,据说很有观众缘。报道新闻的时候,她表现冷静,声调令人愉快。亲切愉快的性情使她表面看起来文静而很有智慧。,2003年9月,第二章 音频信息处理  引言,43,,其实安娜背后是一套运行速度极高的电脑系统,能够全日不断地更新新闻资讯,把文字资讯迅速转变成声音,从她“口”中读出来,并配合脸部表情。电脑又即时制作动画配合有关新闻,然后利用最新的立体影像科技,在网上播出。技术人员指出,虽然现时人们大多利用电话线上网,影像效果不太理想,但随着宽频科技的急速发展,这个局限很快会被突破,在手提电话及视讯手表等数码媒体上播放新闻,也将指日可待。  (袁安) 2000年06月09日,2003年9月,第二章 音频信息处理  引言,44,,用电话听电子邮件、股票信息,SinoSonic:,2003年9月,第二章 音频信息处理  引言,45,,2003年9月,第二章 音频信息处理  引言,46,,智能房间中的音频、虚拟现实中的声音模拟 将房间中的各种数字设施集成起来构成具有自主能力的“虚拟实体” 。 “虚拟实体”能感知房间的各种状态(跟踪人物、辨别身份、做出响应), “虚拟实体”能与“来人”进行对话。 关键技术: 环境建模(现实世界的虚拟化) 人体跟踪与活动分析 身份验证(人脸检测与识别、说话人识别、声音定位 ) 人机对话(语音识别、语音合成),四、音频处理工具,GoldWave Adobe公司的CoolEditor 其它工具,2003年9月,第二章 音频信息处理  引言,48,GoldWave,http://www.goldwave.com/,2003年9月,第二章 音频信息处理  引言,49,CoolEditor Pro,音频编码基础,本节介绍音频编码的概念与方法。 2.2.1 音频编码概述 2.2.2 音频的波形编码 2.2.3 音频的参数编码 2.2.4 音频的感知编码,§2.2,2003年9月,第二章 音频信息处理  引言,51,一、概述,音频压缩编码的必要性 多媒体音频数据的存储和传输中,必须压缩数据。利用音频编码压缩数据。,2003年9月,第二章 音频信息处理  引言,52,一、概述(cont.),数据压缩造成音频质量的下降、计算量的增加。 多领域的专家致力于算法的研究,众多的企业致力于芯片和产品的研制,国际标准化组织也先后推出一系列建议。 高质量高效率的音频压缩技术广泛地用于多媒体应用、音像制品、数字广播、数字电视等领域。,2003年9月,第二章 音频信息处理  引言,53,一、概述(cont.),话音波形的特性,浊音段的波形举例,浊音段的功率普密度举例,清音段的波形举例,清音段的功率谱密度举例,2003年9月,第二章 音频信息处理  引言,54,一、概述(cont.),功率谱的概念,2003年9月,第二章 音频信息处理  引言,55,音频编码的分类,基于音频数据的统计特性进行编码 典型技术:波形编码 如:PCM (Pulse Code Modulation), DPCM (Differential Pulse Code Modulation), APCM (Adaptive Pulse Code Modulation), ADPCM (Adaptive Differential Pulse Code Modulation) 特点:自适应强、语音质量好,但压缩比不大、数据率高 基于音频的声学参数进行编码 目标:是使重建的音频保持原音频的特性 常用的音频参数有:共振峰、线性预测系数、滤波器等 特点:数据率低,但还原信号的质量较差、清晰度低 混合编码 目标:在较低码率上得到较高的音质 如:码本激励线性预测编码(CELP)、多脉冲线性预测编码(MPLPC) 基于人的听觉特性进行编码 从人的听觉系统出发利用掩蔽效应,设计心理声学模型,实现更高效率的数字音频的压缩 如 :MPEG中的高频编码,Dolby AC-3,2003年9月,第二章 音频信息处理  引言,56,音频编码算法评价,评价因子 音频质量 数据率 编/解码延时 算法的复杂度 评价方法 客观评定 主观评定,算法复杂度高,致使计算量大、缓存增加,速度减慢,硬件成本提高。 编码延时长,会影响通信质量,引起回声。单次语音编码延时最好小于10ms。,2003年9月,第二章 音频信息处理  引言,57,语音质量的客观评定,通过测量某些特性来判定解码音频的质量 特性有 测量信噪比 加权信噪比 平均分段信噪比 测量的值为 信号方差 误差方差 特点 计算简单,但与人对音频的感知不完全一致,信噪比 (signal to noise ratio,SNR),其中:Vsingal为信号电压, Vnoise为噪声电压,,2003年9月,第二章 音频信息处理  引言,58,语音质量的主观评定,质量指:可懂性、清晰度和自然性 评测方法 主观意见打分(Mean Opinion Score, MOS)评测方法 五分制 专家打分 ITU-TSS ( ITU Telecommunication Standardization Sector )建议(P.830) 汉语清晰度诊断押韵字测试法(DRT) 百分制 电子工业部第三十研究所 GB/T 13504-92,2003年9月,第二章 音频信息处理  引言,59,MOS,MOS的5级划分 部分编码器的MOS得分,Reported,2003年9月,第二章 音频信息处理  引言,60,DRT,GB/T 13504-92中提供两张字表,各用108对押运字 如:“辅—补,数—主” 每一对为一测试项,两项为一组 计算DRT清晰度的公式如下,R : 正确回答数 W : 错误回答数 T : 总测试项数,2003年9月,第二章 音频信息处理  引言,61,数字音频的质量,数字音频的质量与下列因素相关 采样频率( s ) 量化精度(每个样值的比特数) B 一般 s 越高 B 越大,数字音频的质量越高,但数据率越大(每秒比特率)。 数字音频可分为以下几个等级,2003年9月,第二章 音频信息处理  引言,62,音频质量与数据率的关系,MOS得分,数据率,2003年9月,第二章 音频信息处理  引言,63,二、音频的波形编码,以下重点将介绍: 脉冲编码调制(PCM)技术及其应用 自适应差分编码调制(ADPCM )技术 子带自适应差分编码调制(SB-ADPCM )技术 增量调制(DM)与自适应增量调制(ADM)技术,2003年9月,第二章 音频信息处理  引言,64,脉冲编码调制,线性(均匀),非线性(瞬时压扩—μ律、A律) G.711,最佳SNR,自适应脉冲编码调制,前馈自适应,反馈自适应,最佳自适应,差值脉冲编码调制,增量调制,差值脉冲编码调制,线性增量调制,连续可变增量调制(CVSD) LM13111,自适应增量调制 T6668 UM5101,自适应差值脉冲编码调制,自适应差值脉冲编码调制 MSM5248 7756,自适应预测自适应差值脉冲编码调制,1、波形编码分类,,波形编码原理和特点 波形编码: 力图使重建语音波形保持原语音信号的波形形状。 特点: 适应能力强、话音质量好。 编码数据率高。,2003年9月,第二章 音频信息处理  引言,65,2、脉冲编码调制,脉冲编码调制(pulse code modulation,PCM)是概念上最简单、理论上最完善的编码系统,是最早研制成功、使用最为广泛的编码系统,但也是数据量最大的编码系统。 PCM的编码原理比较直观和简单,它的原理框图如下所示。在这个编码框图中,它的输入是模拟声音信号,它的输出是PCM样本。图中的“防失真滤波器”是一个低通滤波器,用来滤除声音频带以外的信号;“波形编码器”可暂时理解为“采样器”,“量化器”可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器。,2003年9月,第二章 音频信息处理  引言,66,2、脉冲编码调制(cont.),均匀量化 定义1:如果采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。均匀量化也称为线性量化,就是采用相同的“等分尺”来度量采样得到的幅度。 定义2:量化后的样本值 y(i) 和原始值 x(i) 的差e(i)= y(i) - x(i)称为量化误差或量化噪声 。,用这种方法量化输入信号时,无论对大的输入信号还是小的输入信号一律都采用相同的量化间隔。为了适应幅度大的输入信号,同时又要满足精度要求,就需要增加样本的位数。但是,对话音信号来说,大信号出现的机会并不多,增加的样本位数就没有充分利用。,2003年9月,第二章 音频信息处理  引言,67,2、脉冲编码调制(cont.),非均匀量化 非线性量化的基本想法是,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,如图3-09所示。这样就可以在满足精度要求的情况下用较少的位数来表示。声音数据还原时,采用相同的规则。,在非线性量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关系,一种称为µ 律压扩(companding)算法,另一种称为A律压扩算法。 Companding : Compressing and Expanding,2003年9月,第二章 音频信息处理  引言,68,3、瞬时压扩技术,根据语音抽样非均匀分布的特点,设法让量化阶距随信号的概率密度的减小而增大,或者说把大的量化误差留给出现概率小的样值,得到较大的信噪比。,2003年9月,第二章 音频信息处理  引言,69,3、瞬时压扩技术(cont.),2003年9月,第二章 音频信息处理  引言,70,3、瞬时压扩技术(cont.),量化器的信噪比,2003年9月,第二章 音频信息处理  引言,71,4、µ律(µ-law)压扩,主要用于北美和日本的数字通信中 量化输入/输出关系:,x : 输入信号的幅度,规格化成-1≤| x |≤1。x(n) 为未量化的样值。 sgn(x) : x的极性 µ : 确定压缩量的参数,它反映最大和最小量化间隔之比,取100≤ µ ≤500, 一般取 µ = 255,把对数曲线简化成8条折线简化计算过程。,2003年9月,第二章 音频信息处理  引言,72,4、µ律(µ-law)压扩(cont.),可以推导出μ律量化器的信噪比:,Xmax为信号 x(n) 的最大幅度, µ 越大压缩率越大。,2003年9月,第二章 音频信息处理  引言,73,5、A律(A-law)压扩,主要用在欧洲和中国大陆等地区的数字电话通信中 按下面的式子确定量化输入和输出的关系:,x : 输入信号的幅度,规格化成-1≤| x |≤1。x(n) 为未量化的样值。 sgn(x) : x的极性 A : 为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比。A律压扩的前一部 分是线性的,其余部分与µ律压扩相同。具体计算时,A=87.56,为简化计算,同 样把对数曲线部分变成折线。,2003年9月,第二章 音频信息处理  引言,74,5、A律(A-law)压扩(cont.),对于采样频率为8 kHz,样本精度为13位、14位或者16位的输入信号,使用µ 律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本的精度为8位,输出的数据率为64 kb/s。这个数据就是CCITT推荐的G.711标准:话音频率脉冲编码调制(Pulse Code Modulation (PCM) of Voice Frequencies)。,References: 1. The JT-G711 main body conforms to the ITU-T Recommendation G.711 (1988). 2. The JT-G711 Appendix I conforms to the ITU-T Recommendation G.711 Appendix I (1999). 3. The JT-G711 Appendix II conforms to the ITU-T Recommendation G.711 AppendixⅡ(2000).,2003年9月,第二章 音频信息处理  引言,75,6、自适应脉冲编码调制,自适应脉冲编码调制(adaptive pulse code modulation,APCM)是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。 改变量化阶大小的方法有两种: 前向自适应(forward adaptation):根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息(side information)传送到接收端。 后向自适应(backward adaptation):从量化器刚输出的过去样本中来提取量化阶信息。由于后向自适应能在发收两端自动生成量化阶,所以它不需要传送边信息。,前向自适应,后向自适应,发送端编码器的输入信号,接收端译码器输出的信号,2003年9月,第二章 音频信息处理  引言,76,7、差分脉冲编码调制,定义:差分脉冲编码调制DPCM (differential pulse code modulation)是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。 原理:根据过去的样本去估算(estimate)下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。 特点:它与脉冲编码调制(PCM)不同的是,PCM是直接对采样信号进行量化编码,而DPCM是对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值,这就降低了传送或存储的数据量。此外,它还能适应大范围变化的输入信号。,2003年9月,第二章 音频信息处理  引言,77,7、差分脉冲编码调制(cont.),差分信号 d(k) 是离散输入信号 S(k) 和预测器输出的估算值 Se(k-1) 之差。注意, Se(k-1) 是对 S(k) 的预测值,而不是过去样本的实际值。 DPCM系统实际上就是对这个差值 d(k)进行量化编码,用来补偿过去编码中产生的量化误差。DPCM系统是一个负反馈系统,采用这种结构可以避免量化误差的积累。重构信号 Sr(k) 是由逆量化器产生的量化差分信号 dq(k) ,与对过去样本信号的估算值 Se(k-1)求和得到。它们的和,即 Sr(k) 作为预测器确定下一个信号估算值的输入信号。由于在发送端和接收端都使用相同的逆量化器和预测器,所以接收端的重构信号 Sr(k) 可从传送信号 I(k) 获得。,2003年9月,第二章 音频信息处理  引言,78,8、自适应差分编码调制,Adaptive Differential Pulse Code Modulation 综合了APCM的自适应特性和DPCM系统的差分特性 核心思想: 利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值 使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。,接收端的译码器使用与发送端相同的算法,利用传送来的信号来确定量化器和逆量化器中的量化阶大小,并且用它来预测下一个接收信号的预测值。,2003年9月,第二章 音频信息处理  引言,79,9、G.721 ADPCM编译码器,G.721 ADPCM编译码器的输入信号是G.711 PCM代码,采样率是8 kHz,每个代码用8位表示,因此它的数据率为64 kb/s。而G.721 ADPCM的输出代码是“自适应量化器”的输出,该输出是用4位表示的差分信号,它的采样率仍然是8 kHz,它的数据率为32 kb/s,这样就获得了2∶1的数据压缩。,2003年9月,第二章 音频信息处理  引言,80,10、ADPCM编码器,在编码器中,A律或μ律PCM输入信号转换成均匀的PCM。差分信号等于均匀的PCM输入信号与预测信号之差。“自适应量化器”用4位二进制数表示差分信号,但只用其中的15个数(即15个量级)来表示差分信号,这是为防止出现全“0”信号。“逆自适应量化器”从这4位相同的代码中产生量化差分信号。预测信号和这个量化差分信号相加产生重构信号。“自适应预测器”根据重构信号和量化差分信号产生输入信号的预测信号,这样就构成了一个负反馈回路。,2003年9月,第二章 音频信息处理  引言,81,11、ADPCM译码器,在译码器中,译码器的部分结构与编码器负反馈回路部分相同。此外,还包含有均匀PCM到A律或μ律PCM的转换部分,以及同步编码调整(synchronous coding adjustment)部分。设置同步(串行)编码调整的目的是为防止在同步串行编码期间出现的累积信号失真。,2003年9月,第二章 音频信息处理  引言,82,12、子带自适应差分编码调制,子带编码(subband coding,SBC)的概念 基本思想: 使用一组带通滤波器(band-pass filter,BPF)把输入音频信号的频带分成若干个连续的频段,每个频段称为子带。 对每个子带中的音频信号采用单独的编码方案去编码。 在信道上传送时,将每个子带的代码复合起来。在接收端译码时,将每个子带的代码单独译码,然后把它们组合起来,还原成原来的音频信号。 编码/译码器可以采用ADPCM,APCM,PCM等。,2003年9月,第二章 音频信息处理  引言,83,12、子带自适应差分编码调制(cont.),采用子带编码的好处: 对每个子带信号分别进行自适应控制,量化阶(quantization step)的大小可以按照每个子带的能量电平加以调节。具有较高能量电平的子带用大的量化阶去量化,以减少总的量化噪声。 可根据每个子带信号在感觉上的重要性,对每个子带分配不同的位数,用来表示每个样本值。例如,在低频子带中,为了保护音调和共振峰的结构,就要求用较小的量化阶、较多的量化级数,即分配较多的位数来表示样本值。而话音中的摩擦音和类似噪声的声音,通常出现在高频子带中,对它分配较少的位数。,2003年9月,第二章 音频信息处理  引言,84,12、子带自适应差分编码调制(cont.),音频频带的分割 可以用树型结构的式样进行划分。 首先,把整个音频信号带宽分成两个相等带宽的子带:高频子带和低频子带。 然后,对这两个子带用同样的方法划分,形成4个子带。这个过程可按需要重复下去,以产生2K个子带,K为分割的次数。用这种办法可以产生等带宽的子带,也可以生成不等带宽的子带。 例如,对带宽为4000 Hz的音频信号,当K=3时,可分为8个相等带宽的子带,每个子带的带宽为500 Hz。也可生成5个不等带宽的子带,分别为[0,500),[500,1000),[1000,2000),[2000,3000)和[3000,4000]。,把音频信号分割成相邻的子带分量之后,用2倍于子带带宽的采样频率对子带信号进行采样,就可以用它的样本值重构出原来的子带信号。例如,把4000 Hz带宽分成4个等带宽子带时,子带带宽为1000 Hz,采样频率可用2000 Hz,它的总采样率仍然X是8000 Hz。 由于分割频带所用的滤波器不是理想的滤波器,经过分带、编码、译码后合成的输出音频信号会有混迭效应。据有关资料的分析,采用正交镜象滤波器(quandrature mirror filter,QMF)来划分频带,混迭效应在最后合成时可以抵消。,2003年9月,第二章 音频信息处理  引言,85,12、子带自适应差分编码调制(cont.),正交镜象滤波器(quandrature mirror filter,QMF) 用QMF把全带音频信号分割成两个等带宽子带的情况。hH(n) 和 hL(n)分别表示高通滤波器和低通滤波器,它们组成一对正交镜象滤波器。这两个滤波器也叫做分析滤波器。,QMF分割频道方框图,QMF幅频特性简化图,2003年9月,第二章 音频信息处理  引言,86,12、子带自适应差分编码调制(cont.),子带-自适应差分脉冲编码调制(SB-ADPCM) G.722编译码系统 G.722是CCITT推荐的音频信号(audio)编码译码标准 。 该标准是描述音频信号带宽为7 kHz、数据率为64 kb/s编译码原理、算法和计算细节。 G.722的主要目标是保持64 kb/s的数据率,而音频信号的质量要明显高于G.711的质量。 采用子带自适应差分脉冲编码调制(sub-band adaptive differential pulse code modulation,SB-ADPCM)技术。在这个系统中,用正交镜象滤波器(QMF)把频带分割成两个等带宽的子带,分别是高频子带和低频子带。在每个子带中的信号都用ADPCM进行编码。,2003年9月,第二章 音频信息处理  引言,87,12、子带自适应差分编码调制(cont.),7kHz音频信号、64 kb/s数据率的编译码方块图,2003年9月,第二章 音频信息处理  引言,88,13、增量调制,定义:又称Delta 调制。它是一种预测编码技术,是PCM编码的一种变形。PCM是对每个采样信号的整个幅度进行量化编码,因此它具有对任意波形进行编码的能力;DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示,或者相反。由于DM编码只须用1位对话音信号进行编码,所以DM编码系统又称为“1位系统”。,用i 表示采样点的位置, x[ i ]表示在 i 点的编码输出。输入信号的实际值用 yi 表示,输入信号的预测值用 y[ i+1 ]=y[ i ] ± △ 表示。假设采用均匀量化,量化阶的大小为△,在开始位置的输入信号 y0=0 ,预测值 y[0]=0,编码输出 x[0]=0。,2003年9月,第二章 音频信息处理  引言,89,13、增量调制(cont.),从图中可以看到,在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化,这种现象就称为增量调制器的“斜率过载”(slope overload)。一般来说,当输入信号的变化速度超过反馈回路输出信号的最大变化速度时,就会出现斜率过载。之所以会出现这种现象,主要是反馈回路输出信号的最大变化速率受到量化阶大小的限制,因为量化阶的大小是固定的。 从图中还可以看到,在输入信号缓慢变化部分,即输入信号与预测信号的差值接近零的区域,增量调制器的输出出现随机交变的“0”和“1”。这种现象称为增量调制器的粒状噪声(granular noise),这种噪声是不可能消除的。,在输入信号变化快的区域,斜率过载是关心的焦点,而在输入信号变化慢的区域,关心的焦点是粒状噪声。为了尽可能避免出现斜率过载,就要加大量化阶Δ,但这样做又会加大粒状噪声;相反,如果要减小粒状噪声,就要减小量化阶Δ,这又会使斜率过载更加严重。这就促进了对自适应增量调制(adaptive delta modulation,ADM)的研究,2003年9月,第二章 音频信息处理  引言,90,14、自适应增量调制(ADM),为了使增量调制器的量化阶Δ能自适应,也就是根据输入信号斜率的变化自动调整量化阶Δ的大小,以使斜率过载和粒状噪声都减到最小,许多研究人员研究了各种各样的方法,而且几乎所有的方法基本上都是在检测到斜率过载时开始增大量化阶Δ,而在输入信号的斜率减小时降低量化阶Δ。 例如,宋(Song)在1971描述的自适应增量调制技术中提出:假定增量调制器的输出为1和0,每当输出不变时量化阶增大50%,使预测器的输出跟上输入信号;每当输出值改变时,量化阶减小50%,使粒状噪声减到最小,这种自适应方法使斜率过载和粒状噪声同时减到最小。 又如,使用较多的另一种自适应增量调制器是由格林弗基斯(Greefkes)1970提出的,称为连续可变斜率增量调制(continuously variable slope delta modulation,CVSD)。它的基本方法是:如果连续可变斜率增量调制器(continuously variable slope delta modulator,CVSD)的输出连续出现三个相同的值,量化阶就加上一个大的增量,反之,就加一个小的增量。,
展开阅读全文
相关搜索
温馨提示:
文客久久所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。

当前位置:首页 > 学术论文资料库 > 毕业论文


Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。