1、1,第 3 章多媒体技术应用,2,本章概要,多媒体技术的基本含义、组成 音频、视频信号的处理 图像处理技术 动画处理技术 视频信息处理技术,3,多媒体技术使计算机具备了综合处理文字、声音、图像和视频等信息的能力。它以形象丰富的文、声、图等信息以及方便的交互性,极大的改善了人机界面,改变了人们使用计算机的方式,从而为计算机进入人类日常生活和生产领域打开了方便之门,给人们的工作、生活和娱乐带来了深刻的变化。,4,多媒体定义、特性,媒体(Medium)在计算机领域中有两种含义,既可理解为存储信息的实体,如磁带、磁盘、光盘等;也可理解为信息的载体,如数字、文字、声音、图像、动画、视频等。 多媒体技术中
2、的“媒体”是指后者。,多媒体( Multimedia)多媒体是指能够同时获取、处理、编辑、存储和展示两个以上不同类型信息媒体(文字、图形、图像、声音、动画和影视 )的技术 。,5,多媒体计算机技术( mpc),多媒体计算机一般是指能够综合处理文字、声音、图形、图像、动画和视频等多种媒体信息,并在它们之间建立逻辑关系,使之集成为一个交互式系统的计算机。 它融高质量的视频、音频、图像等多种媒体信息的处理于一身,并具有大容量的存储器,能给人们带来一种文、声、图、像并茂的视听感受。,6,MPC的基本结构,主机,触摸屏,键盘,鼠标,视频输出外部存储摄像机CD-ROM,视频适配卡音频适配卡图形卡压缩卡,音
3、频微信号输入:麦克风,唱机拾音器,音频、视频输入CD-ROM盘激光视盘摄像机、录像机,音频输出:耳机、音箱音响设备,显示器,通信网络局域网络电话网络,7,本节要点:波形声音、MIDI声音的特征如何使用Windows中的工具录制和编辑波形声音声音压缩的基本原理各种声音文件格式语音合成与语音识别的基本原理,31 音频信号的处理,8,多媒体计算机中产生声音的方式主要有三种:外部声音源进行录制和重放MIDI音乐 CD-Audio,在Windows中称为,Wave波形音频,MIDI音频,CD音频,不同的音频数字信息存储在计算机中时,所使用的格式是不同的,常见的声音文件格式有: WAVE文件、MIDI文件
4、和MP3文件等。 其中Wave是波形文件,MP3是压缩格式的音频文件。,9,3.1.1 Wave音频文件 1波形音频的特征 波形音频是多媒体计算机获得声音最直接、最简便的方式。 工作原理是:麦克风(或立体声录音机或CD激光唱盘)等作为声音信号的输入源,声卡以一定的采样频率和量化级别对输入的声音进行数字化采样,将其从模拟信号转换为数字信号,以适当的格式存在硬盘上,由于扬声器只能接受模拟信号,记录下来的声音在重放时,需要由声卡将文件中的数字信号还原成模拟信号,经混音器混合后由扬声器输出。,10,工作原理如图,图3-1-1 模拟声音转换为数字声音,模拟声音转换为数字声音,11,采样频率:是指每秒从模
5、拟声波中选择多少个点 的声音样本。 一般为:11.025kHz(指每秒采集声音样本11025 次)、22.05kHz、44.1 kHz和48kHz。 单位时间内的采样数Hz,(至少为波形频率的两倍). 11.025 kHz的采样频率获得的声音称为电话音质;22.05 kHz 称为广播音质;44.1kHz 称为CD音质。采样频率越高,获得的声音质量越好,相应占用的存储空间也就越大。,12,声音采样的量化量化:采样数据按大小存储的过程量化级别: 8位、16位、32位等 声道数 单声道和立体声单声道:声音只能使一路喇叭发声每次生成一个 声波数据 立体声(双声道):声音可以使两路喇叭都发声, 更能感受
6、到空间效果每次生成两个声波数据.,13,Wave文件所占存储容量的公式: 存储量(采样频率X量化位数X声道)X时间8 (单位:字节数) 在Windows“录音机”里,用最低的8kHz、8位、单声道来保存,一秒钟的声音占的存储空间为8KB。 若用48kHz、16位、立体声来保存,一秒钟的声音需要188KB的存储空间。 综上所述,要使所录制的声音音质好;其所占存储量也会相应大。,例,例,14,2Wave音频文件,Windows所使用的标准数字音频是Wave波形文件,记录了对实际声音进行采样的数据。Wave音频文件的主要缺点是产生的文件太大,不适合长时间记录。如果应用系统使用CD音质的Wave音频文
7、件配音,声音内容应尽可能简洁。由于原始声音数据量太大,有必要采用硬件或软件的方法进行压缩处理,常用的软件压缩方法主要有ACM和PCM等。另一方面,一般人的讲话声音使用8位量化级、11025 kHz采样频率就能较好地还原,因此这种质量较低的波形文件在应用中也不少见。,15,3. Wave音频文件的制作工具,Windows中的“录音机具有最基本的声音录制和编辑功能。 Windows本身所携带的“录音机”软件,是Wave音频文件录制、播放和进行一些简单处理的基本工具。启动Windows “录音机”,并打开一个Wave音频文件后的界面,在其窗口的中间便可看到所打开声音文件的波形。,16,录音机,由于波
8、形文件记录的是数字化的音频信号,可由计算机对其进行处理和分析,如删除、插入混音等,又如加快、放慢声音的播放速度,反向播放,将声音重新组合等,如图所示,从“效果”菜单中可以看到有关的操作命令,使用这些命令后,可以从波形上看到声音的变化。,17,在录音前,一般需要设定录音时的采样频率和量化位数,这可通过声音的“格式转换”来设置,先在“选自”下拉列表中选择“录音格式”,然后单击旁边的“立即转换”按钮,出现如图所示的对话框,用于设定不同的采样频率和量化位数。另外不可忽略的是在进行录音之前,还必须在系统“音量控制”的“选项”属性中将调节音量设置为“录音”方式。(具体操作见3.1.3),有关录音,18,如
9、果想知道某个Wave音频文件的数字声音指标,可以选中该声音文件后,通过使用“文件/ 属性”命令打开“声音属性”对话框来可以了解。,19,3.1.2 MIDI合成音乐,MIDI(Musical Instrument Digital Interface)MIDI是音乐与计算机结合的产物MIDI是乐器数字接口的缩写,文件扩展名是 .MID,泛指数字标准,它始建于1982年。标准的多媒体PC平台能够通过内部合成器或连接端口的外部合成器播放MIDI文件。 MIDI文件的特点:是一系列指令,而不是波形,所占存储空间非常少多媒体PC平台能够通过内部合成器或连接到计算机MIDI端口的外部合成器播放MIDI文件
10、,20,1.合成器,合成器是利用DSP或其他芯片来产生音乐或声音的电子装置 FM合成器采用频率调制的原理产生声音 FM合成器能发出128种乐器的声音 波表合成 对真实乐器声采样,制波表保存,由DSP查表调用处理声音效果与真实的乐器声几乎无差别声卡带有波形表ROM的接口 或 本身带有波形表ROM ROM的容量越大,可存储的乐器音就越多软波形表用CPU来实现波表合成器的部分功能降低对声卡硬件要求,21,2. MIDI音乐产生原理 MIDI标准规定了装置间连接的电缆、硬件标准和通信协议MIDI指令信息 :由音符序列、定时和多达16个通道的演奏音符定义组成,演奏音符定义由键号、通道号、音长、音量和力度
11、组成建立MIDI文件:设备演奏时输入或软件编辑产生 MIDI文件的特点:是指令不是波形,文件小 端口 :MIDI In(输入口)、MIDI Out(输出 口)、 MIDI Thru(转送口),22,由于MIDI文件是一系列指令,而不是波形,所以所占的存储空间非常少,利用MIDI文件演奏音乐,所需的存储量很少。 一个8位,2205kHz的波形文件,记录18秒钟的声音需要3168KB空间,而演奏2分钟乐曲的MIDI文件,其存储空间不到8KB。另外,预先装载MIDI文件比波形文件容易得多。这样,在设计多媒体节目时,音乐的设置就变得十分灵活。,例,23,在以下这些情况时,使用MIDI合成音乐将比波形音
12、频更合适:需要播放长时间高质量的音乐。需要以音乐作为背景音响效果,同时从CD-ROM中装载其他数据,如图像、文字的显示等。需要以音乐作为背景音响效果,同时播放波形音频,如音乐与语音同时输出。,24,Windows中的媒体播放器可直接播放MIDI音乐,视听,视听,25,3.1.3 音频处理,声音的处理包括录音、剪辑、去除杂音、混音、合成等等。一般声音处理的软件有Ulead、 AudioEditor、Creative录音大师、CakeWalk等。Windows中的“录音机具有最基本的声音录制和编辑功能。(见3.1.1 3.),26,3.1.4 音频数据压缩,1基本压缩原理 由于音频信号中存在着冗余
13、,所以在计算机系统的音频数据的存储和传输中,数据压缩是必须的,要在声音质量、数据率、计算量三个方面进行综合考虑。 为了减少数据率,专家们致力于压缩编码的研究,国际电报电话咨询委员会(CCITT)先后提出了一系列语音压缩编码的建议。,27,音频信号的编码方法通常有:,基于音频数据的统计特性进行编码,其典型技术是波形编码,其目标是使重建语音波形保持原波形的形状。基于音频的声学参数进行参数编码,可进一步提高压缩比,其目标是使重建音频保持原音频的特性。将上述两种编码结合起来,就是混合编码的方法。基于人的听觉特性进行编码,从人的听觉特性出发,利用掩蔽效应,设计声学心理模型。 从而实现更高效率的数字音频的
14、压缩。其中以MPEG标准中的高频编码最有影响。,28,2MP3音乐 MP3是 MPEG layer 3 的缩写 MPEG (Moving Picture Expert Group) ,运动图像专家组,是国际标准化组织成员,专门制定MPEG压缩标准中的音频部分,也就是MPEG音频层。 MP3是MPEG音频压缩算法中压缩与解压缩计算方式的一种,用来处理高压缩率的声音信息。它所生成的声音文件音质接近CD,而文件大小却只有约其十二分之一。因此原本一张光盘上只能储存十几首CD格式的乐曲,若以MP3格式进行存储,则可储存100多首。,29,那么MP3为什么会有这样神奇的效果呢?,原理: 一方面通过先进的编
15、码技术,让未经压缩的原始声音重新编码压缩;另一方面利用人耳的特点进行数据的缩减,由于人的耳朵对于超过15kHz的声音就不是很灵敏了,所以将一些高频的声音信息删掉不会对声音效果有很大影响,这样缩小声音存储所需占用的空间。 MP3格式的声音仍属于声波的一种,它是将原有的声波经过压缩形成MP3的文件格式。 所以一张MP3音乐光盘可以将十几张的CD音乐放到里面。若以一张音乐CD专辑可以播放60分钟来算,一张MP3音乐光盘将可以放十几小时的音乐,简直就像一个小型的音乐收藏柜一样。,30,三个层次音频的压缩比和压缩后所产生声音的数据质量,31,虽然MP3的好处很多,但由于采用压缩格式,在音质上毕竟还是有一
16、定损失的。 音频信号的压缩方法通常分为,音频信号压缩,无损压缩,有损压缩,霍夫曼编码,游程长度编码,混合编码,参数编码,波形编码,32,3.1.5 声音文件的格式,在计算机中,声音文件也称为音频文件。根据获得的途径和存储的方式不同,声音文件也有多种文件格式,不同格式的声音文件具有不同的存储特点。 常见的声音文件格式有: WAV、MID 、MP3 CD格式、RM格式、WMA格式,33,1WAV格式 WAV格式的音频文件是Windows中最常用的波形声音文件格式,符合RIFF(resource interchange file format,资源交换文件格式)文件规范。 WAV格式支持多种压缩算法
17、。 由于WAV格式一般存放的是未经压缩处理的音频数据,所以体积相对较大(1分钟需要10MB),不适合于在网络上传播。2MP3格式 MP3格式诞生于20世纪80年代的德国,MPEG压缩是一种有损压缩,MPEG3音频编码具有10:112:1的高压缩率,同时基本保持低音频部分不失真,但是牺牲了声音文件中12kHz到16kHz高音频部分的质量来换取文件的尺寸。 由于MP3文件尺寸小、音质好,因而为发展提供了良好的条件。直到现在,这种格式仍风靡全球,其作为主流音频格式的地位难以被撼动。,34,3MIDI文件MIDI (musical instrument digital interface)MIDI文件
18、的优点是短小,一个6分多种、包含16个乐器的文件也只是80多KB;缺点是播放效果因软、硬件而异。MIDI文件主要用于原始乐器作品、流行歌曲的业余表演、游戏音轨以及电子贺卡等。4CD格式 “*CDA格式,这就是CD音轨了,它是当今世界上音质最好的数码音频格式。标准CD格式具有441kHz的采样频率,速率88k秒,16位量化位数。CD音轨近似无损,因此它的声音基本上是忠于原声的。,35,5RealAudio格式RealAudio 主要适用于在网络上的在线音乐欣赏。Real文件的格式主要有:RA(RealAudio)、RM(RealMedia,RealAudio G2)和RMX(RealAudio
19、Secured)等。这些格式的特点是可以随网络带宽的不同而改变声音的质量,在保证大多数人听到流畅声音的前提下,令带宽较富裕的听众获得较好的音质。6WMA格式 WMA (Windows Media Audio) 格式是微软开发的,音质要强于MP3格式,更远胜于RA格式,它和日本YAMAHA公司开发的VQF格式一样,是以减少数据流量但保持音质的方法来达到比MP3压缩率更高的目的,WMA的压缩率一般可以达到1:18左右。 WMA支持音频流技术,适合在网络上在线播放.,36,3.1.6 语音合成与识别,语音处理就是利用计算机对语音进行处理的技术。它包括两方面的内容:一是使人们能用语音来代替键盘输入和编辑文字,也就是使计算机具有“听懂”语音的能力;这就是语音识别技术;二是要赋予计算机“讲话”的能力,可以用语音输出结果,这就是语音合成技术。,