1、课程:7167 多媒体计算机技术第一章 多媒体技术概述一、主要内容1、什么是媒体?1)一是指用以存储信息的实体,如磁盘、磁带、光盘和半导体存储器;2)一是指信息的载体,如数字、文本、声音、图形图像和视频等。2、CCITT 给媒体做的分类1)感觉媒体:指能直接作用于人的感官,使人能直接产生感觉的一类媒体2)表示媒体:为了加工、处理和传输感觉媒体而人为地研究、构造出来的一种媒体。其目的是将感觉媒体从一个地方向另一个地方传送,以便于加工和处理。表示媒体包括各种编码方式。3)显示媒体:指感觉媒体与用于通信的电信号之间转换用的一类媒体。包括输入显示媒体和输出显示媒体4)存储媒体:用来存放表示媒体,以方便
2、计算机处理加工和调用,主要指与计算机想着的外部存储设备。5)传输媒体:用来将媒体从一个地方传送到另一个地方的物理载体,是通信的信息载体。3、多媒体定义所谓多媒体,是指信息表示媒体的多样化,常见的多媒体有文字、图形、图像、声音、音乐、视频、动画等多种形式。4、多媒体技术就是利用计算机技术把文本、声音、视频、动画、图形和图像等多种媒体进行综合处理,使多种信息之间建立逻辑连接,集成为一个完整的系统。5、多媒体的特征1)多维化:信息媒体的多样化。2)集成性:不仅指多媒体设备集成,也包含多媒体信息集成或表现集成。3)交互性:是使人们获取和使信息变被动为主动的最为重要的特征。4)实时性:主要指类似声音和视
3、频这样的媒体,与时间密切相关,要求多媒体技术必须支持实时处理。6、多媒体计算机技术及发展1)MPC1:1990 年2)MPC2:1993 年3)MPC3:1995 年7、多媒体技术主要内容:1)多媒体软硬件平台2)专用芯片:DSP3)数据压缩及编码技术4)多媒体同步:(集成模式:制约式、交互式和协作式。 )5)多媒体网络与分布式处理技术6)信息的组织与管理7)多媒体数据存储8)虚拟现实技术8、多媒体技术的应用1)视频点播2)电子出版物3)CAI4)游戏与娱乐5)计算机视频会议6)多媒体展示和信息查询系统7)MIS 与 OA8)传媒、广告9)讲演辅助10)联机服务二、学习心得基本上每本书的第一章
4、都是提纲挈领地介绍整本书的主要内容,并提出一些基本的理论和概念。第一章的学习是比较重要的,其内容是后面章节的概要性介绍。估计会有 10 分左右的出题。第二章 多媒体计算机系统的组成一、主要内容1、多媒体 I/O 设备分类输入设备、输出设备、用于网络通信的通信设备。2、输入设备除了基本的键盘、鼠标等以外,还包括手写板、磁卡设备、IC 卡设备、条码设备、图像扫描仪、数字化仪、触摸屏、视频卡和视频捕获卡等。3、图像扫描仪主要性能指标1)分辨率:以每英寸上扫描象素点数(DPI)表示,通常在 300DPI 到 1200DPI 之间。2)灰度,指图像亮度层次范围,目前可达 2503)色彩度,指彩色扫描仪支
5、持的色彩范围,用象素的数据位表示,如 24 位支持 16M 色。4)速度,在指定的分辨率和图像尺寸下的扫描时间。5)幅面:支持的幅面大小,如 A4、A3扫描仪按幅面大小份为台式和手持式,按图像类型分为灰度和彩色扫描仪。4、触摸屏一般由两部分组成:触摸屏控制卡和触摸检测装置。按介质及工作原理,可分为电阻式、电容式、红外线式和声表面波式。5、视频捕获卡将模拟视频信号转换为数字视频信号的转换卡。选择时要考虑的问题:1)是否有 Overlay(叠加)功能,可直接把视频信号送到 VGA 显示器。2)支持的输入视频标准、视频源和图形文件格式。NTSC、PAL 和 S-Video。3)与 VGA 卡的兼容性
6、4)是否采用了硬件压缩5)“录像 ”质量:图像尺寸、支持的颜色数、丢帧。6、输出设备1)CRT:两大类:图像显示、矢量图形方式。种类:存储型、随机扫描型、随机扫描彩色CRT。2)液晶显示器(LCD) :低电压、低功耗。按技术性质分单纯矩阵驱动和主动矩阵驱动,TFT是主要发展方向。3)等离子体显示器(PDP)4)显示卡:主要作用是对图形函数进行加速。5)打印机:击打式和非击打式,点阵针击、激光、喷墨。7、通信设备1)调制解调器:Modem2)网卡,局域网最基本的部件之一,又称网络卡或网络接口卡,简称 NIC。主要工作是整理计算机上发往网线上的数据,并将数据分解为适当大小的数据包之后向网络上发送出
7、去,还负责网线上传过来的数据。3)传真/通讯卡9、USB 设备通用串行总线,主要特点:即插即用、可热插拔,并具有自动配置能力。1.1 版 12Mb/s,2.0版 480Mb/s。USB 采用四线电缆,其中两根是用来传递数据的串行通道,另两根为下游设备提供电源。USB 支持 4 种基本的数据传输模式:控制传输、等时传输、中断传输及数据块传输。10、多媒体与 CPU 芯片MMX 技术:重要特色是使用了单指令多数据流技术(SIMD),即一条指令并行处理多个数据,从而成倍地提高了机器计算速度。二、学习心得这一章有不少常识性的内容,估计会有一些选择、填空、名词解释、简答的送分题。第三章 数字图像处理技术
8、* 该章内容为重点内容 *一、主要内容1、彩色空间及变换图像处理技术中最基本的问题是对颜色的处理。颜色模式主要有:1)RGB:红、绿、蓝2)Lab:是由 RGB 转为 HSB 或 CMYK 模式的桥梁,发光率、颜色 A、B 。4)YUV:电视系统常用模式,亮度 Y 和色差 U、V 组成。 Y 与 U、V 独立变化,可用于压缩。5)CMYK:彩色印刷使用。3、压缩算法评价1)压缩比2)算法的复杂性和运算速度3)失真度:无损编码、有损编码4、行程长度编码(重点掌握并应用 )RLE,又称游程编码,就是把一系列的重复值用一个单独的值加上一个计数值来取代。6、预测编码可分为线性预测和非线性预测编码。前者
9、常被称为差分脉冲编码调制,即 DPCM。其基本原理是基于图像中相邻象素之间的相关性,每个象素可通过与之相关的几个象素来进行预测。7、变换编码就是将时域信号变换到频域信号上进行处理的方法。常用有 K-L 和 DCT(离散余弦变换)。8、模型法编码预测编码、矢量量化编码以及变换编码都属于波形编码。其理论基础是信号理论和信息论,其出发点是将图像信号看作不规则的统计信息,从象素之间的相关性这一图像信号统计模型出发设计编码器。而模型编码则是利用计算机视觉和计算机图形学的知识对图像信号的分析与合成。模型编码的关键是对特定的图像建立模型,并根据这个模型确定图像中景物的特征参数,如运动参数,形状参数等。解码时
10、则根据参数和已知模型用图像合成技术重建图像。9、混合编码以两种或两种以上方法对图像进行编码称为混合编码。11、BMP 格式位图文件格式,三部分组成:位图文件头数据结构、位图信息数据结构和位图阵列。位图阵列数据支持 RLE4 和 RLE8 压缩格式。12、GIF 格式CompuServe 公司开发的格式,称为图形交换格式。以数据块为单位来存储图像的相关信息,使用 LZW 压缩算法来存储,支持透明属性,可以在一个文件中存放多幅图像。13、TIF 格式TIFF 格式,与硬件无关,可以用几种不同的压缩方法压缩。文件组成:文件头、参数指针表、参数数据表。14、PNG 格式便携网络图形格式,使用 LZ77
11、 派生的无损数据压缩算法,目的是替换 GIF 和 TIFF。15、PNG vs GIF vs JPEG(掌握)1)PNG 兼有 GIF 和 JPEG 的色彩模式,GIF 用 256 索引色,JPEG 用真彩色,PNG 都支持。2)PNG 能把图像压缩到极限,但又保留图像品质。文字线条类图形用类 GIF 方式,相片类用类 JPEG 方式处理,但采用非破坏性压缩。3)PNG 更优化的传输显示。支持类 GIF 的交错模式。4)GIF 只支持 0/1 透明,JPEG 不支持透明,PNG 支持“a”频段 0-255 的透明信息。5)GIF 在不同系统上显示的画面可能不同,PNG 则可完全相同。6)GIF
12、 支持一个文件多图像,PNG 不支持。7)PNG 用无损压缩,虽然压缩比高于 JPEG,但是 JPEG 可以牺牲品质换尺寸。8)PNG 不支持 CMYK 模式。(后三个是 PNG 的缺点)16、JPEG 格式ISO 和 CCITT 静止图像编码联合专家组。用于连续色调的静止图像压缩编码的通用算法的国际标准。两种工作方式:顺序方式和渐进方式。顺序方式中,图像被分割成行成列的四方小块,编码时由左而右,由上而下地逐行逐列对每个小块进行运算,直到所有小块都被编码为止。渐进方式下,先以一种低于最终质量要求的标准进行编码,完成后再以较上次高一级的质量要求再进行一次编译,但仅传送为改善质量所需增加的那部分信
13、息。重复若干次直至达到所需的最终质量要求。三种级别编码算法:基本系统、扩展系统、无失真系统。基本系统编码以离散余弦变换为核心,采用顺序工作方式,适用于一般精度(8bit)的图像,有良好的压缩效果,压缩比可调。将基本系统在若干方面增强并减少一些限制条件后就称为扩展系统,支持(4bit-12bit),可采用渐进方式,可选哈夫曼或算法码对离散余弦变换产生的统计事件进行压缩编码。无失真系统采用二维 DPCM 技术,实现无失真压缩,压缩比较低。17、JPEG 基本系统编码过程( 重点掌握)1)二维 DCT 正变换,减少图像数据的相关性2)系数量化,根据压缩精度将变换系数用较少的比特数表示3)编码模型与统
14、计事件,压缩系数矩阵中的零数据,从量化后的系数矩阵生成供熵编码的统计事件。直流分量使用 DPCM 编码。4)熵编码:基本系统中用哈夫曼编码,扩展系统中可用算术编码。5)数据结构,增加一些附加信息18、JPEG 渐进方式1)谱选择法,对 DCT 变换后的系数,先低频后高频按级编码。2)逐次逼近,第一级只送系数的近似值( 如舍弃系数的几个低比特位 ),后面各级补上。3)阶梯方式,先用小尺寸编码,再编码原图像与它的差值。19、JPEG 的压缩效果0.15b/p,可识别,0.25 有用, 0.75 极佳,1.5 时基本与原图无区别。21、MPEG 系统运动图像专家组,下分三个小组:MPEG-Video
15、(视频组)负责视频压缩、MPEG-Audio(音频组)负责音频压缩、MPEG-System( 系统组) 解决多信道压缩视频音频和同步及合成问题。22、MPEG-1 标准运动图像和伴随声音的编码-用于速率约在 1.5Mb/s 以下的数字存储媒体。采用 CIF 视频格式(352x288),帧速率为 25 或 30fps,码率为 1.5Mb/s(其中视频约 1.2Mb/s,音频约 0.3Mb/s)。1992 年正式通过,由 5 部分组成:1)MPEG-1 System,规定电视图像数据、声音数据及其它相关数据的同步。2)MPEG-1 Video,规定视频数据的编码和解码。3)MPEG-1 Audio
16、,规定音频数据的编码和解码。4)MPEG-1 Conformance testing,规定如何测试比特数据流和解码器是否满足前 3 部分中所规定的要求。5)MPEG-1 Software simulationMPEG-2 标准适于高于 2Mb/s 的视频压缩,基本算法也是运动补偿的预测和带有 DCT 的帧间内变长编码,与 MPEG-1 的主要区别:1)能够有效地支持电视的隔行扫描格式。2)支持可分级的可调视频编码,适用于需要同时提供多种质量的视频业务的情况。系统分为 9 组,除了 MPEG-1 的五组,还有:6)MPEG-2 数字存储媒体命令和控制扩展协议7)MPEG-2 先进声音编码(AAC
17、),多声道声音编码算法标准。8)MPEG-2 系统解码器实时接口扩展标准9)MPEG-2 DSM-CC 一致性扩展测试GOP-15:IBBPBBPBBPBBPBBI,允许 GOP-1 到 GOP-15 甚至更多,支持变比特率(VBR)编码方案。25、H.261 标准CCITT 制定的国际上第一个视频压缩标准,主要用于电视电话和会议电视,1990 年批准。又称为 Px64Kb/s 标准,P=1,2 时支持 QCIF(172x144)。P=6 时支持 CIF(352x288)。核心是运算估值预测和 DCT 编码。26、H.263 标准关于低于 64Kb/s 比特率的窄带通道视频编码建议,其目的是能
18、在现有的电话网上传输活动图像。提供两种编码模式:帧内编码、帧间编码。QCIF 每帧分为若干宏块,每个宏块由 4个 8x8 的亮度块、1 个 8x8 的 Cb 块和 1 个 8x8 的 Cr 块组成,由若干个宏块行组成的块组称为 1 个 GOB,行的数量取决于图像帧的分辨率。QCIF 格式中,1 个 GOB 由一行(11 个)宏块组成,每帧图像由 9 个 GOB 组成。二、学习心得本章内容很重要,估计会有 20 分以上的题目,特别是几种简单压缩算法可能会出应用题。JPEG、MPEG 的算法和概念也可能出名词解释和简答题。第四章 音频信号和声卡一、主要内容1、声音分类:波形声音、语音、音乐2、声音
19、的 3 要素:1)音调:与声音的频率有关。人耳对频率的感觉范围:20Hz-18000Hz 。2)音强:描述声音的强弱,体现在声音的幅度3)音色:由混入基音的泛音所决定3、采样和量化声音信号是连续的模拟信号,为了使计算机能够进行处理,必须首先对声音在时间轴和幅度两个方面进行离散化。时间轴上的离散化称为采样,采样频率高于信号最高频率的 2 倍。而对幅度的离散化称为量化,可采用线性量化和非线性量化两种方式。对声音波形的采样,就是按采样的频率间隔、不断地获取幅度的量值,使离散的声音波形转变为离散的数字量。4、常见音频文件格式wav、au、aiff、snd、rm、mp3 等。wav 称为波形文件格式,是
20、一种资源交换文件格式(RIFF)。5、声音质量客观质量主要用信噪比 SNR。主观质量常用的有平均意见得分(MOS)。数据语音通信中,分为:广播质量、网络质量、通信质量和合成质量。6、心理声学模型一个基本概念就是听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到,因此可以把这部分信号去掉。听觉阈值的大小随声音频率的改变而改变,各人也不同。另一个概念是听觉掩饰特性,意思是听觉阈值电平是自适应的,即听觉阈值电平会随听到的不同频率的声音而发生变化。7、脉冲编码调制(PCM)概念上最简单、理论上最完善、最早研制成功、使用最为广泛的编码系统,但也是数据量最大的编码系统。8、非线性量化对输入信号
21、进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,这样就可以在满足精度要求的情况下用较少的位数。声音数据还原时,采用相同的规则9、增量调制(DM)是一种预测编码技术。DM 是 PCM 编码的一种变形。PCM 是对每个采样信号的整个幅度进行量化编码,因此它具有对任意波形进行编码的能力。DM 坚实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。有两个缺点:1)斜率过载:增量调制器的输出不能保持跟踪输入信号的快速变化的现象。2)粒状噪声:在输入信号缓慢变化部分,即输入信号与预测信号的差值接近零的区域,增量调制器的输出会出现随机交变的
22、“0”和“1”。解决方法:自适应增量调制 ADM。10、自适应脉冲编码调制(APCM)根据输入信号幅度的均方根值的变化来改变量化增量的一种编码技术。11、差分脉冲编码调制(DPCM)利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。主要思想:根据过去的样本去估算下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。12、自适应差分脉冲编码调制(ADPCM)综合了 APCM 的自适应特性和 DPCM 系统的差分特性,是一种比较好的波形编码。核心思想:1)利用自适应的思想改变量化增量的大小,即用小的量化增量去编码小的
23、差值,使用大的量化增量去编码大的差值。2)使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。13、音频编码标准1)G.711:1972 年通过,速率 64Kb/s,使用 u 律或 A 律的非线性量化技术,主要用于公共电话网中。2)G.722:1988 年通过,使用子带编码 (SBC)方案,分为高低两个子带信号,然后用ADPCM 编码。3)G.723:1996 年通过, “用于多媒体传输的 5.3kb/s 或 6.3kb/s 双速率话音编码”,多脉冲激励最大似然量化算法。4)G.728:1992 年制定,使用基于低时延码本激励线性预测编码算法,16kb/s,公共
24、电话网。5)G.729:1996 年通过,8kb/s 共轭结构代数激励线性预测算法。14、MP3是 MPEG audio Layer3 音频文件的缩写,它是一超级声音文件的压缩方法,具有文件小、音质佳的特点。采用“感官编码技术”,是一种有损压缩方式,但它以极小的声音失真换来较高的压缩比。15、乐器数字接口 MIDIMIDI 是乐器数字接口的英文缩写,是数字音乐/ 电子合成乐器的统一国际标准。16、声卡的功能1)录制、编辑和回放数字声音文件2)控制各声源的音量,并混合在一起,以便数字化3)在记录和回放数字文件时进行压缩和解压缩,以节省存储空间4)采用语音合成技术,能让电脑朗读文件5)MIDI 接
25、口17、语音合成技术主要包括特征提取技术、模式匹配准则和模型训练技术 3 个方面,另外还涉及到语音识别单元的选取。18、二、学习心得本章内容较为重要,估计会有 15 分以上的出题。第五章 光盘存储原理及相关标准一、主要内容1、几种光盘格式和标准CD-DA:数字激光唱盘,即“红皮书标准”CD-ROM:“黄皮书标准”ISO9660:光盘文件交换标准2、CD 盘片结构由保护层、反射激光和铝反射层、刻槽和聚碳脂衬垫组成。3、CD-ROM 驱动器CLV:恒定的线速度CAV:恒定的角速度单倍速光驱的速度:150kb/s4、Video CD 标准又称为“白皮书” ,描述的是一个使用 CD 格式和 MPEG
26、标准的数字电视播放系统。5、DVD数字电视光盘(系统)的缩写。6、光驱应用技术1)True X 技术2)人工智能纠错(AIEC)技术3)自动平衡系统(ABS)4)双动态抗震悬吊系统(DDSS)技术5)数字伺服系统技术二、学习心得光盘部分应该不是本课程重点,记住一些基本概念应该就可以了,估计会有选择题、填空和名词解释。第六章 多媒体计算机软件一、主要内容1、多媒体软件分类5 类:驱动程序、支持多媒体的操作系统或操作环境、多媒体数据库准备软件、多媒体编辑创作软件和多媒体应用软件。3、Windows 环境下视频数据的采集使用 Video for Windows(VFW)来获得视频流AVICap 支持实时的视频流捕获和单帧捕获并提供对视频源的控制。显示视频时提供两种模式:1)预览(Preview)模式:使用 CPU 资源,视频先从捕获硬件传到系统内存,接着采用 GDI 函数在捕获窗中显示。2)叠加(Overlay)模式:使用硬件叠加进行视频显示,叠加视频的显示不经过 VGA 卡,叠加视频的硬件将 VGA 的输出信号与其自身的输出信号合并,形成组合信号显示在监视器上。4、多媒体创作工具分 4 类:1)媒体创建软件工具:建立媒体模型、产生媒体数据2)多媒体节目写作工具:提供不同的编辑、写作方式