1、图像与视频压缩技术讲义图像与视频压缩技术讲义汪国有汪国有图像识别与人工智能研究所图像识别与人工智能研究所2目目 录录第一章 图像与视频压缩技术概述 .51.1 图像与视频压缩技术概述 .51.1.1 图像与视频定义 .51.2.2 图像与视频压缩的必要性和可能性 .51.2 图像与视频压缩技术的发展过程及应用 .61.2.1 图像与视频压缩技术的发展过程 .61.2.1.1 初期的发展阶段 .61.2.1.2 技术标准化阶段 .61.2.1.3 最新动向 .61.2.2 图像与视频压缩的技术标准 .71.2.2.1 ISO 制定的国际标准 .71.2.2.2 ITU 指定的国际标准 .91.2
2、.2.3 图像与视频压缩标准的新技术 .111.3 参考文献参考文献 .14第二章 图像与视频信息的获取与表示 .152.1 图像与视频表示 .152.1.1 图像数据表示 .152.1.2 视频采样格式 .152.1.2 视频信号制式 .162.2 视频传输格式(数字视频信号标准 ) .172.2.1 CCIR-601 视频信号标准 .172.2.2 CCIR-656 视频信号标准 .202.2.3 ITU-656 与 ITU-60 标准关系 .222.3 MPEG-4 标准视频格式 .272.3.1 MPEG-4 视频采样结构 .272.3.2 MPEG-4 视频传输结构 .28第三章 图
3、像与视频数据压缩编码技术 .303.1 图像与视频压缩概述 .303.1.1 图像与视频压缩基础 .303.1.2 数字压缩技术三个重要指标 .303.2 图像与视频压缩基本技术 .313.2.1 统计编码 .313.2.1.1 信息量和信息熵 .313.2.1.2 Huffman 编码 .313.2.1.3 算术编码 .323.2.1.4 行程编码(RLC) .363.2.2 预测编码预测编码 .363.2.2.1 预测编码基本原理 .363.2.2.2 DPCM 编码原理 .363.2.2.3 最佳线性预测 .363.2.2.4 自适应预测编码 .363.2.2.5 自适应帧间预测 .36
4、33.2.3 变换编码变换编码 .373.2.3.1 变换编码的基本原理 .373.2.3.2 最佳正交变换-KLT 变换 .373.2.3.3 次最佳正交变换-DCT 变换 .383.2.3.4 DWT 变换 .413.2.4 量化编码量化编码 .433.2.5 扫描变换扫描变换 .443.2.5 模型编码模型编码 .44第四章 图像与视频数据压缩编码标准 .454.1 JPEG 静态图像压缩编码标准 .454.1.1 JPEG 文件段格式和段标记 .454.1.2 JPEG 压缩原理 .504.1.2.1 离散余弦变换快速算法 .514.1.2.2 DCT 系数的 ZigZag 重排列 .
5、514.1.2.3 JPEG 的变换系数量化 .514.1.2.4 变换系数编码方法 .524.1.2.5 变换系数霍夫曼编码方法 .534.2 小波图像压缩算法 .574.2.1 EZW 图像压缩算法 .574.2.1.1 离散小波变换(DWT)与图像压缩 .574.2.1.2 嵌入式编码(Embedded Coding) .594.2.1.3 小波系数零树编码 .604.2.1.4 逐次逼近量化 .614.2.1.5 EZW 算法编码例子 .644.2.2 SPIHT 图像压缩算法 .664.2.2.1 SPIHT 算法中一些符合定义 .674.2.2.2 渐进式图像传输 .674.2.2
6、.3 显著系数传输 .684.2.2.4 集合分裂分类算法 .694.2.2.5 SPIHT 编码算法 .704.2.2.6 SPIHT 算法编码的例子 .724.2.2.7 SPIHT 算法 改进措施改进措施 .744.3 动态图像压缩编码标准 .754.3.1 MPEG-1 标准 .754.3.2 MPEG-2 标准 .754.3.3 MPEG-4 标准/H.264 .754.3.3.1 视频数据语法 .754.3.3.2 视频数据流的句法 .1024.3.3.3 视频解码过程 .1024.3.4 AVS 视频标准 .105第五章 压缩编码硬件及软件系统结构 .1065.1 计算与处理硬件
7、系统 .1065.2 图像与视频捕获硬件 .1065.3 图像与视频输出硬件 .10645.4 计算机操作系统软件 .1065.5 图像与视频压缩软件 .1065第一章 图像与视频压缩技术概述1.1 图像与视频压缩技术概述 1.1.1 图像与视频定义图像是客观世界能量或状态以可视化形式在二维平面上的投影。图像是客观世界能量或状态以可视化形式在二维平面上的投影。视频是沿时间轴连续采样得到的图像的有序序列。视频是沿时间轴连续采样得到的图像的有序序列。1.2.2 图像与视频压缩的必要性和可能性必要性:必要性: 数据量大引起了存储容量和传输带宽存在瓶颈数据量大引起了存储容量和传输带宽存在瓶颈需要压缩数
8、字电视信号:数字电视信号:( 1) SIF 格式格式 NTSC 制彩色制彩色 4:4:4 采样视频信号采样视频信号每帧数据量:每帧数据量: 352X240X3=253KB每秒数据量:每秒数据量: 253X30=7.603MB/s一张一张 CD-ROM 存节目时间:存节目时间: 650/7.603/60=1.42 分分( 2) CCR 格式格式 PAL 制彩色制彩色 4:4:4 采样视频信号采样视频信号每帧数据量:每帧数据量: 720X576X3=1.24MB每秒数据量:每秒数据量: 1.24X25=31.3MB/s一张一张 CD-ROM 存节目时间:存节目时间: 650/31.3/60=20.
9、9 秒秒陆地卫星陆地卫星 Landsat-3一幅图数据量:一幅图数据量: 2340 行行 X3240 列列 X7 位位 X4 波段波段 =212MB每天图数据量:每天图数据量: 212MBX30 幅幅 /天天 =6.36Gb可能性:可能性: 信源数据存在极强的相关性信源数据存在极强的相关性多媒体信息存在自然冗余,例如,帧与帧之间的象素具有极大的相关性能够压缩( 1)编码的熵冗余)编码的熵冗余适用范围是信源码字概率分布具有很强的不均匀性适用范围是信源码字概率分布具有很强的不均匀性典型的方法:典型的方法: Huffman 编码、算术编码、行程编码编码、算术编码、行程编码( 2)空域灰度冗余)空域灰
10、度冗余适用范围是空域相邻像素灰度分布具有很强的相关性适用范围是空域相邻像素灰度分布具有很强的相关性典型的方法:预测编码、变换编码(典型的方法:预测编码、变换编码( 3)时域灰度冗余)时域灰度冗余适用范围是时域相邻像素灰度分布具有很强的相关性适用范围是时域相邻像素灰度分布具有很强的相关性典型的方法:运动补偿编码(典型的方法:运动补偿编码( 4)视觉敏感冗余)视觉敏感冗余适用范围是像素灰度的变化不被视觉所察觉适用范围是像素灰度的变化不被视觉所察觉典型的方法:系数量化典型的方法:系数量化3) 图像与视频压缩技术的分类与评价(图像与视频压缩技术的分类与评价( 1)方法分类)方法分类 无损压缩无损压缩
11、: 能无失真恢复原始数据能无失真恢复原始数据有损压缩有损压缩 : 能视觉近无失真恢复原始图像能视觉近无失真恢复原始图像( 2)评价指标)评价指标 衡量数据压缩技术优劣的指标:衡量数据压缩技术优劣的指标:压缩比压缩比 Cr: 原始数据比特数原始数据比特数 /压缩后数据比特数压缩后数据比特数恢复效果恢复效果 : PSNR、主观质量、主观质量处理速度:每秒能完成编解码处理的帧数处理速度:每秒能完成编解码处理的帧数是否可实现:是否可实现:6在限定的体积、功耗、成本和工艺条件下,是否可行在限定的体积、功耗、成本和工艺条件下,是否可行1.2 图像与视频压缩技术的发展过程及应用1.2.1 图像与视频压缩技术
12、的发展过程1.2.1.1初期的发展阶段信息熵保持编码:信息熵保持编码: 无失真,但压缩比低(几倍)无失真,但压缩比低(几倍)视觉保持的编码:视觉保持的编码: 有失真,但压缩比高(几有失真,但压缩比高(几 几十倍)几十倍)1.2.1.2 技术标准化阶段数字视频和图像压缩编码技术的研究,已历经半个世纪,在理论和工程上都取得了很多成果。进入 20 世纪 90 年代,在 ISO 和 ITU 等国际组织的协调下,对视频和图像编码的成果进行了收集、整理、综合和加工,制定了几个通用的压缩编码标准,包括适用于二值图像的JBIG、用于连续灰度和彩色静止图像的 JPEG、用于 64K 视频传输的 H.261、面向
13、 1.5M 数字视频和音频传输及存储的 MPEG-1、面向高品质数字视频和音频传输及存储的 MPEG-2 以及适于低码率视频编码的 H.263。这些标准的算法主要由四类技术混合构成,即运动补偿、正交变换、量化和熵编码,代表了 20 世纪 90 年代中前期视频和图像编码的研究水平。ISO 和和 ITU 组织对视频和图像编码技术研究的成果进行了收集、整理、综合和加工,形成组织对视频和图像编码技术研究的成果进行了收集、整理、综合和加工,形成了面向存储和传输的两大国际标准系列:了面向存储和传输的两大国际标准系列:ISO: JBIG( 10:1) 、 JPEGMPEG-1, MPEG-2 1.5Mbps
14、 2-15MbpsITU: H.261、 H.263 64Kbps 低码率这些标准的算法主要由四类技术混合构成,即运动补偿、正交变换、低码率这些标准的算法主要由四类技术混合构成,即运动补偿、正交变换、量化和熵编码,代表了量化和熵编码,代表了 20 世纪世纪 90 年代中前期视频和图像编码的研究水平。年代中前期视频和图像编码的研究水平。1.2.1.3 最新动向20 世纪 90 年代中后期,Internet 迅猛发展,无线通信也迅速在全球普及,因此人们开始有了在网络上传输视频和图像的愿望,于是视频和图像编码的目标也就从传统的面向存储变为现在的面向传输。在网络上传输视频和图像等多媒体信息除了要解决误
15、码问题之外,最大的挑战在于用户可以获得的带宽在不停地变化。这主要是因为网络的异构性,即各子网的网络资源,包括处理能力、带宽、存储和拥塞控制策略等分布得很不平均,用户通过不同的通信子网传输数据会体验到非常不同的实际传输吞吐量、数据丢失率、传输延迟;另外由于现在的网络没有提供资源预留一类的协议保障,当网络拥塞发生时,多媒体数据流的有效传输带宽会突然降低,影响用户接收多媒体信息的质量和速度,甚至造成无法观看。为了适应网络带宽的变化,可扩展性编码的思想被提了出来。可扩展性编码就是将多媒体数据压缩编码成多个流,其中一个可以独立解码,它称为基本层码流;其它的码流称为增强层,它们不可以单独解码,而只能与基本
16、层和它以前的增强层联合在一起解码,用来提高观看效果。可扩展性编码主要分为时域可扩展性编码、空域可扩展性编码和质量可扩展性编码。在这些策略中,编好的码流可以按层为单位截断,具有一定的网络带宽适应能力。新一代的视听对象编码的国际标准 MPEG-4 中的精细可扩展性(Fine Granular Scalable, FGS)视频编码更提供了完全可扩展的增强层码流,它可以在任何地点截断,具有极强的网络带宽适应能力。后来又提出了渐进的精细可扩展性(Progressive Fine Granular Scalable, PFGS)的编码方案,它保留了 FGS 的所有优良性能,并且把编码效率提高了将近 1dB
17、。最新的静止图像编码国际标准 JPEG2000,它利用小波变换、位平面编码和基于上下文的算术编码等一系列新技术,将图像编码的效率提高了一大步(同等质量下,JPEG2000 的码流尺寸只有 JPEG 的一半),并且提供可扩展性的码流。7在当前的网络时代,视频和图像编码的目标从产生适合存储的固定尺寸的码流发展到产生适合一定的传输码率范围的可扩展性码流,因此,今后的多媒体数据编码必然要支持可扩展性。当然,可扩展性编码现在还是一个很不成熟的领域,与不具有可扩展性的单层编码相比,它的编码效率还是比较低的(例如 FGS 的编码效率比 MPEG-4 非可扩展性编码低 23dB) 。如何将可扩展性编码的效率尽
18、可能地逼近非可扩展性编码,是一个值得继续研究的问题。总的来说,20 世纪世纪 90 年代中后期,年代中后期, Internet 迅猛发展,无线通信也迅速在全球普及。迅猛发展,无线通信也迅速在全球普及。(1) 标准的发展标准的发展JPEG2000( ROI )、 MJPEGMPEG-4(对象编码)(对象编码) 低带宽低带宽 ,主要应用于视频会议主要应用于视频会议H.264 + MPEG-4 AVC= JVT,AVS(2)应用的发展应用的发展视频和图像编码的目标从传统的面向存储变为现在的面向传输,面临的问题是误码问题和视频和图像编码的目标从传统的面向存储变为现在的面向传输,面临的问题是误码问题和带
19、宽变化问题。带宽变化问题。可扩展性编码的方法就是将视频和图像数据压缩编码成多个流,其中一个可以独立解码,可扩展性编码的方法就是将视频和图像数据压缩编码成多个流,其中一个可以独立解码,它称为基本层码流;其它的码流称为增强层,它们不可以单独解码,而只能与基本层和它以前它称为基本层码流;其它的码流称为增强层,它们不可以单独解码,而只能与基本层和它以前的增强层联合在一起解码,用来提高观看效果。的增强层联合在一起解码,用来提高观看效果。可扩展性编码主要分为时域可扩展性编码、空域可扩展性编码和质量可扩展性编码。在这些策略中,编好的码流可以按层为单位截断,具有一定的网络带宽适应能力。1.2.2 图像与视频压
20、缩的技术标准1.2.2.1 ISO制定的国际标准. JPEG 标准JPEG(Joint Photographic Expert Group)小组 1991 年 3 月提出了 ISO CD10918 号建议草案:“多灰度静止图象的数据压缩编码” ,用于连续色调灰度级或彩色图象的压缩标准,采用离散余弦变换、量化、行程与哈夫曼编码等技术,支持几种操作模式,包括无损(压缩比2:1)与各种类型的有损模式(压缩比可达 30:1 且没有明显的品质退化) 。Motion JPEGMotion Video.JBIG 标准JBIG(Joint Bi-level Image Group)是一种无损的二值图象压缩标准
21、。 JBIG 可以支持很高的图象分辨率,常用的文件格式为 17282376 或 23042896,压缩比可达 10:1。虽然 JBIG 是二值图象的编码标准,但是它也可以对含灰度值的图象或彩色图象进行无失真压缩,在这种情况下,JBIG 是对图象的每个比特面作压缩变换。.MPEG 系列标准ISO 于 1992 年制定了运动图象数据压缩编码的标准 ISO CD11172,简称 MPEG(Motion Picture Expert Group)标准,它是视频图象压缩的一个重要标准。MEPG 编码技术的发展十分迅速,从 MPEG-1、MPEG-2 到 MPEG-4,不仅图象质量得到了很大的提高,而且在
22、编码的可伸缩性方面,也有了很大的灵活性。MPEG-1是以 1.5Mbps 的速率传输电视质量的视频信号,其亮度信号的分辨率为 352240,色度信号的分辨率为 180120,每秒 25 或 30 帧。MPEG-1 标准有三个部分组成:MPEG 视频(速率小于 1.5Mbps) 、MPEG 音频(速率为 64.2Kbps 和 19.2Kbps)和 MPEG 系统(视频和音频的同步) 。因此, MPEG-1 涉及的问题是视频/ 音频压缩和多种压缩数据流的复合和同步问题。采用两个基本技术:81)一是基于 1616 子块的运动补偿,可以减少帧序列的时域冗余度;2)二是基于 DCT 的压缩技术,可以减少空域冗余度。设计 MPEG 算法本身面临着一个矛盾:为了满足随机访问的需要,最好对其使用帧内编码,但是,仅靠帧内编码是无法达到在保证画面质量的前提下而满足高压缩比的需要的。因此,MPEG 采取了预测和插值两种帧编码技术。MP