1、线性回归模型论文回归模型论文一种基于线性回归模型的运动矢量重估算法摘要:针对 H.264/AVC空间分辨率缩减的视频转码,提出一种基于线性回归模型的运动矢量重估计算法。它利用原始视频流的运动矢量与下采样视频流的运动矢量之间的相关性,运用线性回归模型建模,得到下采样视频的运动矢量。仿真实验结果表明:在保持率失真性能的同时,计算复杂度明显降低。 关键词:视频转码;H.264;线形回归模型;运动矢量重估计 A Motion Vector Re-estimation Algorithm based on Linear Regression Model YANG Gao-bo1, XIA Zhong-c
2、hao1, ZHANG Zhao-yang2, WANG Hui-qian1 (1.College of Computer and Communication, Hunan Univ, Changsha, Hunan410082, China; 2.Key Lab of Advanced Display and System Applications, Ministry of Education, Shanghai Univ, Shanghai 200072, China) Abstract: For the spatial resolution reduction of H.264/AVC
3、stream, a motion re-estimation algorithm based on linear regression model is proposed in this paper. It exploits the correlation between the motion vectors of original video stream and those of down-sampled video, which is modelled by linear regression model to obtain the estimated motion vectors. E
4、xperimental results demonstrate that the proposed approach can significantly reduce the computational complexity of the transcoder with only slight sacrifice of visual quality. Key words: video transcoding;H.264/AVC;linear regression model;motion vector re-estimation 随着网络和多媒体通信的发展,不同网络上各种视频信息的交流需求在不
5、断增加。由于网络和终端设备的多样性,编码得到的视频流不一定是最优的。当在具有不同的信道特征的网络上,向具有不同的计算和显示能力的用户终端传输视频流时,必须根据用户环境动态地调整视频流。视频转码通过改变视频的码率和空间分辨率等格式,使经过处理后的视频流满足传输信道和解码器的特殊要求1-2。目前,空间分辨率缩减的转码技术研究已经较多,但大多数是针对 MPEG-x视频流。H.264/AVC 是最新的视频编码标准,它采用了可变分块大小运动估计,多种帧内预测模式以及多参考帧等新特征,具有编码效率高和网络适应性强等优点,正在得到广泛地应用。因此,研究适合于 H.264/AVC视频流的空间分辨率缩减转码技术
6、具有重要的意义。Zhang 等3提出一种下采样后快速模式匹配的算法,能节省转码的时间,但没有处理 84,48,44帧间模式,转码质量不高。Shen 等4 提出了一种新的 R-D模式优化选择算法,能加快转码的速度,却不能保证视频的质量。Cock5等提出一种基于开环转码结构的低复杂度漂移误差补偿技术,但是计算复杂度高。 运动矢量重估计是 H.264/AVC视频空间分辨率缩减转码的关键因素之一。文献已有少量同类的研究,但并不成熟。Shen 等6提出通过对原始视频流的运动矢量进行加权,但没有对运动矢量的误差进行补偿,将可能产生块效应的积累,严重影响视频的质量。Shanableh 等7提出直接利用原始视
7、频流运动矢量的中值或平均值,代替下采样视频流的运动矢量。它具有计算量小的优点,但是当某个块的运动矢量明显不同于周围的块时,将产生较大的误差。 视频转换编码的关键在于充分利用部分解码输入码流过程中易于得到的运动矢量等信息,以降低转码过程的计算量2。考虑到原始视频流的运动矢量与空间分辨率缩减后视频流的运动矢量具有较强的相关性,本文提出了一种基于线性回归模型的运动矢量重估计算法,根据原始视频流的运动矢量得到下采样视频的运动矢量,适合于 H.264空间分辨率缩减的视频转码。 1. 转码器的体系结构 转码器的结构可以分为两类:级联像素域转码结构(CPDT)和 DCT域转码结构(DDT)。相对 DDT结构
8、,CPDT 具有结构灵活,漂移误差小等特点8。本文采用 CPDT实现 H.264视频流的空间分辨率转码,原理框图如图 1所示。转码器由一个解码器和一个编码器级联而成,即先对编码码流进行解码,然后对重建视频帧进行下采样,再重新编码。其中,基于线性回归模型的运动矢量重估计是本文的核心。 对于 H.264编码器,运动估计占用了整个编码过程约 70%的运算量。因此,加快重编码过程的运动估计成为提高转码速度的关键。原始视频流的运动矢量与下采样视频流的运动矢量之间具有很强的相关性,为利用原始视频流的运动矢量加快重编码过程的运动估计提供了可能。此外,大量研究表明:解码得到的宏块编码模式与率失真优化(RDO)
9、算法得到的宏块编码模式的相关性不强,通过原始数据流运动信息确定宏块编码模式计算速度提高较小,而视频质量影响较大9。本文主要针对运动矢量重估计展开研究,宏块编码模式的确定则使用标准的 RDO方法。 图 1 空间分辨率转码结构 Fig.1 Framework of spatial resolution transcoding 视频下采样后的每个块都对应原始视频的一块区域。图 2反应了下采样前后视频流的运动矢量之间的映射关系。其中,B 表示下采样图像的某个分块,R表示该块在原始视频图像对应的区域,该区域由多个具有独立运动矢量的分块组成。H.264 支持 7种帧间预测模式,每种预测模式 i都对应从块
10、Bi到区域 Ri的映射。假设原始视频数据流得到区域 Ri的所有块的运动矢量为vi=(x1,x2,xM),其中 M代表 Ri中块的个数。假设通过 RD优化算法得到块Bi的运动矢量为 yi,则待研究的转码就是要解决如何根据区域 Ri的运动矢量vi得到块 Bi运动矢量 yi的问题。 图 2 下采样图像和原始图像运动适量对应关系 Fig.2 Map of motion vectors between down sampling and original images 3. 运动矢量的合成和修正 基于 H.264转码的运动矢量研究算法一般包含两个步骤:第一,解码原始的压缩数据流,计算出运动矢量的估计值。
11、第二,在一个较小的范围内进行运动矢量的搜索和修正。运动矢量的估计值越准确,有助于减小搜索范围,提高运动矢量修正的效率。 前文提到,原始视频流的运动矢量与下采样视频流的运动矢量有很大的相关性。因此,需要通过一种模型表示这种相关性。文献10将线性回归模型运用在MPEG-4编码端的运动估计过程中,文献11将线性回归模型应用在速率控制方面,都取得了较好的效果。本文提出利用线性回归模型,进行视频转码过程的运动矢量重估计。H.264 有 7种帧间预测模式,需要对每种预测模式分别建立线性回归模型,该模型定义如下: (1) 其中, , , 为未知参数,可以从当前视频序列采集数据对该模型进行训练,得到相应的未知
12、参数,从而支持该视频序列的特征。方法如下: 1) 解码原始的压缩数据流,对其进行下采样。 2) 开始阶段用标准的 H.264编码方式和 R-D优化算法对其进行重编码,保存得到的所有块的运动矢量,按照宏块预测模式对其进行分类。i 表示宏块预测模式,Ni 表示该预测模式的块的个数,它们的运动矢量表示为:yn, n = 1, 2, Ni。 3) 找到 2)中的所有块在原始视频图像中的对应区域,用xmn, m=1,2,M, n=1, 2, Ni表示它们对应的运动矢量。 4) 从上述方法获取的数据 Si=( xmn, yn), m=1,2,M ,n = 1, 2, , Ni 中选取 N组数据 S = (
13、 xmn, yn), m=1,2,M ,n = 1, 2, , M对预测模式为 i的线性回归模型进行训练。 5)将 N组数据对应的 的平均值确定为该预测模式下未知参数的值。 视频的特征会影响 N的取值,而 N值的大小,又会影响运动估计的速度和准确性。通过实验发现:当 N取 8时,能得到较好的实验结果。将数据 S = ( xmn, yn), m=1,2,M ,n = 1, 2, , M ,应用在线性回归模型(1)中可得: (2) 根据式(2)可推导出: (3) (4) (5) 每个线性回归模型的运动矢量都对应两个相互独立的方向,例如: Y = (y1, y2), X = (x1m, x2m),
14、m=1,2,M,= ( ,), m=1,2,M ,该模型对应 2个线性方程,如下所示: (6) 因此,对 7种不同的预测模式及两个相互独立的方向需要分别建立线形回归模型。将求得的参数保存在转码器的缓冲区中,利用线性回归模型,后续帧在B块的运动矢量可以通过以下步骤获取: 1)确定该块的预测模式 i。 2)在原始视频图象中找到该块对应的区域 R,记录该区域各块的运动矢量。3)将得到的运动矢量运用到预测模式为 i的线性回归模型中,求得 B块的运动矢量。 4)通过 1/4像素精度,快速搜索算法来获取最佳运动矢量。 4 实验结果和分析 为了测试本文算法的性能,在以下实验平台进行了仿真实验:Pentium
15、(R) 4 CPU 3.00GHz 2.99GHz,504MB内存的 PC机,程序运行环境:VC+ 6.0。输入视频流采用开源的 H.264/AVC校验模型 JM8.6得到,编码端的主要参数设置如表1所示。 视频测试序列选取 Mother (2) Benchmark:指重编码过程中,仍然按照 H.264编码标准进行 CPDT,但不使用 R-D优化算法;(3)文献7( AMV):利用原始视频流运动矢量的平均值来替代下采样视频流的运动矢量。表 2-4列出了对 3个序列采用 4种转码方法时的 R-D结果和时间开销。可以看出,使用 BestRD方法具有最好的 R-D性能,但同时它的耗时也是最多的。AM
16、V 方法耗时最少,但是 R-D性能却是最差的。本文算法的 R-D性能和时间开销介于二者之间,与理论分析结果一致。 以 Foreman序列为例,图 4给出了分别采用上述 4种方法时的 R-D性能比较,图 5 则是它们的耗时比较。可以看出,本文提出的方法和 Benchmark方法R-D性能相似,接近 BestRD方法,较 AMV方法有明显的提高。同时,耗时只占BestRD方法的 6.40%,Benchmark方法的 8.33%,极大地降低了计算的复杂度。同时,在码率变化时具有较稳定的性能。AMV 方法比本文的方法要快一些,但 R-D性能演示要差很多。总之,本文的方法维持在一个较小的率失真情况下,
17、计算效率有较大的提高。 图 4Foreman 序列 4种转码方法的 R-D性能 Fig.4 R-D Capability Comparison among Four Transcoding Methods of Sequence Foreman 图 5Foreman 序列 4种转码方法的耗时比较图 Fig.5 Comparison of Time Consumption among Four Transcoding Methods of Sequence Foreman 5 结束语 本文提出了一种基于线性回归模型的运动矢量重估计算法,可根据原始视频流的运动矢量得到下采样视频的运动矢量,适合于
18、H.264空间分辨率缩减的视频转码。实验结果证明该算法对视频质量所造成的损失较小,同时显著地减小了转码过程的计算复杂度,有利于实时转码的实现。 参考文献 1 VETRO A, CHRISTOPOULOS C, SUN H F. Video transcoding architectures and techniques: an overview J. IEEE Signal Processing Magazine, 2003, 20(2): 18-29. 2 杨高波,余圣发. 压缩域的 H.264视频转换编码及其关 键技术分析J. 通信学报,2006,27(10): 124-131 YANG
19、Gao-bo, XU Sheng-fa. Video transcoding for H.264 in the compressed domain and key techniques analysisJ. Journal on Communications, 2006, 27(10): 124-131. 3 ZHANG P, LU Y, HUANG Q M, GAO W. Mode mapping method for h.264/avc spatial downscaling transcodingC/ Proc of IEEE International Conference on Im
20、age Processing. Singapore: IEEE Press, 2004,2781-2784. 4 SHEN B, SETHI I K, VASUDEV B. Adaptive motion vector resampling for compressed video downscaling J. IEEE Transactions Circuits and Systems for Video Technology, 1999, 9(6): 929-936. 5 COCK J D, NOTEBAERT S, VERMEIRSCH K, et al, Efficient spati
21、al resolution reduction transcoding for H.264/AVCC/ Proc of IEEE International Conference on Image Processing. San Diego: IEEE Press, 2008:1208-1211. 6 SHEN H F, SUN X Y, WU F, et al. A fast downsizing video transcoder for h.264/avc with rate-distortion optimal mode decisionC/ Proc of IEEE Internati
22、onal Conference on Multimedia&Expo. Toronto: IEEE Press, 2006:2017-2020. 7 SHANABLEH T, GHANBARI M. Heterogeneous video transcoding to lower spatio-temporal resolutions and different encoding formats J. IEEE Transactions on Multimedia, 2000, 2(2): 101-110. 8 XIN J, LIN C W, SUN M T. Digital video tr
23、anscodingJ. Proceedings of the IEEE, 2005, 93(1): 84-97. 9 WANG J, YANG E H, YU X. An efficient motion estimation method for H.264-Based video transcoding with spatial resolution conversionC/ Proc of IEEE International Conference on Multimedia & Expo. Beijing, IEEE Press, 2007:444-447. 10 KIM H S, C
24、HUL L J, TAE P K. Motion estimation method using multiple linear regression modelC/ the International Society for Optical Engineering , San Jose: Society of Photo-Optical Instrumentation Engineers, 1997. 600-607. 11 CHEN Z Z, NGI N K. Rate control for video coder employing adaptive linear regression bits modeling J. Signal Processing: Image Communication, 2007, 22(1): 19-38.