1、本科毕业设计(20届)深度视频预处理方法的设计和实现所在学院专业班级电子信息科学与技术学生姓名学号指导教师职称完成日期年月II摘要【摘要】自由视点视频系统是当前先进视觉媒体模式。深度视频是多视点视频系统中一个非常重要的辅助信息。获取深度视频的主要目的是为了绘制产生虚拟视点。通过深度估计或者通过深度相机得到的深度视频在时间相关性比对应的彩色视频差,因而不能获得良好的压缩性能。为了提高深度视频的编码效率,本文主要提出了一种深度视频的预处理方法。该方法在维持虚拟视点绘制性能的基础上,能提高深度视频序列在时间上的相关性,可以大大地提高编码压缩效率。【关键词】自由视点视频;深度视频;深度估计;预处理;虚
2、拟视点绘制。IIIABSTRACT【ABSTRACT】FREEVIEWPOINTVIDEOSYSTEMISTHEADVANCEDMODEOFVISUALMEDIADEPTHVIDEOISAVERYIMPORTANTSUPPLEMENTARYINFORMATIONINTHEMULTIVIEWVIDEOSYSTEMTHEMAINPURPOSEOFCAPTURINGTHEDEPTHVIDEOISTORENDERTHEVIRTUALVIEWDEPTHVIDEOWHICHISESTIMATEDBYDEPTHESTIMATIONORCAPTUREDBYTHEDEPTHCAMERAISWORSETHANTH
3、ECOLORVIDEOINTEMPORALCORRELATIONTHEREFORE,ITCANNOTACHIEVEGOODCOMPRESSIONPERFORMANCEINORDERTOIMPROVETHECODINGEFFICIENCYOFTHEDEPTHVIDEO,THISPAPERPRESENTSADEPTHVIDEOPREPROCESSINGMETHODTHEMETHODCANGREATLYIMPROVETHECODINGEFFICIENCYANDTHETEMORALCOREELATIONWHILEMAINTAINSBETTERVIRTUALVIEWRENDERINGPERFORMANC
4、E【KEYWORDS】FREEVIEWPOINTVIDEODEPTHVIDEODEPTHESTIMATIONPREPROCESSINGALGORITHMVIRTUALVIEWPOINTRENDERINGIV目录1引言111论文的研究背景112论文研究的意义113深度视频的研究现状214论文的主要研究内容215各章节安排32深度视频介绍421YUV格式简介422深度图的获取423虚拟视点绘制研究5231MVD结构介绍5232虚拟视点绘制基础原理以及基本流程6233基于深度图像的虚拟视点绘制624深度图的特性分析8241理论上深度图特性8242现有深度图特性8243帧差图分析8244最优宏块模式选
5、择分析10245相关系数分析113深度视频平滑处理的方法研究1231空间域平滑处理12311邻域平均法12312低通滤波法12313多图像平均法1332时间域平滑处理1333深度图序列时间空间转换144深度视频预处理1541深度视频预处理算法总体流程1542深度视频预处理具体步骤16V421深度视频的变换算法16422时间平滑算法17423深度视频的逆变换算法195实验结果及结论2151实验结果2152实验总结24参考文献25致谢错误未定义书签。附录2711引言11论文的研究背景随着多媒体技术的不断进步和宽带网络技术的不断发展,人们对多媒体应用的期盼也就越来越高了,传统的二维视频已经无法满足人
6、们日益增长的观看需求。自由视点视频1FVV,FREEVIEWPOINTVIDEO系统是当前先进视觉的媒体模式。FVV系统2能够让人们通过自由选择视点欣赏场景体验到一种身临其境的感觉。所以,这种媒体模式在很多娱乐、交通、教育培训、银行、医疗和文化遗产保护等领域有着非常广阔的应用前景和巨大的市场价值。一般情况下,自由视点视频系统从逻辑结构上可以分为服务器端和用户端。在服务器端,利用多个相机对同一个场景进行采集得到多路的视频信号,完成多视点视频的压缩编码。多视点视频编码35(MULTIVIEWVIDEOCODINGMVC)是新一代多媒体的技术核心之一,也是现阶段多媒体领域的研究热点之一。压缩后的多视
7、点视频码流通过网络传送到用户端用于自由视频的显示。多视点视频处理和通信系统主要包括多视点视频的采集以及其对应深度信息的获取、编码、网络传输、解码、绘制和显示等部分。由于多视点视频增加了图像中景物的深度信息,在自然场景的表征上就更加具真实感,且可以自由切换其任意视点,具有广泛的应用前景,如应用于任意视点电视,沉浸式电视会议以及视频监视系统等多种正在兴起的媒体业务。因此,当前视频研究领域掀起了多视点视频技术研究热潮,其中有多视点视频的捕获、多视点视频的压缩编码、多视点视频传输以及显示等。由于多视点视频信号是单通道视频信号在空间方面的扩展,随着相机数目的增加,多视点视频信号的数据量也成倍的增加。将视
8、点视频运用到实际系统之中,仅仅依靠网络带宽的提高和存储容量的提升是不太可能的,所以必须对多视点视频信息进行压缩编码6,来缓解其带来的存储和传输压力。况且为了满足多视点视频达到自由切换任意视点的目的,使用户可以切换到原本场景中并不存在的视点,我们必须利用获取深度图来绘制产生虚拟视点。但是通过深度估计或者通过深度相机得到的深度视频在时间相关性比对应的彩色视频差,因此不能获得良好的压缩性能。本课题主要研究深度视频预处理方法并且将原始视频与处理后的深度视频进行编码和虚拟视点绘制,比较该方法对虚拟视点绘制和编码码率的影响。12论文研究的意义下一代多媒体的应用方向将朝着网络化、交互性、真实感的方向发展,多
9、视点视频编码技术作为FTVFREEVIEWPOINTTELEVISION、3DTV78THREEDIMENSIONALTELEVISON等三维视频应用中一个核心技术之一,针对将出现的交互式多媒体应用而提出的,它将解决3D交互视频的压缩、传输和存储等相关的一系列的问题。基于MVD的FVV系统中,深度视频信号一般由服务器端传送给用户端,进而降低用户端的接受设备的生产成本。由于用户端的设备一般都不具备有很强的计算能力,所以深度不适合在用户端通过深度估计9产生。即深度视频需要在服务端采集而得到。深度信息可以通过深度相机采集或者通过深度估计程序来获得。由于深度相机价格比较昂贵,目前的深度视频序列一般都是
10、通过深度估计而得到。2在MVD信号中,从理论上讲,深度视频只需要普通彩色视频的1020的码流就可以获得较高的图像质量。由于通过深度估计或者通过深度相机而得到的深度视频比对应的彩色视频在时间相关性上比较差,因此不能获得很好的压缩性能。很难达到理论上的压缩效果。本文提出的深度视频的预处理算法能在基本维持虚拟视点绘制性能的基础上,能提高深度视频序列在时间上的相关性,可以大大地提高编码压缩效率。13深度视频的研究现状多视点视频由多个摄像机从不同的角度进行拍摄而获得,在显示得时候,可以根据观看者所处的位置显示相应角度的图像,当观看者的头部发生移动时,看到内容也会出现相应的变化,从而得到一种“环视”的效果
11、。为得到自然平滑的运动视差的效果,双眼距离需要提供超过10幅的画面内容。因此,需要使用非常稠密的摄像机来获取多视点视频序列。但是这样系统太复杂,实际很难实现。在实际的应用中,为了让用户在观看得过程中得到不同视点间的切换平滑,我们使用稍微稀疏的摄像机阵列拍摄该视点的视频图像,然后利用深度信息和两个相邻摄像机上的视频在两个真实视点间快速生成一系列虚拟视点。目前,两大国际标准化组织ISO的MPEG和ITU的VCEG组成的联合视频专家组JVT,JOINTVIDEOTEAM制定的FVV标准草案里采用多视点彩色视频和深度视频MVD,MULTIVIEWVIDEOPLUSDEPTH来表示3D场景和实现FVV系
12、统。基于MVD的FVV系统可以采用基于深度的绘制技术把有限个实际视点视频扩展到无限个虚拟视点,实现视点间的平滑过渡。在基于MVD的FVV系统中,由于深度多视点数据的数据量和相机的数量正比。与单通道视频信号相比,MVD有着非常大的数据量。因而,多视点视频的压缩编码是一项关键技术,直接影响到FVV信号能否进入到实际应用领域。在基于MVD的FVV系统中,深度视频信号一般由服务器端传送给用户端,进而降低用户端的接受设备的生产成本。因为,用户端的设备一般不具备很强的计算能力,深度不适合在用户端通过深度估计产生。即深度视频需要在服务端采集得到。深度信息可以通过深度相机采集或者通过深度估计程序来获得。由于深
13、度相机价格昂贵,目前深度视频序列一般是通过深度估计而得到。在MVD信号中,从理论上讲,深度视频只需要普通彩色视频的1020的码流就可以获得较高的图像质量。但是,通过深度估计或者通过深度相机而得到的深度视频在时间相关性比对应彩色视频差,因而不能获得很好的压缩性能。很难达到理论上的压缩效果,因此深度视频需要考虑时间上相关性的影响。本课题研究的是关于深度视频预处理的设计与实现。基于深度图的虚拟视点绘制技术也成为当前研究的热点问题。在2007年以前,MPEG主要研究视差信息,由于视差存在的局限性,深度信息开始被人们关注,现阶段是MPEG组织的主要研究方向。国外研究深度主要有NAGOYA大学、GIST研
14、究所、PHILIPS公司等研究机构。国内如清华大学、西安电子科技大学、宁波大学以及华为等一些机构在研究,还做出了不错的贡献。基于深度信息在虚拟视点生成上的重要地位,有关深度信息的研究必将是热门领域。14论文的主要研究内容1、深度视频是多视点视频系统中非常重要的辅助信息,了解深度图的特性及深度信号的获取。深度图可以通过深度相机或深度估计算法计算得到,现阶段主要通过深度估计来获取深度信息。由于3通过深度估计得到的深度视频在时间相关性上比对应的彩色视频差,因而不能获得较好的压缩性能,所以本文提出了一种深度视频预处理的方法。在自由视点视频系统中,深度信息被传输到电视终端用以辅助任意角度虚拟视点图像的生
15、成探讨。本文研究了虚拟视点绘制的基础原理及基本流程以及用深度的虚拟视点绘制技术绘制了虚拟的视点,并且得到相关的实验结果。2、对深度视频进行预处理。通过变换把彩色视频和深度视频的信息重组为新的彩色视频序列和深度序列。新的序列中一帧中为原始序列中各帧中同一行像素按照时间顺序组合而成。结合重组后的彩色视频,依次对重组后的深度序列的每列像素进行平滑处理。平滑处理后再重建为深度序列。3、完成原始深度视频和预处理后深度视频的编码实验,对实验结果进行分析,通过对比较码流和虚拟视点绘制的质量来衡量所采用的预处理进行评测。文中列出了利用原始深度视频和预处理后的深度视频绘制的虚拟视点相对原始视点PSNR,以及两种
16、对比情况。可看出,Y分量的PSNR的上升在004007之间。在深度视频压缩效率方面,本文所提出的算法能节约4163562的码率。15各章节安排本文主要介绍了深度视频的预处理算法对深度视频的压缩效率和虚拟视点的绘制影响。在本章,我们已经对深度视频有了一定的了解,那么在第二章,我们将介绍深度视频的特性,首先介绍了YUV格式,然后怎样获取深度图,第三部分是虚拟视点的绘制介绍,最后从3个角度对深度图的特性进行分析研究,说明为什么要对其进行预处理。第三章,我们将介绍几种深度视频平滑处理的方法,并比较它们各自的优劣。第四章,详细的说明本设计所采用的预处理方法,分步骤的解释该方法。第五章,分析采用上一章提出
17、的预处理方法后得出的数据,说明该方法的有效性,并得出结论。42深度视频介绍深度视频是多视点视频系统中非常重要的辅助信息,了解深度图的特性及深度信号的获取,深度图可以通过深度相机进行获取,也可以通过深度估计算法计算得到,现阶段主要通过深度估计算法来获取深度信息。在自由视点视频系统中,深度信息被传输到电视终端用以辅助任意角度虚拟视点图像的生成探讨。本文研究了虚拟视点绘制的基础原理及基本流程以及用深度的虚拟视点绘制技术绘制了虚拟的视点,并且得到相关的实验结果。21YUV格式简介本文所用彩色视频序列,深度视频序均为YUV格式。其中的Y,U,V几个字母不是英文单词的组合词,“Y”表示明亮度,也就是灰阶值
18、;而“U”和“V”表示的则是色度,作用是描述影像色彩及饱和度,用于指定像素的颜色。“亮度”是透过RGB输入信号来进行建立的,其方法是将RGB信号的一些特定部分叠加到一起。“色度”则事定义了颜色的两个方面即色调与饱和度,分别用RC和BC来表示。RC反映的是RGB输入信号红色部分与RGB信号亮度值之间的差异,BC反映的是RGB输入信号蓝色部分与RGB信号亮度值之同的差异。YUV主要是用来优化彩色视频信号的传输。与RGB视频信号传输相比,它最大的优点在于只需占用极少的频宽(RGB要求三个独立的视频信号同时传输)。采用YUV色彩空间的重要性是它的亮度信号Y和色度信号U、V是分离的。如果只有Y信号分量没
19、有U、V分量的话,这样表示的图像就是黑白灰度图像。彩色电视采用了YUV空间是为了用亮度信号Y解决彩色电视机与黑白电视机的兼容问题,使黑白电视机也能接收彩色电视信号。YUV的主要采样格式有RBCYC420、RBCYC422、RBCYC411和RBCYC444。这里的比例的意义为例如RBCYC411,其含义为每一个点保存一个8BIT的亮度值Y值,每2X2个点保存一个RC和BC值,图像在肉眼中感觉不会起很大变化。所以,原来用RGBR,G,B都是8BITUNSIGNED模型,1个点需要8X324BITS,(全采样后,YUV仍各占8BIT)。按411采样后,而现在平均仅需要88/48/412BITS(4
20、个点,84(Y)8U8V48BITS),平均每个点就占12BITS。这样就把图像的数据压缩了一半。当然上边仅给出了理论上的示例,在实际数据存储中是有可能是不同的。22深度图的获取深度视频9是多视点视频系统中非常重要的辅助信息,深度图的最终目的是用来合成中间图像的,所以研究深度图的特性10对于如何在保证虚拟视点质量的条件下提高绘制速度方面有着重要意义。深度图可以通过深度相机进行获取,也可以通过深度估计软件计算得到。为了推广应用和降低成本,用于虚拟视点图像绘制的深度信息不适合在接收端通过深度估计产生,需要在发送端通过采集或者估计然后编码传送给接收端。5通过深度相机来获取的深度图11,存在着一定的制
21、约,因此深度相机并不能获取信息;同时深度相机的采集距离在110米之内,所以不能应用于户外场景的采集;除此之外,由于价格等因素,现阶段无法商用化。现阶段主要通过深度估计12算法来获取深度信息,对于平行相机,可直接采用视差估计算法获取视点间的视差,然后通过视差与深度的转换关系获取深度图。对于汇聚相机则存在两种方案一种方案是首先通过几何归正算法变换到平行相机所对应的图像,然后在采用视差估计算法得到平行视差图,利用平行相机情况下视差与深度的转换关系,得到平行深度图,进行去归正化后得到所需深度图;另一种方案是不进行归正,直接进行搜索匹配,根据得到的对应点关系采用3DWARPING公式转换为深度图,低深度
22、相机的成本是这方面努力的主要方向。通过深度估计算法来得到深度图,目前仍然存在着计算量大、效果达不到应用要求等问题,因此,需要提出一个满足应用需求的深度估计算法。另外,目前的深度估计算法仅适用于一维相机情况,因此,需要考虑不同的相机配置情况下,深度估计的问题。现阶段MPEG组织的主要目光就是集中在深度获取上。23虚拟视点绘制研究本文首先对深度信息进行了预处理,在降低编码码率的同时,能否完成有效的虚拟视点绘制,满足所要求的虚拟视点质量,也是衡量本次设计实际意义的一个重要指标。基于深度绘制1315在基于深度的绘制方法中因为深度图获取以及虚拟视点的绘制方案比视差获取和基于视差的绘制要复杂,所以深度图的
23、获取都处在服务端,而将虚拟视点的绘制处在客户端。下面对MVD结构,以及常用的基于DIBR技术虚拟视点绘制方法进行研究,并采用合理的方法利用本次设计所完成的预处理后的深度图像进行虚拟视点绘制,并与预处理前进行比较。231MVD结构介绍FVV系统中采用的是基于多个视点多个深度图(MULTIVIEWVIDEOPLUSDEPTH,MVD)的场景表述方式,可满足用户从任意角度选择和操作视听对象的需求。相对于其他基于图像以及光线空间等场景表述方式,MVD场景表述方式具有虚拟视点绘制质量好,灵活性好以及兼容性高的特点。基于MVD场景表述方式的自由视点视频系统一般包括多视点采集,深度图获取,多视点编码,深度图
24、编码,网络传输,视点和深度序列的解码,虚拟视点绘制和显示等几部分组成。多视点采集,多视点视频编码,以及显示等部分,在欧盟三维音视频(THREEDIMENSIONALAUDIOANDVIDEO,3DAV)系统框架,以及基于光线空间的场景表述方式的系统中都进行了研究,并有了一定的成果。而深度图16获取,深度图编码以及虚拟视点绘制等技术,是基于MVD场景表述模式的自由视点视频框架下所特有的技术。基于MVD场景表述方式的自由视点视频系统中,采用了基于深度的虚拟视点绘制DIBR,DEPTHIMAGEBASEDRENDERING技术来产生用户需要视点图像。在该技术中将深度图作为参数,利用已知的相机空间几何
25、参数、成像参数和视点图像,通过三维变换3DWARPING方程来绘制出另一个视点的图像。同时采用后处理方式来进行空洞的填补以及噪声的去除。6MVD是3DTV系统和FTV系统中的核心数据格式,该数据格式的3D信息表达方法可用于多视角的自由立体显示,特别是对于视角范围较宽、深度层次丰富的场景都能很完整地给出视频信息。由于包含了深度信息,可以利用DIBR方法等提高绘制效率,具有虚拟视点绘制质量高、绘制视角广特点,具有很好的显示质量,也便于生成其它视点视频信号。232虚拟视点绘制基础原理以及基本流程虚拟视点图像绘制质量好坏以及绘制速度对于自由视点电视系统的性能是很重要的要素。基于深度图像的绘制是自由视点
26、电视系统的一种关键技术之一,它是利用参考视点的彩色图像以及该视点所对应的深度图像生成虚拟视点图像。在DIBR方法里面,首先利用深度信息将参考视点彩色图像上的所有像素点重投影到实际三维空间,然后再将这些三维空间中的点投影到目标图像平面即虚拟视点图像平面。这个从二维到三维的重投影及从三维再到二维的投影称为3DWARPING17。经过3DWARPING之后产生的虚拟视点图像还存在着大量的空洞,为了有效地进行空洞的填充,所以需要采用图像融合与插值技术,采用必要的后处理技术可以有效地提高绘制质量。本章主要介绍了绘制的一个基本流程。具体过程如图21所示。图21绘制的总流程图233基于深度图像的虚拟视点绘制
27、根据所采用的虚拟视点插值技术不同将自由视点视频系统分为以下2类系统基于模型绘制MODELBASEDRENDERING,MBR的虚拟视点视频系统和基于图像绘制IMAGEBASEDRENDERING,IBR的虚拟视点视频系统。基于图像的绘制是近十年来新兴的一门学科,它是从一系列已知的参考图像出发生成新视点图像。与传统的绘制技术相比,它具有不需要复杂的3维场景建模、绘制速度快、既能用于合成场景,又能用于真实场景、对计算机要求不高等优点。但是单纯利用已知图像生成新视点图像,其所需处理的图像数据是非常庞大的。它往细了分,又可以分成基于光线空间的绘制,基于视差的绘制,基于深度的绘制三种类型。7基于深度图像
28、的绘制是一种利用彩色图像及其对应的深度图像生成新视点图像的方法,其核心是3DIMAGEWARPING方程。DIBR将场景的深度信息引入到IBR中,大大减少了参考图像的数目,是IBR中比较有发展前途的一门技术,其在虚拟现实、军事指挥、建筑业、影视特效、娱乐、医学图像处理等方面有着比较广泛的应用前景。DIBR绘制技术是利用参考图像及其对应的每个像素的深度信息来合成场景中虚拟视点的过程。在DIBR方法中,首先利用深度信息将参考视点彩色图像上的所有像素点重投影到实际的三维空间中,然后再将这些三维空间中的点投影到目标图像平面即虚拟视点图像平面上。这个从二维到三维的重投影以及从三维再到二维的投影被称为3D
29、WARPING。经3DWARPING产生的虚拟视点图像存在着大量的空洞,采用必要的后处理技术可以有效地提高绘制质量。图22基于DIBR新视点生成算法框图常用的适用于真实场景的3DIMAGEWARPING方程TAMRAZAMZ121M和M分别是参考图像和目标图像中的像素坐标,Z和Z分别是3维空间点在第1个和第2个摄像机坐标系下的深度值,33矩阵A和A是指第1个和第2个摄像机的内参矩阵,33矩阵R和31矩阵T是指第2个摄像机的旋转矩阵和平移矩阵。深度和视差可以通过公式相互转换,深度相对于视差存在的优势是对于固定的相机其深度值是绝对的,而视差是与相机位置相关的相对值。对于平行相机序列可以通过虚拟视点
30、相机位置与真实视点的相机位置的关系来基于虚拟视点的视差信息,但对于汇聚相机,不能简单的通过线性关系获取视差关系,所以视差不利于汇聚相机序列。同时对于汇聚相机序列视差在水平和垂直两个方向都存在,因此视差图较大,不利于传输。由于深度图相对于视差图的这些优势,MPEG组织将研究方向转向深度。824深度图的特性分析241理论上深度图特性对象深度,即拍摄场景中真实的对象到摄像机之间的距离。理论上,深度图与彩色图相比具有纹理简单的特点。它只在对象边界处产生深度值的跳变,但在对象内部以及背景部分保持平坦。对于相机固定的序列,背景的深度值应该是保证不变的。深度图的时空相关性要大于彩色图的时空相关性。所以,在采
31、用H264压缩标准压缩深度图18和彩色图时,深度图的压缩效率比较高。深度图主要是用于绘制产生虚拟视点。不同的深度图区域对最终的绘制效果影响不同。242现有深度图特性对于现有的深度图19,由于是通过视差估计算法求得的,所以时间相关性被减弱。时间相关性分析主要用帧差以及相关系数来进行说明。在多视点彩色视频20和对应深度视频信号中,深度视频代表对应的彩色视频场景到摄像机成像平面的距离,它将实际距离值量化到0,255。由相机获取或者软件估计的深度视频不是很准确。比如,同一彩色视频序列的不同帧内容不变的区域,这些区域的深度值应当是固定不变的。但是,在对应的深度视频序列中,这些区域的深度值却是变化的。因此
32、,深度视频时间上的相关性比对应彩色视频差,所以很难达到理想的压缩效果。243帧差图分析若拍摄的相机保持不动,则序列背景部分的深度值应该是保持固定不变的。现在分析现有的深度图的几个测试序列,图23为ALTMOABIT和BALLET、BOOKARRIVAL的彩色和深度测试序列的第0,1时刻的图片以及其对应的深度图。其中A和B分别为ALTMOABIT序列的第四个视点的第0和第1彩色帧,C为A和B的亮度分量的帧差图。D和E分别为ALTMOABIT序列的第四个视点的第0和第1时刻深度帧,F为D和E的亮度分量的帧差图。同样,I和L、O和R分别为BALLET的彩色序列帧差、BALLET的深度序列帧差、BOO
33、KARRIVAL的彩色序列帧差和BOOKARRIVAL的深度序列帧差。观察帧差图,在彩色图像的帧差图C、I和O中,其背景部分以及地板等区域变化较小,在帧差图上显现为黑色;而在深度序列帧差图F、L和R中,在背景以及地板等区域显现出大片的白色区域,说明在这些区域深度值产生了变化,理论上该部分区域为静态区域,其深度值应保持不变,由于深度图获取算法的局限性造成了深度图获取时失真。AALTMOABIT彩色序列S7T0BALTMOABIT彩色序列S7T1CALTMOABIT彩色序列帧差9DALTMOABIT深度序列S7T0EALTMOABIT深度序列S7T1FALTMOABIT深度序列帧差GBALLET彩
34、色序列S4T0HBALLET彩色序列S4T1IBALLET彩色序列帧差JBALLET深度序列S4T0KBALLET深度序列S4T1LBALLET深度序列帧差MBOOKARRIVAL彩色序列S7T0NBOOKARRIVAL彩色序列S7T1OBOOKARRIVAL彩色序列帧差10PBOOKARRIVAL深度序列S7T0QBOOKARRIVAL深度序列S7T1RBOOKARRIVAL深度序列帧差图23ALTMOABIT和BALLET、BOOKARRIVAL序列的彩色序列和深度序列帧差比较图深度视频2122在时间轴上的内容和对应的彩色视频进行比较,其具有更多的不一致性。这个特点就直接导致了深度视频序列
35、在时间方向相关性比对应的彩色视频弱。多视点视频中,大多数序列都是时间方向的相关性强于视点间的相关性,主流的多视点视频编码结构也采用了以时间参考为主的预测方式。采用这些编码结构对深度视频进行编码,那么深度视频较弱的时间相关性会大大地影响编码效率。244最优宏块模式选择分析彩色视频和深度视频序列的最优宏块分布也能说明深度视频序列在时间上相关性比较弱的特点。在JMVM中最优宏块模式2324选择中,背景区域宏块,因为其纹理比较简单,内容平坦,一般采用大尺寸的模式进行编码。在图24中给出了BALLET中S0T8中彩色帧和对应的深度帧的最优宏块模式分布图。绿色对应的宏块采用INTER编码模式,红色对应的宏
36、块采用SKIP编码模式,蓝色对应的宏块采用INTRA编码模式进行编码。在彩色视频序列25中,由于背景区域在时间上基本一致,因此这些区域几乎都采用SKIP模式。而在深度视频序列中这些区域中,有大量的宏块采用INTER和INTRA模式进行编码,所以需要消耗更多比特,很难达到理想的压缩性能。11A彩色序列B深度序列图24BALLET彩色和深度序列最优宏块模式对比245相关系数分析为了研究相关性2627方面,进一步比较彩色图序列和深度图序列中某一个背景部分的一些相关系数,如图25所示。这里相关系数R由公式22计算获取/1/11KKIVVINISUKSUVNR22其中VS和KS为标准差,VU和KU为均值
37、。“BALLET”序列中彩色图像和深度图像相关系数均值分别为0995,0979。图25深度图和彩色图像背景区域帧间相关系数比较根据相关系数分析得出的结论也说明了由于视差估计算法的局限性,深度图的相关性减弱。123深度视频平滑处理的方法研究图像在生成和传输过程中会受到各种噪声源的干扰和影响,使图像质量变差。抑制或消除这些噪声而改善图像质量的过程称为图像的平滑。图像平滑的目的是为了消除噪声,以减少目标图像中产生的较大空洞和虚假边缘。图像平滑28主要可以分成时间域和空间域上的平滑处理。31空间域平滑处理图像在生成和传输过程中会受到各种噪声源的干扰和影响,使图像的质量变差。抑制或消除这些噪声而改善图像
38、质量的过程称为图像平滑。图像平滑29目的是为了消除噪声。噪声消除的方法又可以分为空间域或频率域,也可以分为全局处理或局部处理,还可以按线性平滑、非线性平滑和自适应平滑来区分。空间上的平滑处理,通常有邻域平均法、多图像平均法、低通滤波法等。这些处理方式各自有优点比如邻域平均法即通过提高信噪比,取得较好的平滑效果;空间域低通滤波法采用低通滤波的方法来去除噪声;及频率域低通滤波法通过除去其高频分量就能去掉噪声,从而使图像更加平滑。311邻域平均法邻域平均法是一种简单空间域的处理方法。这种方法是利用几个像素灰度的平均值来代替每一个像素的灰度。假设一幅NN像素的图像F(X,Y),平滑处理之后得到一幅图像
39、为G(X,Y)。G(X,Y)由式31来决定SM,NNMFMYXG,1,31其中式中的X,Y0,1,2,N1,S是(X,Y)点邻域中点的坐标集合,其中不包括(X,Y)点,M是集合内坐标点的总数。平滑化的图像G(X,Y)中的每个像素的灰度值均由包含在(X,Y)的预定邻域中的F(X,Y)几个像素的灰度值平均值来决定。邻域平均法的空域思想使算法思想比较简单、清晰;处理结果表明,邻域平均算法对抑制噪声是比较有效的。不过,随着邻域的增大,图像的模糊程度愈加严重。所以为了克服这一个缺点,可以采用阈值法减少由于邻域平均所产生的模糊效应。312低通滤波法这种方法是一种频域的处理方法。在分析图像信号的频率特性时,
40、一幅图像的边缘部分、跳跃部分及颗粒噪声代表的是图像信号的高频分量,大面积的背景区域则是代表图像信号的低频分量。用滤波的方法滤除其高频部分就能够去除噪声,使得图像得到一定平滑。,F,H,GVUVUVU32F(U,V)是含有噪声图像的博里叶变换,G(U,V)是平滑处理之后的图像的傅里叶变换,G(U,V)是传递函数。选择传递函数H(U,V),利用H(U,V)使F(U,V)的高频分量得到一定的衰减,得到G(U,V)后再经反傅里叶变换就可得到所希望的平滑图像G(X,Y)。根据前面的分析,H(U,V)应该具有低通滤波特性,所以这种方法被称之为低通滤波法平13滑化处理。常用的低通滤波器有以下几种理想低通滤波
41、器指数低通滤波器梯形低通滤波器布特沃斯(BUTTERWORTH)低通滤波器313多图像平均法如果一幅图像包含有加性噪声,这些噪声对每个坐标点都是不相关的,并且平均值为零,在这种情况下就可能采用多图像平均法来达到去除噪声的目的。因此,设G(X,Y)为有噪声图像,N(X,Y)为噪声,F(X,Y)为原始图像,可用下式33来表示,YXNYXGYXG33多图像平均法是把一系列有噪声的图像迭加起来,然后再取平均值来达到平滑的目的。取M幅内容相同但含不同噪声的图像,将它们迭加起来,然后做平均计算,如下式(34)所示,11YXGYXGMJIM34由此得出,YXFYXGE35212,YXNMYXG36式中,YX
42、GE是,YXG的数学期望,2,YXG和2YXN是G和N在(X,Y)坐标上的方差。在平均图像中任一点的均方差可由下式得到,1,YXMNYXG37由上二式可得,M增加,像素值的方差就减小,这说明由于平均的结果使得由噪声造成的像素灰度值的偏差变小。从式35中可以看出,当作平均处理的噪声图像数目增加时,其统计平均值就越接近原始无噪声图像。这种方法在实际应用中的最大的因难在于把多幅图配准。图像平滑即消除噪声是图像处理中一个重要的方面,由于图像受到干扰而产生噪声的原因是多方面的,在对一幅图像进行平滑处理前,必须仔细分析其产生噪声的原因。选择合适的平滑方法,才能既消除图像噪声,又不使图像边缘轮廓或线条变得模
43、糊,经过这样处理之后,图像更符合人的视觉特性。这些方法在不同程度上增强了去噪效果,也带来了适用面窄、运算复杂等缺点。32时间域平滑处理由于在多视点视频中,大多数序列都是时间方向的相关性强于视点间的相关性,所以在多视点视频编码中,采用大量的以时间参考为主的预测编码结构。因此,用这些编码结构对深度视频进行编码14时,深度视频在时间上比彩色视频较弱的相关性会大大地影响编码效率。因为深度视频的时间相关性减弱,必须对深度视频在时间轴上进行平滑处理,以便提高深度视频在时间方向上的相关性。33深度图序列时间空间转换对深度视频在时间轴上进行平滑处理,得将其进行时间空间转换。图31是视频序列时间空间转换原理图。
44、对于N帧WH的视频序列,表示为,TYXF,其中T0,1,2,N1;X表示水平方向,X0,1,2,W1;Y表示垂直方向,Y0,1,2,N1。原视频序列经过水平转换之后,视频序列表示为,TXFY,即转换成了H帧WN的序列;原视频序列经过垂直转换后,视频序列表示为,即转换成了W帧HN的序列。经过视频序列时间空间的转换,原视频序列行每列的运动信息得以在转换后的每一帧图像中显现,可以使得视频时间域的处理转化成图像空间域的处理。XYHWT1TT2TN1,YXFT,2YXFT,1YXFNT,1YXFT,TYFX,TXFY图31视频序列时间空间转换原理154深度视频预处理基于之前介绍的深度视频在时间轴上内容和
45、对应彩色视频相比,所具有的不一致性,导致了深度视频序列在时间方向上比对应的彩色视频相关性弱,而且在多视点视频编码中,采用了大量的以时间参考为主的预测编码结构,因此,在利用这些编码结构对深度视频进行编码30时,必须对深度视频进行预处理,以提高深度视频时间上的相关性进而提高编码效率。41深度视频预处理算法总体流程为了提高深度视频的编码效率,需要在深度视频进行编码前进行预处理,增强其时间上的一致性。本文提出的深度视频预处理算法流程如下图41所示。开始彩色视频变换深度视频变换光线空间变换光线空间变换时间平滑处理深度逆变换重建的深度序列结束步骤1步骤2步骤3图41深度预处理总体流程假设要预处理的深度视频
46、序列为D(M,N,K),其对应彩色视频序列为C(M,N,K)。其中,M、N和K分别为水平分辨率竖直分辨率和帧数。具体分为如下三步步骤1、深度视频做变换,MNKMKNDD,彩色视频做变换,MNKMKNCC。步骤2、依次对,MKND中每帧每列的像素进行时间平滑处理,得到,MKND。在处理过程需要利用,MKNC中对应列的信息。16步骤3、深度视频做逆变换,MNKMKNDD。42深度视频预处理具体步骤421深度视频的变换算法对于深度视频,MNKD,具体的变换方法为依次取出序列,MNKD中所有分辨率为MN帧的第I行的M个像素的亮度分量,把取出的K行像素的亮度分量按序组合成为,MKND序列中的分辨率为MK
47、第I帧的亮度分量。其中,MKND的所有的U、V分量都设为128。具体算法流程如下图42所示。开始I1II1J1DM,N,K中第I帧第J行像素Y分量作为DM,K,N中第J帧第I行像素的Y分量;DM,K,N中所有U、V分量设为128;IINCLUDE“MATHH“INTMAINFILEFILE_INPUT1,FILE_OUTPUT1,FILE_INPUT2,FILE_OUTPUT2UNSIGNEDCHARPIC_DEPTH_REORDERED,PIC_COLOR_REORDERED,TEMP_DEPTH,TEMP_COLORUNSIGNEDCHARPIC_DEPTH_TEMP,PIC_COLOR_
48、TEMPPIC_DEPTH_REORDEREDUNSIGNEDCHARMALLOCHEIGHTPICNUMWIDTH3/2SIZEOFUNSIGNEDCHARPIC_COLOR_REORDEREDUNSIGNEDCHARMALLOCHEIGHTPICNUMWIDTH3/2SIZEOFUNSIGNEDCHARTEMP_DEPTHUNSIGNEDCHARMALLOCPICNUMHEIGHTWIDTH3/2SIZEOFUNSIGNEDCHARTEMP_COLORUNSIGNEDCHARMALLOCPICNUMHEIGHTWIDTH3/2SIZEOFUNSIGNEDCHARPIC_DEPTH_TEMP
49、UNSIGNEDCHARMALLOCPICNUMSIZEOFUNSIGNEDCHARPIC_COLOR_TEMPUNSIGNEDCHARMALLOCPICNUMSIZEOFUNSIGNEDCHARINTI,J,KFORI0ITHRESHOLD_1CURSORII1/彩色序列变化LAST_CLASS_ENDII1/找深度序列变化点LAST_CLASS_END1II0WHILEIITHRESHOLD_2/4为出现奇异点的地方ELSECURSORII5/彩色序列和深度序列都发生变化LAST_CLASS_ENDII1/深度视频平滑处理II0OLD_AVER0INTSTARTSTART0WHILEII0PIC_SUM0FORIIISTARTIIIIIIIIPIC_SUMPIC_DEPTH_TEMPIIIPIC_AVERPIC_SUM/IIISTARTFORIIISTARTIIIIIIIIPIC_DEPTH_TEMPIIIPIC_AVERSTARTIII/写回FORI0IPICNUMIPIC_DEPTH_REORDEREDKPICNUMWIDTH3/2IWIDTHJPIC_DE