1、 - 1 - 毕业论文文献综述 电子信息工程 多视点视频虚拟视点合成技术综述 摘要 : 随着多视点视频研究的发展,各种多视点视频编码技术的研究都成为热点领域,其中虚拟视点合成技术尤为关键,本文简要概括了多视点视频编码技术的发展历程和虚拟视点合成算法的研究现状,一种高效的虚拟视点插值算法是高质量图像合成的基础。本文重点介绍了几种现在虚拟视点插值算法并做了比较,由比较分析出每种算法的优缺点。 关键词 :多视点视频;视频编码技术;虚拟视点合成; 1 多视点视频编码技术简介 多视点视频 (Multi-view Video)是一种新型的具有 立体感和交互操作功能的视频 ,通过在场景中放置多台摄像机 ,记
2、录下多个视点数据 ,提供给用户以视点选择和场景漫游的交互能力。多视点视频将在自由视点视频、立体电视、立体视频会议、多视点视频点播等数字娱乐领域有着非常广泛的应用前景。随着相机数目的增加 , 多视点视频的数据量也成倍增加。系统的一个挑战就是研究实现一种高效的多路编码传输机制 ,从而对数据进行高效地压缩以便存储和传输视频序列。 多视序列包含同一个场景内多个视点的画面 ,画面之间存在很高的相关性 ,如何消除这些冗余 ,是多视点视频编码的一个重要问题。特别是 ,对于多视点 视频编码来说 ,在消除空间冗余的同时 ,还要消除时间上的冗余。因此 ,多视点视频编码方法包含传统视频编码方法的内容 ,但它比传统编
3、码方法更加复杂。利用视差估计消除多个视点间空间冗余、预测编码以及虚拟视点图像的合成是其中比较重要的技术 1。 2 多视点视频技术研究发展概况 目前视频和音频结合的新型媒体的主要特点是具有交互能力。用户在观看的过程中不再是一个被动的消费者,取而代之的是用户可以通过某种方式进行选择他想观看场景远近和角度 2。它的发展经历了以下历程: (1)最早出现的具有此功能的媒体是在图像处理中,它提供了纹 理的三维模型 (textured three-dimensional models)来实现上述功能,被称为 3D-model2。这种方式的缺点在于需要预先生成物体和场景的三维模型,而且如果要求模型具有相片一样
4、的真实感或者场景是动态改变的话,那么模型的生成是十分困难的。 (2)与此相反,基于图像的合成 (image-based rendering,以下简称 IBR)着重在从图像中生成新的虚拟图像,取代使用三维模型。 IBR 起源于光学函数。函数具有七个参数分别代表了每一条光- 2 - 线的空间位置 (三参数 ),方向 (二参数 ),时间 和波长。然而这个可以表示视觉的公式只具有理论意义。在实际应用中通过忽略一部分参数,如波长,时间或空间位置,或者限定视点的使用数量来使其可行。例如光场 (light field)和全景的拼接和镶嵌。这些方法的特点在于完全不使用场景中物体的几何信息,因此可以把这一类称为
5、基于外观的 IBR。这类方法的缺点在于数据量和数据获取的代价都太大,而且对于交互有严格的限制。 (3)在近几年的研究中, IBR 技术在合成交互场景中的使用十分流行,进而出现了处理视频图像的 VBR(video-based rendering)方法。 VBR 的提法是基于对 IBR 基本概念的拓展。 VBR 是指使用视频数据作为输入,生成动态交互的虚拟环境。然而为了描述运动增加了数倍的必要图像数据,总体数据量的增加是惊人的。完整的 VBR 处理链可以分成以下几部分 :图像获取 /采集,场景的表现 ,编码,传输 /流化,交互的显示 3。 基于上面的讨论,可以看到多视点视频的合成是属于 VBR 方
6、法范畴的,而 VBR 方法的突出特性就是处理链中各个部分相关性很强,特别是采集和合成是两个紧密相关的环节,因此关于 VBR 合成的研究都是基于各自建立的采集环境的。 3 虚拟视点合成算法研究现状 虚拟视点 合成是指依据两个或多个关于同一场景的真实视点图像 ,合成出虚拟视点图像。虚拟视点合成在虚拟现实、多视点视频等领域中有着广泛的应用,目的在于通过现有摄像机摄取的图像合成出更多的视点图像,从而在不增加成本的前提下使可切换的视点增加,切换过程更加平滑,观看起来更加流畅。如图 1 所示将虚拟视点合成技术应用于自由视点视频中 ,可以为观看者提供更多的观察视角 4。 图 1 虚拟视点合成在自由视点视频中
7、的应用 目前虚拟视点合成主要有基于位差预测的视图合成、基于图像拼合的视点合成、基于深度图的视点合成与改进的基于深度图的视点合成。下面就各类视点合成算法原理、优缺点做进一步阐述。 - 3 - ( 1)基于位差预测的视点合成算法 。 为了满足多视点视频中新视点合成的需要 , 提出了一种基于位差估计和补偿插值的视点合成方法 。 实验结果表明 , 当两个摄像机间的基线比较小的时候 , 合成的视图质量和传统 方法相当 , 但合成速度比较快 , 可应用于实时的交互式系统中 。 该算法的原理如下,首先基于块匹配的位差估计,将输入的左右两幅视图分别看成是待合成视图的“前向参考帧”和“后向参考帧”。对待合成视图
8、与参考视图进行分块处理, 接着根据最小均方差准则找出待合成视图中的每一个图像块在两幅参考视图中所对应的最佳位差值 5。根据得到的最佳位差值,就可以依据位差补偿方式进行“帧内插” 来插值完成中间视点图像的合成。 在运动估计中物体的运动矢量的大小非常有限,但在位差估计中对于那些接近摄像机的物体,他们的位差矢量会非常大,由于上 述对位差的估计是在一个固定的搜索区域内进行的,因此有些块的位差估计会出现错误,需要进行调整,否则会产生比较明显的块效应 6。值得注意的是,该算法适用于摄像机之间的基线距离比较小的情况,如果摄像机间的距离比较大,那么此时输入的两幅视图间的变化就不能简单的看成是一种平动了,从而上
9、述的预测位差的方法也就不再适用了。 这种基于位差预测和补偿的视点合成算法依据输入的两个不同视角处的图像,可以合成出基线上任意一点处的视图 7。这种算法绘制视图速度较快,不需预处理,非常适合于实时性监控系统的应用。缺点在于本算法在进行 位差矢量预测的时候只是考虑了亮度成分,没有考虑到色度成分,因此在下一步工作中还应该将色度成分的影响考虑进去。 ( 2) 基于图像拼合的视点合成 本算法将视点插值和基于图像拼合的视点变形技术相结合 ,提出一种中间视合成算法。首先均匀化原始立体图像对 ;然后只对前景对象区域进行视差估计以提高视差匹配的速度和精度 ;接着确定左右视点中的可靠区域 ,根据可靠区域生成过渡中
10、间视点 ;最后 ,采用视点插值结合变形的方法 ,由过渡视合成中间视点 8。实验结果表明合成的中间视点图像质量良好 ,而且合成速度也明显提高。本文算法可用于实时 3D 视频应用的交互式立体显示 ,可以实现任意视点的实时绘制。 ( 3)基于深度图的视点合成 基于深度图的视点合成是指根据已经得到的多视点视频图像及其深度信息,通过虚拟视点合成的方法生成任意中间视点图像的过程。虚拟视点合成可以用于自由视点视频中不同视角间的漫游,从而提供交互式的视频观看体验。也可以用于多视点视频编码,通过合成的虚拟视点图像对实际视点图像进行视差补偿预测,起到大大提高多视点视频压缩编码效率的作用。 基于深度图的视点合成算法
11、通过三维变换将参考图像映射到目标图像坐标系生成虚拟视点图像9。由于目标 图像中的部分像素点在源图像中被遮挡导致合成的虚拟视点图像存在空洞,由源视点- 4 - 向目标视点转换时,物体间的相互遮挡导致合成的虚拟图像存在重叠。 ( 4)改进的基于深度图的视点合成 本算法原理与传统的基于深度图的视点合成算法相同,改进的地方是通过双向视点插值和相邻像素加权插值的方法来弥补传统基于深度图的视点合成算法所造成的图像空洞和图像重叠问题 10。 合成图像的空洞填补 当以源图像作为参考图像合成目标位置的虚拟图像时,如果目标图像中的一部分像素点在源图像中处于被遮挡的状态,那么这些点将不能在虚拟图像中绘制出来, 反映
12、在结果中就是合成视点图像上的空洞。因此,合成的虚拟视点图像中的像素点必须是参考图像中存在的像素点。本算法通过双向视点插值和相邻像素加权插值的方法来填补空洞。双向视点插值的思想来源于由目标视点两侧的源视点分别预测合成目标视点的虚拟视点图像,其产生的空洞正好互补。在使用了双向视点插值方法之后,合成图像上的空洞面积大大减少,但仍然残留一部分空洞。仍然留有空洞的原因是这些像素点在左右两幅源图像中均被遮挡造成的,解决的方法是对空洞进行相邻像素加权插值。 图像重叠的改进 重叠产生的原因是从源视点向目标视点移动后, 物体会相互遮挡。当由视点 1 或视点 2 来合成视点 3 的虚拟视点图像时, A 物体和 B
13、 物体的像素会发生重叠。反映在视点合成的过程中就是进行像素搬移时,参考图像中的多个像素点投影到了目标图像的同一位置。当不同的像素投影到同一位置时,后来的像素覆盖掉先来的像素,此时从视点 3 观察就会发现错误:物体的一部分丢失了。 本文所采用的解决方案为深度大小判断,当发生多个像素点投影到目标图像的同一位置时,选择深度值最小的点,忽略其他点。按此方法处理过后,目标图像上有可能发生像素重叠的点只保留深度值最小的点,即距视点最近的点, 成功解决了投影变换过程中的像素重叠问题。 本算法通过基于深度图的三维变换来进行虚拟视点的合成,将参考图像映射到目标图像坐标系生成虚拟视点图像。针对该算法所存在的合成图
14、像空洞较大且存在像素重叠等问题进行了算法改进。采用了双向视点插值和相邻像素加权插值的方法来填补空洞,使合成图像的质量有了大幅提高。根据深度值大小对造成重叠的像素进行取舍的方法较好的解决了视点合成过程中像素重叠的问题 11。 本算法的不足之处是: 1.在判断造成重叠的像素点深度值大小时,为了保存像素点在源视点的深度值大小,在虚拟视点的合成过程当中 生成了一幅参考深度图像增加了算法代价。另外,进行相邻像素加权插值时算法还有待于进一步优化以降低算法代价。 2.通常情况下每幅图像在被获取时的光照环境不同,引入颜色校正会提高虚拟视点合成的效果。 4 总结 多视点视频可广泛应用于三维电视和任意视点视频等新
15、兴的多媒体业务,其广阔的应用前景对- 5 - 当前的编码和传输技术提出了很大的挑战。多视点视频的提出体现了下一代多媒体应用网络化、交互性和真实感的发展方向。其中, 虚拟视点图像的合成是其中比较重要的技术,也是比较热门的研究方向之一,完美的解决虚拟视点的合成技术难题,既可以实现多视 点视频中视角转化过程中平滑过渡,保证高质量合成虚拟视点图像,同时又可以显著提高多视点视频的编码效率 。 参考文献 1 李淳 ,马力妮 .多视点视频编码技术研究 J.计算机与现化化 ,2009,161(1):105 108. 2 霍俊彦 ,常义林 ,李明 ,马彦 卓 .多 视 点 视 频 编码 的 研 究 现 状 及
16、其 展望 J.通信学报 ,2010,31(5) :113 121. 3 李放 .多视点视频系统中虚拟视点合成算法的研究和实现 D.北京:清华大学 ,2005. 4 陈思利,李鹏程 .一种基于 DIBR的虚拟视点合成算法 J.成都电子机械高等专科学校学报 ,2010,13(1):15 19. 5 宋丽娟 , 霍智勇,朱秀昌 . 基于位差预测的视图合成 D.江苏:南京邮电大学 , 2009. 6 杨海涛 ,常义林 ,霍俊彦等 .应用于多视点视频编码的基于深度特征的图像区域分割与区域视差估计 J.光学学报 ,2008,28(6):1073 1078. 7 吕朝辉 ,袁惇 .基于视差估计的中间视图合成
17、 J.光电子 激光 ,2007,18(7): 855 858. 8 AN Ping ,ZHANG Zhao-yang,LIU Su-xing. Image Mosaic Based View Synthesis for Interactive Stereoscopic DisplayD. Shanghai University, 2008. 9 郁理 ,郭立 ,袁红 星 .基 于 深度 图 像的 视 点绘 制 新 方法 J.中国 科 学院 研 究生 院 学报 ,2010,27(5):638 644. 10刘祥凯,彭强,夏旭 .改进的基于深度图的视点合成算法 D.成都:西南交通大学 ,2008. 11 Mori Y, Fukushima N, Fujii T, et al. View generation with 3D warping using depth information for FTV J . Signal Processing: Image Communication, 2009, 24: 65 72.