1、 本科毕业设计 ( 20 届) 多视点视频编码中的视差估计优化方法研究 所在学院 专业班级 电子信息工程 学生姓名 学号 指导教师 职称 完成日期 年 月 - 1 - 摘 要 对多视点视频编码中的视差估计的各种方法做了较为广泛的介绍,针对传统方法难以可靠估计图像中条纹单一区域中的像素 点视差且精确度低这些问题进行优化,提出一种基于 VC 平台的优化方法,以提高多视点视频编码效率。 优化方案采用 Laws 纹理测量方法分析图像的纹理特征,把图中像素点分类,分别针对对纹理单一区和纹理丰富区各自用合适的方法进行匹配。条纹单一区用分析条纹单一块边缘的灰度值进行相似性的匹配,纹理丰富区域用多级块匹配法获
2、取视差,最终能够获取更准确的视差图,从而降低误匹配产生的概率。 实验最终取得了较理想的实验结果。优化方案利用 Laws 纹理测量方法分析出的纹理特征,其准确率高于其他二阶方法。分别针对纹理单一区和纹理丰富区各自 用合适的方法进行匹配。最终能够获取更准确的视差图,降低误匹配产生的概率。 关键词: 多视点视频编码;视差估计;条纹单一区域;多级块匹配 - 2 - Abstract A variety of disparity estimation methods for multi-view video coding are introduced. It is difficult to get di
3、sparity of less textured pixels, a faster matching speed and a higher degree of accuracy for traditional algorithms. According to these problems, a optimization method based on VC platform is proposed, which can improve the coding efficiency. The optimization method first analysis the degree of laws
4、 texture measures, and then integrate the less textured and similar pixels into an area, then match the achieved area. According to the result of results, we can achieve a dense disparity map with less textured pixels area. The experiment finally achieves an ideal result. The optimization method ana
5、lyze the texture characteristics with the texture measure method, the accuracy of it higer than other second-order method. Matching the single texture area and rich texture with the appropriate method. Finally it can achieve an accurate disparity map. Reduce the mismatch probability. So it is proved
6、 to be feasible. Key Words: multi-view video coding; disparity estimation; less textured; straight line segments matching - 3 - 目 录 1 引言 .1 2 多视点视频 .2 2.1 多视点视频概述 .2 2.2 多视点视频编码 .2 2.2.1 多视点视频编码概述 .2 2.2.2 多视点视频编码体系结构 .2 2.2.3 多视点视频编码关键技术 .3 3 视差估计 .6 3.1 视差的定义 .6 3.2 视差估计概述 .7 3.2 视差估计的约束条件 .7 3.2.
7、1 外极线约束 .7 3.2.2 方向性约束 .7 3.2.3 顺序性约束 .8 3.2.4 唯一性约束 .8 3.3 视差估计算法 .8 3.3.1 传统视差估计算法 .8 3.3.2 新视差估计算法 .9 4 视差估计的优化方法 .12 4.1 总体设计思路 .12 4.2 条纹单一区域的视差估计优化 .13 4.2.1 纹理特征的提取 .13 4.2.2 条纹单一块的获得与匹配 .13 4.2.3 条纹丰富区域的视差图的获得 .14 4.3 实验结果 .14 致 谢 . 错误 !未定义书签。 参考文献 .17 附录 1 科研论文 .19 - 1 - 1 引言 在人们接触自然界的过程中,需
8、要从中获取自然界的信息,这其中有 70%都来自于视觉的摄入。摄像机拍摄的视频以及图像作为人眼功能的延伸,就有了非常重要的意义 1。随着科技的飞速发展,单摄像机拍摄的传统视频已不能满足人们的需求,更加灵活且具有更好交互性的多视点视频开始被越来越多的人重视。视频图像中,无论是物体的运动还是颜色的变化,都非常复杂,尤其是多视点视频。多视点视频所产生的数据 量很大,而提高提高数据压缩效率的关键方法大致有几个方面:视差估计、预测编码、中间视图合成等 2。视差估计是多视点视频编码中几种关键技术之一,也是一个难点问题。立体视频和多视点高效编码压缩的前提在于可靠而准确的视差信息。于是作为提高数据压缩效率的有效
9、方法 视差估计就成为了最需要解决的问题之一。 作为占多视点视频编码 80%工作量的工程,运动和视差估计算法的设计以及模式的选择决定了编码过程的效率。多视点视频所产生的数据量很大,运动和视差估计可以提高数据压缩效率。因此,对视差估计方法的研究十分必要,但要获得可靠 而准确的密集视差十分困难,研究难度也逐渐增大。这从另一方面说明了对视差估计的研究仍有很大的提升空间这也说明了对视差估计的研究仍有很大的提升空间。 视差估计的一些传统方法中,基于特征匹配的方法在早期得到广泛的使用,它只能得到稀疏的视差场而非密集的。最常用的策略 基于区域匹配的方法算法精度较低。基于能量的视差匹配策略主要基于马尔可夫随机场
10、模型 ,这种方法一般能获得较好的效果但是计算量较大且算法很复杂。针对多视点视频编码中,传统的视差估计方法难以可靠估计图像中条纹单一像素点视差、匹配速度慢且精确度低的问题,本文对 传统的视差估计方法进行优化,以提高多视点视频编码效率。 - 2 - 2 多视点视频 2.1 多视点视频概述 多视点视频是由不同视点的多个摄像机从不同视角拍摄同一景,记录下多个视点数据,得到的一组视频信号,是一种有效的 3D 视频表示方法,能够更加生动地再现场景,提供立体感和交互操作功能。它在立体电视、任意视点视频、交融式会议电视、立体视频会议、多视点视频点播、三维电视、远程医学诊疗以及视频监视系统等多媒体业务领域有着非
11、常广泛的应用前景。 2.2 多视点视频编码 2.2.1 多视点视频编码概述 由于多视点视频相比单视点视频而 言,它的数据量是随着摄像机的增加而成倍增加的 , 数据量巨大这一事实已成为制约其得以广泛应用的瓶颈,所以必须有一个高效的编码压缩来保证数据的储存以及传输。研究出这种高效多路的编码传输机制来对数据进行高效地压缩,从而更方便地存储和传输视频序列是十分必要的。为此, ITU-T 和动态图像专家组的联合视频组提出了多视点视频编码这个想法。 多视点视频编码在多视点视频中主要用来将编码进行高效的压缩,它是将来视频通信领域中一项十分重要的技术。目前,根据不同的视频编码框架,多视点视频编码可分为基于小波
12、的多视点视频编码方法和基于 运动补偿加块变换的多视点视频编码方法 3。基于小波的多视点视频编码方法是对已有的小波视频编码的框架进行沿扩,它具有良好的可分级性。儿基于运动补偿加块变换的多视点视频编码方法是对已有的运动补偿加块变换的框架添加新的技术,从而提高多视点视频编码的效率。 2.2.2 多视点视频编码体系结构 多视点视频编码体系结构如图 2-13所示,它的核心部分包括多视点视频编- 3 - 码模块、储存 /传输模块以及解码模块。 视 点 1视 点 2视 点 NN 路 原 始 视 点多 视 点视 频 编 码 器多 视 点视 频 解 码 器储 存 / 传 输视 点 1 视 点 2 视 点 N N
13、 路 恢 复 视 点 多 视 点 视 频 编 码 系 统图 2-1 多视点视频编码体系结构 视频由相机拍摄的 N 个视点组成,将它并行输入多视点视频编码器中,经过编码后生成的单个码流用于储存或者传输,解码端对所输入的码流进行解码,由于不同设备的兼容问题,根据用户的需求复原出一个或者多个视点的视频。 2.2.3 多视点视频编码关键技术 多视点视频含有同一场景内多个视点的画面,画面与画面之间有着很高的关联性,这也就产生了画面间的冗余。消除这些冗余就成了多视点视频编码要重点解决的问题之一。多视点视频编码除了要消除空间上的冗余之外还要消除时间上的冗余。利用视差估计消除多个视点间空间冗余、预测编码以及虚
14、拟视点图像的合成是其中比较 重要的技术 2。 1 中间视合成 多视点视频就是用多个相机从不同方向拍摄同一物体而得到的 ,播放时根据不同的拍摄的位置显示不同角度的图像。“连续的环视”就是从不同的视角获得的 ,当视线在移动的同时,也就产生了产生相对应的显示画面。为得到自然平滑的运动视差效果 ,双眼距离内需要提供超过 10 幅的画面内容,因此,需要使用非常稠密的摄像机来获得多视点视频序列 2。显然不论从设备的价格还是数据的存储 /传输来看,这样系统都是太复杂,实际难以实现的,而中间视合成技术就可以解决这个问题。 在实际的应用中 ,利用图像差值技术使用稍稀 疏的摄像机阵列拍摄该视点的- 4 - 图像序
15、列,将两个相邻摄像机上的视频合成中间视点的图像。这种方法先建立相邻两图像中各像素点的对应关系,通过基于视差的图像插值技术来完成中间视图的合成。 2 视差估计 视差估计就是寻找同一空间景物在不同视点下投影图像的对应点间的关系 ,视差估计越精确 ,所得到的预测图像就越接近原图像 ,残差图像就越小 ,就能得到较高的压缩比 2。 其中,如图 2-22所示,从两个不同视角观察同一三维物体,分别采集此三维物体的图像。对应于三维物体上的同一点,成像平面上所形成的两个相互对应点间的距离就是视差,三维 物体上对应的点到基线 (两个相互对应点的连线 ) 的距离就是深度。 三 维 物 体基 线视点1深 度视 差视点
16、2图 2-2 深度和视差 3 帧间预测编码 多视点视频相比传统的单视点视频而言,它的数据量是随着摄像机的增加而成倍增加的。所以为了便于存储和传输视频序列,必须对这些数据进行高效地压缩。如图 2-32为各视频序列同时联播的编码预测结构 ,各路视频各自独立地进行编码 ,由于没有考虑到视点间的相互关联性 ,所以此方案的编码效率较低。 - 5 - IPPIPPIPPIPPIPP图 2-3 同时联播的预测编码结构 图 2-42在图 2-32基础上进行了改进 ,它利用视差估计来消除不同视点间形成的冗余 ,从而提高了编码效率。首先根据总视点数将多路视频序列划分为几组 ,然后对每组分别进行预测编码。如图 2-
17、42将五个视点的视频序列划分为一组 ,中间视点采用单视点视频编码方法 ,其余的序列除了利用单视点视频编码外 ,还利用中间视点的图像作参考 ,进行视差估计。 IPPIPPIPPIPPIPP图 2-4 改进后的预测编码结构 - 6 - 3 视差估计 立体视频和多视点高效编码压缩的前 提在于可靠而准确的视差信息。于是作为提高数据压缩效率的有效方法 视差估计就成为了最需要解决的问题之一。作为占多视点视频编码 80%工作量的工程,运动和视差估计算法的设计以及模式的选择决定了编码过程的效率。多视点视频所产生的数据量很大,运动和视差估计可以提高数据压缩效率。要获得可靠而准确的密集视差十分困难,研究难度也逐渐增大。这从另一方面说明了对视差估计的研究仍有很大的提升空间这也说明了对视差估计的研究仍有很大的提升空间。 3.1 视差的定义 如图 3-14,为标准配置下双目立体视觉的几何模型和视差的定义 。其中, c和 c 分别是两相机的光心, f 是焦距, B 是基线, Z 是空间中点 P 的深度。视差的定义为:点 P 在两相机中成像的水平坐标的差值 x-x 4。 PZxx fcc B图 3-1 标准配置下双目立体视觉的集合模型