自然场景下用非标定多路移动摄像机合成新视点视频.doc

上传人:滴答 文档编号:1256527 上传时间:2019-01-19 格式:DOC 页数:11 大小:751KB
下载 相关 举报
自然场景下用非标定多路移动摄像机合成新视点视频.doc_第1页
第1页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、自然场景下用非标定多路移动摄像机合成新视点视频摘要对于绝大多数的常规系统下的单个运动物体的新视点视频合成,被校准的多个的固定的摄像机被使用着。每一个摄像机的视野必须涵盖了一个运动的物体的所有区域。如果面积过大,那么在被捕捉的图像中,又或者在新视点视频中,物体的大小将会变得很小。在本文,我们提出了一个新方法,就是在自然场景下,将一个被未校准的移动摄像机所捕获的运动物体合称为新视点视频。在捕捉时,摄像机可以通过移动和缩放去捕捉只包含有一个运动物体的场景的部分。由两个摄像机定义的三维空间的投影网格空间(PGS),被用作物体形状的重建。我们使用 SIFT 寻找自然场景下的对应,将移动摄像机登记到 PG

2、S 上。这个被进行的实验,是用来给该方法的功效做个示范,新视点视频很成功的在无人操作的多个移动摄像机下进行合成。1 引言新视点图像合成是在一场景中创建一个新颖视点的问题,来自于很多输入的图像,就像他可以从新颖的视点上观看到一样。运用这个技术在电影和广播上,可以制作出有趣的视觉效果。这种研究在计算机视觉上是一种热门话题。在本文,我们提出了一个新的方法,即在自然场景中,用未校准的多个的移动的摄像机,合成新视点视频。没有其他研究表明,该方法之前在这种约束限制下被完成过。在自然场景下,用移动的摄像机的难处是,那里没有对每台动态校准摄像机进行任何的特殊标记表明。我们的方法是,用两台基本的摄像机所定义的三

3、维空间的投影网格空间(PGS),对物体的形状进行重建。在预处理时,每台摄像机的一帧都要弱校准到 PGS 上,所有其他的帧会通过单应性而被自动的注册到 PGS 中。SITF 被用作在自然场景中去寻找对应点,用来估计这些单应性。物体的三位模型之后就会通过剪影轮廓体相交在 PGS 中重建。新视点视频是基于在用 PGS 中的三维模型的密集对应法的视图插值,进行合成的。我们的方法是足够强大的,因此新视点视频可以在预处理后,不用人为的操控去制作他。1.1 相关研究一个对新视点视频的最早的研究是虚拟现实。他们从 50 台摄像机中,通过多基线立体去精确的恢复三位空间的形状。Moezzi et al.也通过恢复

4、从 17 台摄像机得到的剪影图像的全视觉外表的物体,来合成自由视点视频。很多关于提升新视点图像质量的方法已经被提出来。Carranza et al.通过模拟出人的外表的模型,恢复人的动作。然后将多视图轮廓放入图像中,去精确的恢复出来的身子。斯塔克通过立体声和轮廓数据优化表面的网格,并且组合成高精确度的虚拟视图图像。Saito et al.提出了一个结合基于图像和模型优势的描述这个设想。近来为合成自由视点视频,已经在开发实时系统。对于新视点视频,大多数前人的研究都提出了一个用校准的固定的摄像机的系统。造捕捉图像时,摄像机是不能移动或缩放的。假如该物体运动的面积过大,那么被捕捉的图像面积将会变小。

5、合成新视点图像的分辨率和质量,都取决于输入的图像中的物体分辨率。因此,新视点图像中的物体分辨率总是不令人满意。Ito et al.提出一个方法,他将用移动摄像机得到的新视点图像进行合成,以此来试着解决分辨率的问题。通过他们的方法,将能得到高分辨率的新视点图像。但是,他们只在此情况下展现,如由于没有能跟着移动摄像机的特征跟踪点,所以只能在周围有人工标记和明确的背景色的场景。在一些情况下,高分辨率新视点视频被希望作用于没有任何标记的自然场景中,比如说体育或户外活动。本文对于在该环境,提出了一种合成新视点视频的新方法。2 投影网格空间对合成新视点图像来说,重建三维模型需要知道场景中三维坐标和图像帧二

6、维坐标的关系。投影矩阵表示出这种关系可以通过需要 3D-2D 对应的满度校正进行估计。去发现3D-2D 对应点是需要做很多工作的,并且在自然场景中不是那么的适用。投影网格空间(PGS)是一个通过用任意两个摄像机得到的图像对应的三维空间。这两个摄像机被称为基础摄像机 1 和基础摄像机 2。 这个非正交坐标 P-Q-R 用在 PGS中。这个图像标注了基础相机 1 的 x 和 y,对应到 PGS 的 P 和 Q 轴。图像标了基础摄像机 2 的 x,对应到图.1 的 R 轴。图.1 说明了 PGS 是如何定义的。在 PGS 中的三维坐标A(p,q,r )被投影在基础摄像机 1 的图像的坐标 a1(p,

7、q)和基础摄像机 2 的图像坐标 a2(r ,s)上。在图像坐标 x 等于 r 基础上,a2 是 a1 的极线点。图 1. 投影网格空间被 2 个基础摄像机定义。点 A(p,q,r)被预测到分别在第一第二基础上的图像 a1(p ,q)a2 (q,r)上。通过两张图上的基础矩阵,另外一些摄像机可以与 PGS 联系起来。找这些基本矩阵,需要 2D-2D 的一一映射。因此,对于需要 3D-2D 对应的他来说,对满度校正比较是相对简单的。 PGS 中的三维坐标 A(p,q,r)正要被投影到没有基础摄像机 ai,就如图 2 所示的在极线 l1 和 l2 的交集点。图 2. PGS 的点 A(p,q,r)

8、在 a1 极线与 a2 极线相交的 ai 上被预测F1i 和 F2i 是通过从基础摄像机 1 和基础摄像机 2 分别到非基础摄像机的基本矩阵,通过 F1i 和 F2i 的方程,极线 l1 和 l2 就能被计算。3 预处理我们的系统环境由五台像图展示的一样。在大的自然场景下的摄像机组成。我们在预处理时,缩放所有的摄像机,去捕捉没有物体的全景。对于就像 bgi 那样的每台摄像机i,我们称之为背景图像。我们选择摄像机 1 和摄像机 5 作为基础摄像机,去定义 PGS。对于去估算基础摄像机和其他摄像机的基本矩阵的 2D-2D 对应点,他们在预处理时被手动的分配到了 bgi 图像。一旦基本矩阵被估计了,

9、在 PGS 上的三维坐标将会被投影到所有 bgi 图像上。这些图像被用来对背景差分组合虚拟背景,还被用于针对 PGS 的移动相机,这点我们将在下节再说。图.4 显示了是我们实验的背景图像。图 3. 系统配置的顶视图。系统是由五台从不同视点拍摄视频的摄像机组合而成。摄像机 1 和摄像机 5 是用来定义 PGS 的基础相机。图 4. 被所有摄像机捕捉的无物体的全景图像4 注册移动相机到 PGS在捕捉图像时,物体将会在大空间中移动。每一个摄像机都被放大和旋转,去捕捉高分辨率的物体图像。由于摄像机的视点和焦距被改变着,在预处理不再能联系 PGS 中三维位置与二维位置时,基本矩阵已被估算了。我们假设,在

10、操作期间,所有运动的摄像机都能自由放大和旋转,并且不会对位置有很大的改变。因此,可以通过单应矩阵,将在bgi 的二维坐标转换成捕捉摄像机 i 的二维坐标。为了寻找 bgi 与被捕捉的物体图像的候选对应点,我们使用 SIFT(比例不变特征变换)这个方法,来提取可用于执行可靠匹配的图像特征。同时我们也通过单应约束,用RANSAC(随机抽样一致)去除不对应的点。只有偏离很小的值才被用于寻找精确的单应性。作为使用 SIFT 自动发现对应点的列子,则被显示在图 5。图 5. 作为在图像 bgi 和当前摄像机 i 的图像之间的对应点的列子,红色的线显示了正确的对应点,这些将被用作于估算单应性。蓝色的先显示

11、的是偏离很远的值,这些将被通过 RANSAC 移除。SIFT 能很强大的将同一物体而不同规模和二维旋转的一些图像匹配。但是如果匹配的图像之间视角失真,那么匹配的可信度也就下降了。在我们的案例中,两张被捕捉的图像来自大致相同的位置,但不包括变焦和视点方向的改变。没有两张完全一样的图像。无论场景有多复杂,两张图想的二维大致是相似的。因此,SIFT 对于我们系统来说,是十分强大有用的。在 PGS 中,被投影到图像 bgi(xbg,ybg)的三维坐标点 A(p,q,r),在相同相机捕捉时,通过能自动估算每帧的相机 i 的 Hiis 单应矩阵的方程,将映射到点(xcap,ycap)上。5 三维模型的重建

12、对每一帧,运动物体的三维模型进行剪影体相交法进行重建。假如摄像机是静态的,那么背景的场景将会提前被捕捉,所以应用简单的背景减法得到剪影图像时非常简单的。在我们的案例中,移动的摄像机是被用到的,而因为移动摄像机是不能再次捕捉同样轨迹和放大的场景,所以背景图像不能在捕捉物体的之前或者之后被捕捉。我们的方法是,让在自然场景下,用摄像机得到的背景图像自动生成。对于每一帧,从摄像机 i 得到的背景图像都是通过用第四节得到的单应性而扭曲的 bgi 图像,而被组合的。例如在图 6 中用移动相机产生的背景图像。在背景产生了之后,就如图 7 一样,通过背景减法,就能让剪影图像生成。图 6.(a)被捕捉的物体之前

13、的被捕捉的背景。(b)物体图像是用如(a )那样同一摄像机捕捉的,但是经过了旋转和放大。(c)自动的将来自于(a )的背景图像合成,和(b)进行背景减法。图 7. (a)在大面积场景下的背景图像。(b)来自于同一个摄像机捕捉的物体图像,但是视点方向和缩放参数是被改变了的。(c)将来自(a )的背景图像进行变形。(d)将(b)进行图像剪影。在 PGS 中的三维像素,通过在第二节和方程(3)中被描述过的方法,都被映射到每一个剪影图像中。如果摄像机的预测点都成剪影,那么三维像素就被当做是三维模型体积。应用立方体算法,三维体素模型表面就会被提取到三维网格模型中。图.8 显示了再 PGS中,重建模型。图

14、 8. 在 PGS 中人的三维模型。(a )代表了体积 (b)代表了三角网格6 新视点合成新视点图像是通过基于图像描述的方法来合成的。三维三角网格模型是用来制作紧密的对应,以及用来对封闭的参考图像进行测试。基于视图插值法,每一个对应的三角网格都会被扭曲到另一个新的视点图像中。6.1 缓冲区生成为了测试视图之间的阻塞,每一个摄像机的缓冲区都是鉴于三维三角网格模型而产生的。在 PGS 中的所有三角修补程序都映射到每一个缓冲区中,犹如第二节那样。根据摄像机的光学中心主要的摄像机 1,每一个缓冲区的像素都被存储下来,并且(e12x,e12y)是在基础摄像机 2 中的基于基础摄像机 1 的极点。在同样的

15、方式上,基础相机 2 的相机的位置在(e21x,e21y ,C2x ),并且在这个点上,(e21x,e21y )就是在基础摄像机 1 中的基础摄像机 2 的极点,以及(C2x,C2y)是在基础摄像机 2 的图像中心。对于非基础摄像机,PGS 中的三维摄像机的位置是在(e1x,e1y,e2x ),在那里(e1x,e1y)和(e2x,e2y)就分别是基于摄像机 1 和摄像机 2 的极点。图 9. 在映射网格空间中摄像机的位置在 PGS 中,点 a(p1,q1,r1)和点 b(p2,q2,r2)的距离按照下面公式被定义的。6.2 呈现在 PGS 中,每一个三维模型的三角网格都被映射到两个相邻的图像中

16、。缓冲区被用来测试封闭情况。来自摄像机输入焦点的修复距离与存储在缓冲区的值得不同的是,他被被决定封闭掉了。在两个输入视图中,补丁被封闭的情况下,这个补丁将不会被插值在一张新视点图像中。如果从任何一个或者两个输入视图中可以看见补丁,这个补丁将会被变形、合并到另一张新视点图像中去。w 是权重,范围是 0 到 1,该距离是从虚拟视图到第二张参考视图,以此决定在新视点图像中,一个变形过的像素点的位置。(x1,y1)和(x2,y2)分别是第一张参考视图和第二张参考视图的点。为了去合并两张变形了的图像,要对这两张变形的图像,从两个颜色的加权总和计算像素的 RGB 的颜色。如果在两个输入视图中看到一个补丁,

17、用于 RGB 色彩插值的权重与补丁位置的确定是一样的。如果补丁在一个新观点上是封闭的,那么闭塞的观点和其他观点的权重分别为 0 和 1。7 实验结果在本节中,我们将显示我们所提出方法的结果。在我们的实验中,我们用五台分辨率为 720480 的索尼摄像机。这种摄像机的设置就如图.3 显示的一样。所有的摄像机都放在三脚架上。我们的实验室合成人运动的新视点视频。这个实验的环境就如图.4。当人在这个场景上走动,我们旋转、缩放三台非基础相机去捕捉高分辨率的人物图像,与此同时,两台基础摄像机不用从预处理中改变视野方向和缩放大小。在我们预处理的方法上,所有的摄像机包括基础摄像机,可以自由的旋转和缩放。然而,

18、在实验中,图像只捕捉了三个人。图 10 就是一个来自所有五台摄像机拍摄而得到的示例的帧。图.10 输入视频的示例帧。摄像机 1 和摄像机 5 被当做基础摄像机,来定义 PGS。7.1 一张输入帧的新视点图像就像图 10 那样,我们用一张来自输入视频的帧,去合成新视点图像。自由视点图像可以像图 11 那样,被成功的合在一起。一些被扭曲图像的不相应的纹理,会由于三维模型的不精确,而被看到。这是由于使用了唯一形状的剪影而不能避免。在以后的研究中,一些其他的设备可以用来剪影,以提高三维模型的质量。7.2 来自许多输入帧的新视点视频为了测试我们的方法对于注册运动摄像机到 PGS 的实用性,我们将从五台视

19、频输入得到的 118 张连续帧进行合成。在这 118 张帧中,摄像机已经旋转了将近 40 度。我们的方法可以将所有的图像,在无人工操作下,注册到 PGS 中。在图 12 中,从新观视频点中显示了一些帧。五台摄像机的处理时间为,每帧在 CPU 上是 1.60GHZ。而从将相机注册到 PGS,直到产生深度缓冲,大约花费 30 秒。为了提供新视点视频,我们的系统的速度大约是两秒每帧。在图 12 中,我们可以看到脚的一些部位丢失了。这种事情发生的原因是从一些视角上,不完整的剪影造成的。因为我们现在工作在自然场景中,用背景减除法得到一个完整清晰的剪影是很困难的。7.3 与传统系统的比较将我们所提出的方法与传统系统比较,我们用固定的摄像机,像传统的方法一样,在同样地场景下合成新视点视频。所有被固定的摄像机必须被缩小,使得在整个场景的面积中,可以看到物体将像图 4 那样移动。图 13 展示了来自传统系统和来自我们方法的新视点视频的结果。与我们的方法相比,传统系统获得的自由视点图像的物体尺寸要小。如果整个场景和物体的尺寸关系更大,这个不同将更明显。图 11. 相机 3 与相机 4 中的新视点图像。两个视觉之间,比率被写在每幅图的下面。从实际大小的图像中,这些图像被裁剪以显示的更加详细。图 12. 来自于新视点视频的抽样帧。这些图像从实际大小的图像中裁剪下来以显示的更加详细。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。