1、基于多摄像机视角插值的足球比赛虚拟视角回放摘要:本文提出一种新颖的方法来合成虚拟视角, 通过在一个体育场安装多个摄像头进行采集图像,使得观众可以观看整个真实的足球场景。本文所提出的方法,是通过被选的视角旁的实际摄像机查看插值,从而生成任意视角的图像。在这种方法中,不需要太强调相机的校准,因为我们将摄像机投影几何学运用于插值覆盖。为了避免复杂和不可靠的3D 恢复过程,根据场景的几何属性,对象场景被分割成几个区域。考虑到真实视角之间存在对应关系,因此生成中间视角十分有必要,这个过程是将投影几何学运用到每个区域自动生成的。通过叠加所有区域的中间图像,可以生成整个足球场景的虚拟视角。该方法可以不必强调
2、校准摄像机,也不需要手动调整使其对应匹配。因此,可以很容易地将该方法应用到在一个大范围的动态事件。其中一种应用就是,通过视角合成的算法处理实验结果来观察一场正常足球比赛的回放。这为通过任意一个视角查看整个动态事件提供了一种新方法。关键词:动态事件 多相机 投影几何 足球比赛 视觉插值 虚拟视角合成1 引言信息和通信技术的发展使我们能够欣赏来自世界各地的体育和娱乐活动,除了转播事件外,现今的电视广播也提供了多种视觉效果的娱乐。举个与这些影响相关的例子,视觉系统被 CBS 用于直播第三十五届超级碗。在这个系统中,使用超过 30 个摄像头采集多个视频流。然后,用不同视角的视频图像序列来创建一个 3D
3、 的视觉效果,使得视角在某一暂时固定的时刻可以围绕在对象事件周围。该系统采用简单的视频图像切换的视觉效果,并且计算机基础视觉技术可以提供更具吸引力的视觉效果,如合成任意视角图像的虚拟视角。虚拟现实1,这是一个开创性的项目。在这一领域,要实现这样的虚拟运动的动态场景,需要利用计算机视觉技术,从多个视角重建目标场景中对象的三维模型,随后,将真实图像中的色彩用于合成 3D 模型的纹理;并且使用传统的渲染技术,将会生成带有颜色纹理 3D 模型视觉图像。在一个大的空间中,为动态事件提供视觉效果的技术最近已被提出2、3,它们使球员能够从球员周围的视角查看某个特定领域的球员。在2中,三维物体的形状由一组平面
4、描述,以便有效地合成物体的一种新的视角。在3,一个特殊的 3D 坐标系统,建立在相机的极线几何,用于无需摄像机标定的 3D 模型的重建。在这些方法中,目标区域是在一个大的空间,其中一些球员存在某一局部区域。另外,在足球比赛中的任意视角运动的方法已被提出4。在这种方法中,球员所代表的简化 3D 模型,重建使用多个视角,然后虚拟视角图像的球员被呈现在一个虚拟的体育场。虽然观众可以从任意的角度来观看整个足球场景,但所呈现的体育场并不是一个真正的体育场,而是一个计算机生成的虚拟模型。我们的目标是实现对于一整个体育场的实际体育赛事的虚拟视角合成。整个场景,包括球员、球场和体育场都是一个重建的目标,即对象
5、面积大于以前的方法中描述的1 、3。此外,在虚拟视角中体育场也应该使用采集的场景合成,而不是计算机生成的模型。在本文中,对整个足球的场景的虚拟视角生成,我们提出了一种新奇的方法,在真实的球场使用多个未校准相机。如果不使用 3D 模型,只有相邻相机之间的投影几何是用来合成新的视角图像5 - 7。视觉插值8可以通过实际的摄像头来从任何中间的视角重建整个足球场景。首先,相邻的相机之间的射影几何从图像序列获得。通过叠加所有区域的中间图像,虚拟视角中整个足球场景的整体外观可以更加容易地以一种逼真的方式合成呈现。此外,我们引入了“ 看足球比赛录像点播系统 ”。现有的电视广播只提供预先制作的内容,在生产中手
6、动选择视频摄像机转播体育赛事,这本质上是单向通信。另一方面,互联网有利于广播电台和观众之间的互动交流,内容可以根据观众的需求进行交互修改。如果观众可以选择自己喜欢的视角,他们将从观看这些激动人心的场面中获得极大的乐趣。我们证明了需求系统的视角可以作为互动通信媒体的一个例子。使用所提出的系统,用户可以在观看比赛的同时,自由选择自己的首选视角。他们可以专注于一个特定的球员在特写镜头或可以使用变焦虚拟相机跟踪球运动。本文的结构如下,在第二节中,相关工作的虚拟视角合成,在三种方法中引入了代表性方法。概述所提出的方法是在第三节。第四节解释了如何评估投影几何用于视角插值。随后,在第五节提出将视觉插值技术运
7、用于大型活动的整个场景。第六节展示实验结果,然后在第七节提出关于需求系统的观点。在第八节提出的讨论之后,我们最终在第九节中总结了我们的工作。2 相关工作在计算机视觉领域,从一些实际相机图像合成的虚拟视角图像的技术自 20 世纪 90 年代就已经开始研究9-11。这些技术,称为基于图像的绘制( IBR),可以分为三类,基于模型的方法、基于转换的方法、和采用全光函数的方法。通过使用基于模型的方法,它是能够构建 3D 模型的对象,以生成所需的视角。如前文所述,美国的虚拟现实 1项目,例如电影中采用在任意视角合成以及重建带有彩色纹理的三维模型等。惠勒等12提出了一种利用多视角图像进行三维重建的方法。由
8、这些方法生成的虚拟视角图像的质量取决于3D 模型的准确性。对象周围的大量摄像机或范围内的扫描仪被用来构建一个精确的模型。此外,摄像机标定13 通常需要将图像中的二维坐标与物体空间中相应的三维坐标相关联。由于它是必不可少的测量对象空间中的几个点的 3D 的位置,校准变得困难,特别是在一个大的空间。由于这些原因,这种方法的对象区域一般仅限于几立方米。另一方面,通过使用基于传输的方法,它是能够合成任意的视角图像没有一个明确的3D 模型。塞茨和戴尔14使用变形技术15 合成静态场景之间的一对图像的新观点。陈和威廉姆斯8也提出了一种方法,在中间变量的中间视角的变形率的方法。Avidan 和Shashua
9、 16采用三焦张量图像传输。在这些方法中,密集的原始图像之间的对应关系,需要产生中间视角,对应的往往是根产生的手动或通过光流;因此,目标几乎都是静态图像或稍有不同的图像,如面部表情。最近,Manning 和 Dyer 已经扩展视角变形14刚性物体的平移,即动态视角变形17。Wexler 和 Shashua 提出了一种方法,让运动物体从三个视角沿着直线路径来变换动态视角18。而以上两种方法只涉及转换过程,肖等人已经把变形技术扩展到旋转的情况下,并将其应用于非刚性物体的复杂运动19。所有这些方法计算的运动参数的对象,以插值的移动物体的外观。将这些方法应用到包含复杂运动(例如体育比赛)的多个物体的场
10、景中是不实际的。至于采用全视函数,它描述了所有的辐射能量,通过在空间和时间中的任何点的观察员认为,这可能是从一组样本图像创建新视角。这允许用户任意平移和倾斜的虚拟摄像头,并交互地探索他/她的环境。在其最一般的形式,全视函数是一种七维函数。由于它的高维性,数据压缩或压缩的全视函数是必不可少的。最近,Shum 等人22提出了一种新的基于图像的绘制技术称为同心马赛克虚拟现实应用。他们提出的 3D 全视函数和同心马赛克的压缩算法。这种方法提供了更好的图像质量和较低的计算需求渲染比基于模型的方法。然而,它是不适合大型事件,因为它是不可能的描述所有的辐射能量。在相关的方法,康纳等提出了一种利用分层表示方法
11、实现对图像之间动态合成的方法23。前景对象被表示为具有一个背景的多个层。随后,通过估计的分层模型的参数,生成新的视角图像。在该方法中,在初始帧中的相应区域的近似选择是必要的层表示。层的数目不随时间变化,因此,它不能被施加到一个长的图像序列。另一方面,通过应用所提出的方法,我们可以自动合成的动态区域的虚拟视角图像,并表示在每个帧中的整个足球场景。我们将方法应用于长达几分钟的图像序列。此外,本文采用的视角为内插三视角。3 方法概述图像的任意视角由实时摄像机图像之间的视觉插值所产生。由多个摄像机选择由用户选择的虚拟视角附近的两个或三个摄像机。虚拟视角图像是通过性选择的相机之间的响应。由于我们的目标是
12、在一个大的空间中的动态事件,我们的对象场景分割成动态区域和静态区域,然后在每个区域独立执行视角插值。图 1 处理方法图 1 描述了所提出的方法的概述。我们的做法如下:首先,多个视角之间的投影几何,这是基本的单应矩阵矩阵24和24 ,被用于估计选择某一帧的图像序列。足球场景通过背景减法分为动态和静态区域进行视角插值。根据足球场景的属性,静态区域也可以被划分成几个平面区域。一个是背景区域,它可以近似为一个无限远的平面。其他的区域,如地平面和目标,它可以近似为一组平面。中间的图像是通过每个平面区域对应变换合成。由于背景区域和字段区域被认为是稳定的,它们可以通过人工检测,并且虚拟视觉图像可以预先通过一
13、个中间视角生成。虽然可能无法采集所有的观众的动作,我们并不认为这是一个问题,因为观众的运动不是必要的足球场景表示。如果拍摄的场景光线变化,背景图像可以由每一光照条件下采集的序列产生,这在第 V-B 章节有解释。至于动态区域,视角插值在每一帧都是必要的,因为一个物体的形状或位置是随时间变化的。然而,我们的方法,结合在线和脱机流程为了有效地渲染场景。在脱机过程中,每名球员区域分割和自动标记。标记区域相同的球员在相邻的视角中通过对应变换通信。在线过程,应用基本矩阵获得稠密对应每一个标记的区域以及球形区域。变形技术通过参考摄像机图像生成中间视角图像。如果捕获的场景中球员和球有阴影,中间图像也生成阴影。
14、最后,通过叠加中间图像背景区域和动态区域,我们就完成由用户选择的整个足球场景的虚拟视角。4 投影几何的估计A.基本矩阵两摄像机之间的对极几何的基本矩阵表示(表示为矩阵的下方)F,这是一个 33 矩阵。如果点 P 在三维空间投影到在第一点 P1 和 P2 的第二点,对应的图像点满足如下方程:=0 (1)P1 和 P2 分别为 P1 和 P2 的均匀坐标。F 是一个有 7 个自由度的秩为 2 的均匀矩阵,因此,它可以由至少两个视角中 7 路通信进行非线性计算。考虑到在立体匹配中对应点的搜索,可以减少搜索面积。假设一个点在第一个视角中是已知的,那么第二个视角中的对应点必须位于: lFx(2)其中 L
15、 和 x 分别表示 L 和 x 的齐次坐标。因此,搜索不需要覆盖整个图像平面,并可以限制到极线。在所提出的方法中,采用矩阵获得稠密对应的动态区域。B.单应 在第一个视角中平面图像点与其对应的第二视角中使用单应矩阵 H 的图像点相关,如(3)21spH其中 P1 和 P2 是对应图像点的均匀坐标,是尺度因子。H 是一个带有 8 个自由度的 3 * 3 的矩阵,因此,它可以计算由至少两个对应的两个视角。通过同一图形变换,一个视角中的点决定了另一个视角中的一个点。该方法采用跨层应在静态重新获得致密的对应区域。5 视觉插值A.静态区域在每个区域中的视角插值的方法描述如下。为了简单起见,我们考虑插值两个
16、视角的情况。此方法也可应用于三视角(见第六节)。由于静态区域被认为是很少或根本没有变化随着时间的推移,视角插值实现只有一次在选定的帧中,既不存在球员也不存在球。如果在捕获的图像序列中不包含这样的图像,则可以通过将图像序列的模式值设置为每个像素来构造。因此,不包括动态对象的图像,从而产生每个摄像机。如果捕获的场景有变化的照明,背景图像需要生成的序列中的每一个照明条件。在我们的实验中,我们预先合成的背景图像的图像序列的每 150 帧。1)场域:在足球场景中,地面和球门可以被视为一个平面和一组平面。然后运用到平面单应获得的中间视角生成所需的对应关系。方程(3)产生两个平面视角的像素明智对应。表示地面
17、目标提供密集的通信在这些区域的平面单应矩阵。我们首先生成两个插值图像在相同的虚拟视角使用两个定向对应,从视角 1 到视角 2 和从视角 2 到视角 1,分别。然后,两个扭曲的图像被混合到一个单一的图像。为了扭曲图像,图像的位置和值由图像变形转移,由下列方程描述:(412pap)And(5)12IpaIpI其中 P1 和 P2 是图像中的 I1 和 I2,分别对应点的坐标,和 I(P1)和 I(P2 )图像中的 I1 和 I2,分别对应点的像素值。P 代表插值坐标和 I(P)代表的插值像素值。 定义了分配给各个实际视角的插值权重,如图 2 所示。两个扭曲的图像生成使用上述过程中,它们被混合成一个
18、单一的图像,这是在中间视角的目标图像。在混合这两个图像,如果一个像素的颜色不同于这些图像,在虚拟视角中的相应的像素呈现的颜色的平均值,否则,所呈现的颜色是提取任一实际图像。图 3 给出了实例产生中间图像的场区。图3(a)和(d )显示真正的摄像机图像,和( b)和( c)显示从(a)和(d)的内插图像。的虚拟视角的插值权重的真实视角是 4 至 6(b)和 6 到 4(C)。图 2 图像变形的对应传输图 3 足球场区域实时图像例子2)背景区域:背景被放置在与摄像机的视角位置成距离的区域,这样它可以被看作是一个单一的、无限远的平面。我们从每两个实际的视角合成图像,以便产生马赛克,这是各自的全景图像
19、的背景。在这里,我们假设的背景相邻的观点有重叠的区域。从这些全景图像中提取中间视角图像。我们开始通过单应矩阵组合两个视角的坐标系统,它代表从第一视角到第二视角关于背景的变换。接下来,我们混合的重叠的像素值是这样的,在交界处的像素颜色可以顺利地连接两个背景。拼接图像中的像素值由以下方程给出:(6)1212x12xV1 和 V2 的 I1 和 I2 的像素值,和 X1 和 X2 是左边和右边的重叠区域的坐标,分别为(如图 4 所示)。然后从全景图像中提取每个虚拟视角所需的局部区域。以下的单应矩阵 Hb 然后用于坐标变换来完成背景区域的中间视角。(7)其中 为插值权重,E 为 33 单位矩阵。图 5
20、(a)和(b)举个例子说明真实相机图像中背景区域,以及(c )显示( a)和(b)组成的合成图像。图 5(d)和(e)当前背景图像的中间图像,其内插权重对 d 中的图 6 为 4,对 e 中的图 4 为 6。图 4 图像合成图 5 背景区域实时图像例子B.动态区域动态区域的视角插值方法如下。在这些区域中,随着形状或位置的变化随着时间的推移,视角插值实现为每个帧。该过程分为脱机和在线过程的有效性。在脱机过程中,所有帧的动态区域中提取的减去从原始图像的背面。既不是球员也不是球存在的图像被用作每个相机的背景。如果视角插值被施加到序列中有变化的照明,我们选择一个背景相同的光照条件。动态区域和静态区域的
21、分割有时是困难的。因此,我们提取动态区域的背景减法,不仅使用强度,但也有颜色矢量,它有三个组成部分:红,绿,蓝。它们被认为是相同的像素分配到当前帧图像和背景图像之间的静态区域,而它们在动态区域的像素变化。图5图 6 动态区域提取图 6 显示了背景减法的结果。动态重新为用上述方法大大提。虽然这种分割是必要的应用视角插值,我们不直接解决这个问题。这是因为主要观察本文目的是产生虚拟视角视频效果点重播在动态区域正确提取条件。由于提取的区域通常包含几个球员和一个球,可能还有阴影部分,我们分别处理这些动态对象。如果阴影包含在对象场景中,我们首先分割阴影区域和球员/球区域。几何信息和颜色信息都被用于这种分割
22、。据推测,阴影通常投射在地面上的足球场景。我们发现一个阴影区域的候选人通过接地平面的所有提取的动态区域相邻的两视角矩阵。这种检测基于单应经常包括球员的脚的一部分。因此,我们还使用像素颜色的阴影提取,通过 HSI变换的候选人在每个视角图像。在当前帧图像和背景图像之间的阴影区域的像素的色调几乎是相同的,而它是不同的播放器/球区域。图 7 显示的分割结果,在上面的方法,这是组合方法的几何变换;矩阵变换和颜色变换;HSI 变换,比较的方法只使用单应变换或HSI 变换。很明显,合并的方法在动态区域中对阴影部分和球员/球的处理好于独立处理的方法。分割后,视角插值被分别施加到阴影和球员/球区域。在经典的处理
23、方法中,它是可以通过在一个环境中估计光源,从而在另一个视角中合成的阴影;但是,这需要大量的计算成本。另外,在该方法中,我们可以使用投影几何从参考图像转移主体阴影中间视角图像的阴影区域。因为考虑到阴影被投射在地面上,将单应变换应用到阴影区以及其他区域。阴影区域的中间视角使用的接地平面的单应变换,这在第 V-A 节中有解释。图 7 动态区域分割结果的比较接下来,我们生成的球员/球区域的虚拟视角图像。标记过程被用来分割每个球员和球。随后,利用地平面如图 8 所示的单应得到相应的剪影。这是基于这样的假设,一个球员的脚总是与地面接触。即使玩家的跳跃,在跳跃引起的误差很小;因此,表示地平面的单应矩阵仍然可
24、以找到对应的剪影。然而,由于封闭,有些球员可能没有一一对应。在这种情况下,使用前一帧的分割轮廓来处理球员的分离。如图 9 所示,在封闭的球员的脚的位置是由相邻地平面的单应矩阵计算的观点。然后从边界框(矩形周围的分割球员)的上一帧投射到当前帧。因此,封闭的球员也可以有一个正确的对应。如果在两个视角中检测到封闭,则将球员视为一个大目标。对于在线过程,无论是标记的图像和剪影对应存储在每两个相邻的观点。这就是脱机完成过程。图 8 动态区域对应图 9 覆盖区域对应在线过程使用存储信息,例如,关于选择虚拟视角附近的两个参考视角,标记的图像和对应的轮廓。通过绘制在两个不同的视角,例如视角 1 和视角 2 的
25、极线,使用一个矩阵,我们得到的像素对应的轮廓。在每一个极线,交叉口与边界,如 A1 和 A2,B1 和 B2 图8,首先获得轮廓内的对应关系,该对应关系是通过以下方式获得交点的线性插值。在获得整个轮廓的稠密对应之后,将像素位置和值从视角 1 的源图像中转移,并以相同的方式在图像区域中以图像的方式查看目标图像的 2。然而,视角插值只产生中间视角的图像,其中真正的相机的缩放比是相同的。为了提供自由视角观察的缩放效果,它是必要的控制的 3D 的位置的虚拟相机或它的焦距。由于所提出的方法,它是基于视角插值,不能直接处理的外在和内在的参数,我们处理一个缩放功能扩展或收缩图像。视角插值修改如下方程给出的,
26、而不是(4):(8)1122ffpacapc其中 C1 和 C2 图像 I1 和 I2,分别对应主点坐标,和 F1、F2 1 和 2 相机的焦距,分别。f 表示虚拟摄像机的焦距。这个方程可以通过实际相机的焦距和虚拟相机的焦距的焦距比的扩展和收缩,进行大概的放大或缩小。使用(5)传输像素值。通过混合两个扭曲的图像生成虚拟视角。上述算法适用于每一对轮廓。根据视角的距离合成它们后,所有的球员/ 球区域被覆盖到阴影区域上。这总结了动态区域的视角插值。最后,在背景区域中、其他区域和动态区域进行图像叠加的排序,完成所选择的视角的整个场景的虚拟视角图像。图 10 体育场摄像机布局 6 实验结果在三个足球场中
27、,我们将所提出的方法应用到了实际足球比赛,通过多个摄像机采集多个图像序列;在日本东京的江户川田径体育场、千叶体育场和鹿岛大分的大分体育场。如图 10 所示,在所有的三个体育场的一个侧面放置了一组四个固定摄像机以拍摄罚球区。相邻的相机需要重叠区域的背景图像拼接。采集的视频被转换为 BMP 格式的图像序列,由 720 个 480 像素,24 位的 RGB 彩色图像,然后用于虚拟视角合成。 在这个实验中,我们手动选择 50 对应点的三维位置。图 11 给出了在江户川竞技体育场中足球场景生成的中间图像的一些结果。图11(a)- (d)展示使用真实相机拍摄的图像和其他方法提出的虚拟视角图像。球员的位置和
28、背景的位置逐渐改变取决于虚拟视角的角度,这是由两个真正的相机视角之间的插值权重决定的。例如,虚拟视角(E)是位于一个相对重量的摄像机之间的 1 和 2 位 8。虽然我们的方法涉及到渲染的分离区域,合成的图像出现非常逼真的,由于该区域之间的边界是不可见的。图 12 介绍了从不同角度重建球员。不仅整个场景的全局外观,而且该球员的本身外观可以在很大程度上展示出来。我们也有实验结果的评价。如图 13 可见,该方法适用于计算机生成两视角图像绘制的 OpenGL,那里的四个长方体放置在一个平面上。图 13(c)显示由(a )和(b)内插权重值为 0.5 的方法所生成的合成图像。这个结果是通过叠加虚拟视角图像是平面区域上的虚拟视角图像合成的立方区域。图 13(d)显示由 OpenGL 绘制的图像,与(C)相同的观点。(c )和(d)之间的色差呈现在( e)。尽管在物体的边缘可以看到误差,但合成图像的大部分区域在外观上几乎相同。这一结果表明,该方法表示的对象在正确的位置在中间视角图像具有一定的色差。像素对应错误是导致颜色差异的重要部分。