面向AR的计算机视觉算法.doc_文客久久网wenke99.com

资源描述

1、毕业设计（论文）面向 AR的计算机视觉算法An AR- oriented Computer Vision Algorithm专业：信息与计算科学 - I -摘要增强现实（Augmented Reality , AR）技术是一种新兴计算机视觉技术，通过实时计算虚拟场景信息并与真实场景信息进行叠加，呈现出超越现实场景的感官体验，达到现实与虚拟结合的效果。近年来，AR 吸引了越来越多的关注，虽然已有众多研究得以发表和应用，但 AR 技术的研究和应用仍然是一项具有挑战性的工作，还有很多技术空间和潜在应用场景。在很多 AR 技术实现上，目标跟踪是一项重要的基础技术。跟踪过程主要背景的分割和识别。在真

2、实视频场景中，由于因为影响画面变动的因素很多，背景分割是一件非常有挑战性的任务。背景分割，即从视频的每一帧中分离出背景和前景，往往是分析视频内容，理解视频中的语义的第一步。本文主要利用改进的 MOG 算法在移动设备上进行背景分割，并以此为基础开发了基于目标跟踪的 AR 应用。针对移动设备特有的摄像头抖动，低内存配置和算法实时性等要求，对所使用的背景分割算法做出了合理的调整，具有一定的创新性。本文设计的基于该算法的应用具有互动性和一定的娱乐性，是在手机上进行 AR 应用探索的一次有意义的尝试。关键词：目标跟踪;背景模型;背景减除;增强现实- II -An AR- oriented Compute

3、r Vision AlgorithmAbstractAugmented Reality (AR) technology is an emerging computer vision technology, which combine the virtual information and real world to present a sensory experience that transcends reality. In recent years, AR has attracted more and more attention. Numerous research has been p

4、ublished and applied to industry such as artificial intelligence, graphic simulation, virtual communication. But it is a challenging work in AR research and application all the time, it is still a huge number of technology gap and potential application in Augmented Reality. Target tracking is an imp

5、ortant basic step in many AR technology. The tracing process is mainly achieved by two processes, namely background segmentation and recognition. In practice, some critical situations may appear and disturb this process. Background segmentation, usually the first step in understanding the semantics

6、of video, is to separate the background and foreground regions from each frame of the video. This paper mainly uses an improved MOG algorithm to perform background segmentation on mobile devices, and then realizes an AR application based on target tracking. According to the characters of mobile devi

7、ce, including camera random jitter, low memory configuration and real-time requirement, we made an innovative and reasonable adjustment on background segmentation to get better performance on mobile device. Our AR application based on this algorithm is interactive and entertaining, and it is a meani

8、ngful attempt to carry out AR applications on mobile phones.Keywords: Target Tracking；Background Model； Background Subtraction；Augmented Reality- III -目录摘要 .IAbstract .II1 文献综述.11.1 研究背景及意义.11.2 国内外研究现状.21.2.1 背景分割.21.2.2 视频跟踪.71.3 本文贡献.91.4 本文组织结构.102 背景模型.112.1 基础模型.112.2 统计模型.112.3 簇模型.132.4 神经

9、网络模型.152.5 估计模型.163 基于 openCV 的 MOG 前景识别模型 .193.1 背景减除模型.193.2 MOG1 .193.2.1 背景初始化.203.2.2 前景探测.213.2.3 背景保持.223.2.4 阴影检测.234 Android 平台面向 AR 的应用算法实现 .254.1 功能介绍.254.2 程序实现流程.255 实验结果.285.1 隐身术.285.2 侦查.295.3 现形.29结论.31参考文献.32- IV -致谢.3411 文献综述近些年随着智能手机的普及，智能手机的摄像头，屏幕分辨率，CPU 等配置也越来越高，为 AR 技术火热兴

10、起提供了可能。在许多 AR 应用中，对从摄像头获取的视频进行前景探测和背景前景的分割，往往是智能手机上实现 AR 应用的第一步。有效实时的背景探测，为处理视频并加入增强现实的成分成为可能。因此促使人们寻求更加实时又能保证分割效果的背景探测算法。1.1 研究背景及意义AR 技术（Augmented Reality）又称增强现实技术，是虚拟现实技术的一种。虚拟现实技术又称 VR 技术，依据现实环境，使用计算机构建虚拟环境，部分取代或者全部取代现实环境，并利用一些传感技术，比如基于摄像头的运动追踪或者一些穿戴设备，实现人机交互，达到现实与虚拟结合的效果。虚拟现实技术起源于二十世纪 80 年代，最初应

11、用在军事训练中，用于模拟飞行员在空中的体验，降低训练成本又保证飞行员的安全。目前分为（1）屏幕式，主要应用于游戏产业（2）沉浸式，主要用于模拟训练（3）增强式，主要是手机，电脑等同时使用摄像头和显示屏的应用，旅游业等。iPhone 问世以来，智能手机的功能被重新界定，高分辨率的摄像头，清晰的彩色屏幕，强大的处理器，以及 GPS，无线网络，加速度传感器，气压传感器的配备使得在智能手机上实现 VR 技术成为可能。可以时候，智能手机的快速发展带动了 AR 技术的发展 1。由于是一种新兴技术，目前人们探索的核心技术包括平面图像的识别，物体的三维建模，在计算机中渲染或者模拟变形，视频跟踪和定位等。在 A

12、R 技术的探索和应用都还有很多空白。作为一种以手机为介质的人机交互技术。用户体验也是 AR 应用必须要考虑的方面。友好的用户界面和较短的处理时间，以及互动性的乐趣，都是面向 AR 的计算机视觉应用需要考虑的方面。本文提出的面向 AR 的计算机视觉算法应用，主要基于背景消减算法，是在手机上进行 AR 应用探索的一种尝试。具有互动性和一定的娱乐性。21.2 国内外研究现状1.2.1 背景分割在背景分割中，从画面的每一帧中，分割出背景和前景（目标物体），往往是分析视频内容，理解视频中的语义的第一步，在许多计算机视觉算法中，都是基础性的步骤。从背景中提取目标前景有很多应用，主要包括，（1）在军事工业方

13、面，需要智能视觉监督确保军事基地的安全性，或者获得完整的机场，码头的交通状况，或者学习监测在商店里的客户的行为。（2）在生态工程中，对动物，昆虫的智能视觉观察，来获得动物的习性，迁徙。已有的论文中包括鸟类，鱼，蜜蜂，鹿的观察应用。（3）在游戏产业里，通过固定的摄像头，在游戏中实现实时的人机交互。（4）在视频分析时，通过对从画面中分类出的关键物体进行识别，继而对视频进行编码，从背景中分割出感兴趣的内容并且追踪它。在最近的前景物体探测的文章中，已经可以通过对动态的画面记录建立模型，进行多角度的追踪，实现对缓慢移动的照相机中的内容进行追踪。总之，前景分割是追踪，识别，和行为研究的第一步。图 1.1

14、前景提取的应用：第一列是检测码头的运输情况，第二列是观测鱼类的习性，第三列是进行实时的人机交互理想情况下，背景是没有任何移动物体，没有变化的静止图像。通过比对背景模型和当前画面的不同之处，就能得出前景目标。这是最简单的情况。可是实际上，构3成视频的图像序列往往包含抖动，光照变化，背景移动等情况，就提出需要使背景模型具有对光线的鲁棒性和轻微移动的适应性。Bouwmans 和 Toyama 等人把背景分离会遇到的难点分为 13 类，分别是（1）视频中图像画质差，噪声多，主要由网络摄像机或视频压缩造成（2）摄像机抖动。比如有风吹动摄像机。（3）不同帧之间的颜色层次不同，主要由智能相机自动调整光圈，焦

15、距，白平衡，曝光度等造成（4）照明变化。例如夜间开灯关灯。（5）在图片序列的某些帧，背景被完全遮挡（6）前景物体的伪装，比如因为颜色相近，前景物体容易被归入背景（7）因为前景物体所在区域的探测失误，在该区域内无法找到要标记的物体（8）背景物体的移动。会干扰前景物体探测。（9）背景中随着时间会新出现一些物体，无法实现标记忽略（10）有些背景本身就是动态的，例如河流，树叶，海面等（11）背景中的一些物体刚开始是不动的，随着时间在后续生成的背景中开始运动（12）前景目标本来是运动的，后来又渐渐不动了。（13）有光源的时候，前景物体会投下阴影，但阴影并不是我们感兴趣的部分。 2-3图 1.2 展示了来

16、自背景模型的变化对前景检测的干扰。图 1.2 背景分割的难点：第一行是突然的光照变化（夜间室内），第二行是动态背景（如水面）分割出目标物体主要解决两个问题，一是感兴趣的部分要能够探测出来，即对目标物体的改变的探测。二是要过滤掉不感兴趣的部分，即处理动态背景，光照变化等不重要的变化。前者通过比对计算得到的背景图像和当前图像得到，后者通过圈定感兴趣的区域和使用滤波过滤掉不重要的变化实现。4在实际应用中，除了要处理视频中会遇到的众多难点，还需要达到处理数据的实时性，并且根据设备的限制尽可能采取低内存的方案。因此往往根据要处理的问题，衡量算法的复杂性，实时性，选取合适的模型。常见的分割前景物体的模型，

17、可以根据使用的数学模型分为以下几类：（1）混合高斯模型（2）子空间学习模型（3）模糊模型（4）鲁棒的 PCA 模型。其中，混合高斯模型（MOG）是现在最常见的概率模型，最早由 Stauffer 和Grimson 给出算法框架。子空间学习模型是使用降维的数据作为在线学习的数据内容。最初的方法是由 Oliver 提出的 PCA，基于此的方法包括 SG，MPG，KDE 等方法。模糊方法是为了解决分割的界限不精确和能否成功识别的不确定而提出的。RPCA 是近些年提出的算法。为满足现在对视频处理的需求（主要是在移动设备上使用，和处理背景不是固定的情况），对识别前景物体提出了很多新的策略，例如无参的自动图

18、形选择，分等级的模型选择，还有些先进的模型能满足实时和低内存占用的要求。传统的前景物体探测模型（非机器学习），都不能同时处理全部的视频中的难点。这是因为，首先，这些探测算法是为处理不同的问题而提出的，因此不具有一般的框架。他们的实现步骤和能有效处理的挑战很难有效区分。第二，缺乏科学的研究过程。这些人工算法的主要进展都是在某一个方面。没有一篇调查能够真正说明白这个领域需要探索的问题究竟包含哪些，该怎样划分。第三，缺乏一个有效的数据库用以研究测试这些算法的成果。因为没有一条单独的视频记录，能够真实地反映现实世界拍摄视频会造成的全部有难度的问题。介于此，传统的方法往往是提出一个解决问题的方向，根据理

19、想的视频，处理一些特殊的，容易解决的问题。然后其他作者根据这一算法的不足之处，提出能更好地处理该类问题的方案。或者加入一些新的元素，使其同时能够解决另一种方向的问题。新近的方法则是使用更加精巧的模型，来提升算法的鲁棒性，或者提升算法的效率，达到实时性。提取前景的一般步骤是：（1）初始化视频的 N 帧，获得最初的，不包含移动物体的背景图像。（2）在探测前景的每一帧中，比较背景图像和当前要探测前景物体的帧，标记出前景物体。（3）实时地更新物体背景图像。图 1.3 为提取前景的一般流程示意。5图 1.3 提取背景的一般流程背景模型分为单一的背景模型，和多张的背景模型。一般考虑单张的背景模型。背景初始

20、化经常是在视频开头的图像序列中，找出数张干净的，没有前景物体的帧，作为背景图片。可实际的情况往往并非如此，在拍摄视频的时候，前景物体已经出现在画面里。因此在背景初始化中，主要的挑战是在至少有一半的图像包含前景物体的图像序列中，提取出有效的背景。方法主要有（1）直接在前 N 帧中选取（2）以前 N帧提取出的背景为基础，后面的图像序列不断加入，更新背景，直到形成完整的背景图像（3）每过 N 帧重新计算一次背景。如何实时地保持计算得到的背景确实是真正的背景，是前景探测的最重要的工作之一。它要求在帧数不断增加的处理过程中，随着时间的增加不断学习，根据视频内容的变化不断地调整背景模型。实现背景模型更新的方法大致可以分为 3 类。（1）盲选（2）有区分地选取（3）模糊的具有适应性的方法。盲选，顾名思义，就是对当前图像的所有像素使用同一规则（IIR 滤波），即当前背景图像，就是上一帧的背景图像，和当前图像的线性叠加。下一帧的背景模型可以用公式表示为： +1(,) =(1)(,)+I(,)其中，是学习速率，取值介于 0 到 1 之间，代表背景模型的更新快慢。是在第 t 帧的背景模型，是第 t 帧的当前图像。I

展开阅读全文