基于全景视频中两种跟踪算法的实现.docx

上传人:文****钱 文档编号:54628 上传时间:2018-05-29 格式:DOCX 页数:34 大小:4.06MB
下载 相关 举报
基于全景视频中两种跟踪算法的实现.docx_第1页
第1页 / 共34页
基于全景视频中两种跟踪算法的实现.docx_第2页
第2页 / 共34页
基于全景视频中两种跟踪算法的实现.docx_第3页
第3页 / 共34页
基于全景视频中两种跟踪算法的实现.docx_第4页
第4页 / 共34页
基于全景视频中两种跟踪算法的实现.docx_第5页
第5页 / 共34页
点击查看更多>>
资源描述

1、 毕业设计 院系名称 计算机与信息学院 2014 年 05 月 28 日设计题目 基于全景视频中两种跟踪算法的实现 学生姓名 学 号 20102792 专业班级 计算机科学与技术 10-4 班 指导教师 目 录 摘要: . 1 Abstract: . 2 1 绪 论 . 3 1.1 课题研究背景及意义 . 3 1.2 国内外研究现状 . 5 1.3 概述 . 7 1.3.1 计算机视觉研究 . 7 1.3.2 目标跟踪技术简述 . 8 1.4 文章内容及安排 . 9 2 Meanshift算法的实现与分析 . 10 2.1 Meanshift算法概述 . 10 2.2 Meanshift算法具

2、体实现 . 10 2.3 跟踪实验 . 13 2.4 本章小结 . 16 3 粒子滤波算法的实现与分析 . 17 3.1 引言 . 17 3.2 贝叶斯状态估计 . 18 3.3 粒子滤波具体实现 . 18 3.4 实验 . 21 3.5 两种跟踪算法的跟踪比较 . 25 3.6 本章小结 . 26 4 总结及展望 . 27 致谢 . 28 参考文献 . 29 附录 . 30 1 基于全景视频中两种跟踪算法的实现 摘要 : 目标跟踪是计算机视觉研究中的经典问题,是指计算机或其他设备根据某种算法对目标进行跟踪和定位,并根据目标的位置和动向采取相应的策略。近些年来,目标跟踪被广泛应用于视频监控、视

3、频编码以及军事工程等各种领域。 本文的主要研究对象是基于 Meanshift 以及粒子滤波的目标跟踪算法。Meanshift 算法是一种基于特征概率密度统计的建模方法。在跟踪过程中,目标区域通常由用户在视频序列中选定,并建立相应的目标直方图,经过反向投影后, Meanshift 算法在后续帧中迭代地移动到目标的质心上,从而达到跟踪的目的。 粒子滤波算 法是基于蒙特卡罗仿真的近似贝叶斯滤波算法,对目标状态进行采样,计算样本的权值,最后用样本的加权来表示目标状态的估计值。 本文选用相同视频分别对两种算法的跟踪性能进行了理论分析和实验比对,发现 Meanshift 算法实时性较好,但是在复杂场景中容

4、易丢失目标,而粒子滤波算法在初始选择框比较大时实时性较差,但是在复杂背景下跟踪效果较好,对背景变化不敏感 。 关键词 : 目标跟踪, Meanshift,粒子滤波 2 Two tracking algorithmsachievement based on panoramic video Abstract: Target tracking is a classic problem of computer vision study, it refers to a computer or other equipment uses an algorithm for target tracking an

5、d locating, and take the appropriate strategy based on the targets location and movements. Recent years, target tracking is widely used in video surveillance, video encoding, and a variety of areas such as military engineering. The main object of this study is two targets tracking algorithms based o

6、n Meanshift and particle filtering. Meanshift algorithm is a modeling approach based on probability density statistic. In the tracking process, the target area is usually selected by the user in a video sequence, and establish the appropriate target histogram. Mean Shift algorithm move to the target

7、 centroid iteratively in subsequent frames to achieve the goal of tracking. particle filtering algorithm is a Bayesian filtering algorithm based on Monte Carlo simulation. sampling the target state, calculating the samples weights, finally using the weights to estimate the targets state. This study

8、uses the same video to test the tracking performance of the two algorithms, The result is the Meanshift algorithm with good real-time performance, but easy to lose the target in complex scenes, and the particle filter algorithm get the poor real-time performance when the initial selection box is lar

9、ge, but the tracking effect of complex background is good, and its not sensitive to the change of background. Key words: Object Tracking; Meanshift; Particle Filter 3 1 绪 论 1.1 课题研究背景及意义 目标跟踪就是利用图像处理、模式识别的方法发现视频序列中与指定目标图像最相似的部分。目标跟踪是许多计算机视觉应用的关键技术,如视频监控,感知用户界面和基于对象的视频压缩。在这些应用中,由于在图像平面中旋转,缩放和闭塞的背景通常很

10、难追踪移动的物体,跟踪算法应适应对象的复杂变化和背景,以及较少的计算。 在复杂的环境中对对象进行高效率和高强度的跟踪是计算机视觉领域一个具有挑战性的问题 1。目前,目标跟踪技术已经被广泛应用于众多生活和工作领域。主要应用如下: 1.电视监控 在当前阶段,作为公共安全领域下的一种关键技术,电视监控系统已经得到了较为广泛的推广。然而许多电视监控系统的功能只是停留在使用者对视频信号的人工检测以及事后的录像分析上面,浪费了很多的人力和物力。在计算机自动监控系统中,监控系统首先需要对图像进行去噪的预处理,接着使用合适的检测算法确定目标,然后通过适当的跟踪算法在摄像机视野内跟踪这个确定的 目标,同时也进行

11、警戒报警以及保存证据等一系列操作。在此监控系统中,关键问题就是运动目标的检测以及跟踪算法的选择,这个问题是保证整个系统正常运行的前提 2。 2.视频压缩编码 在新一代的视频图像压缩编码标准 MPEG4 中,提出了一个不同于以前的视频编码的新概念 视频对象平面( Video Object Planes,VOP),以实现基于图像内容的压缩。在压缩编码过程中,视频中的场景被分割成若干个 VOP,不同的 VOP根据其特点采用不同的编码策略,例如,场景中的背景在很多情况下基本上保持不变或只有很少部分的变化,则可以在连续的多帧图像中使用相同的编码或只有很少改动的编码来表示背景,从而大大提高了压缩效率。这种

12、方案具有很高的压缩比,同时还具有良好的视觉效果,便于进行基于内容的交互和查询。但是,这一压缩编码的技术难点在于如何在任意场景下实现对运动目标的自动提取与分割,而这些问题也正是目标检测与跟踪所要解决的关键问 题。 4 3.智能交通系统 智能交通系统是目前世界各国交通运输领域竞相研究和开发的热点。中国在北京申奥成功后,为解决北京市的交通状况,政府也在智能交通的研究上加大了投入力度。车辆的实时检测与跟踪技术是智能交通系统的重要技术之一,计算机在不需要人的干预,或者只需要很少人干预的情况下,通过对摄像机拍录的视频序列进行分析,实现车辆检测与跟踪,并在此基础上分析和判断车辆的行为,对车辆的行为给出语义描

13、述,做到了既能完成日常管理,又能在发生异常情况时及时做出反应,从而提供了一种更加先进和可行的监控方案。 4.人机交互 目前 键盘和鼠标是我们和计算机交互的接口方式,我们希望有更简洁的、智能化和人性化的人机交互方式。计算机无接触式地收集人类在计算机前的视频信号,利用计算机视觉的相关理论分析视频信号,做到分辨人类的动作,明白人类的意图,即我们希望计算机能尽可能地“理解”我们。近些年的工作主要集中在姿态分析,面部表情及其它的运动,以便计算机能够识别和理解这些动作。这也是智能机器人研究的重点。 此外,目标跟踪在基于视觉的控制、农业自动化、医学图像、视觉重构等领域均有应用。而目标跟踪处于整个计算机视觉系

14、统的底层,是各种后续高级处理如:目标 分类、行为理解等的基础,因而目标跟踪具有非常重要的研究价值 3。 随着科技的发展和社会的进步,人们对信息的需求越来越多,要求也越来越高。据统计,普通人所感受的外界信息 80以上来自视觉。普通人双眼正常有效视角大约为水平 90 度、垂直 70 度,而全景技术则可以同时显示比人眼视角范围大得多的场景,因此,能提供更丰富的信息及感官刺激,具有普通视图所无法比拟的研究和应用价值。 全景作为一种方兴未艾的技术,能扩大视角、在同一时刻显示大范围场景信息,在卫星航拍、视频会议、场景监控、交通导航、虚拟现实、摄影等多种科研、商业 及艺术领域具有广泛的应用前景。 目前,对于

15、静态全景图像,除少数应用中采用超广角镜头或鱼眼镜头直接拍摄外,主要采用图像拼接及融合等软件算法来实现。对于动态视频,则主要依靠特殊的硬件系统:一种方案是采用快球系统,另一种方案是采用配有全景镜头的专业摄像系统。 5 1.2 国内外研究现状 目标跟踪问题是随着计算机技术的发展而逐渐成为研究热点的。二十世纪80年代以前,由于计算机技术的限制,对图像的处理与分析主要以静态图像为主,在动态图像序列的分析中,对运动目标的跟踪带有很强的静态图像分析的特点。二十世纪 80年代初光流法 (Optical Flow)被提出之后,动态图像序列分析进入了 个研究的高潮,其中对光流法的研究热潮从其产生一直持续到了二十

16、世纪90年代中期 4。但是,即使在现阶段,光流法所需的运算量对计算机而言也是很大的,很难满足实时性要求,同时由于采用假设的局限性使得光流法对噪声特别敏感,很容易产生错误的结果,这些缺点造成光流法与实际使用之间还存在着很大的距离。从二十世纪 80年代之后,还出现了其他众多的目标跟踪算法。例如:1998年, Michael Isare 和 Andrew Black提出的 Condensation算法,首次将粒子滤波的思想应用到视频序列目标跟踪当中; 2003年 Comaniciu等提出的Meanshift 跟踪框架,理论严谨,计算复杂度低,因此成为目标跟踪算法的研究热点。 就研究现状来看,国外对基

17、于视频的目标检测与跟踪的理论研究及应用研究起步较早,尤其在美国、英国等国家已经开展了大量相关项目的研究,并取得了一定的成果。 1997年美国国防高级研究项目署设立了以卡内基梅隆大学为首、麻省理工学院等高校参与的视频监控重大项目 VSAM(Visual Surveillance and Monitoring), VSAM 的目标是为未来城市和市场监控应用开发一种自动视频理解技术,用于实现未来战争只能够人力监控,费用昂贵,非常危险或者人力无法实现等场合下的监控。 美国麻省理工学院在智能视频监控方面也进行了深入的研究,开发的监控系统已成功实现了对车辆和行人的检测和跟踪。 美国国际商用机器公司 (IB

18、M)与美国马里兰大学联合开发的 w4 (what, where,when, who)系统,主要用于对人体目标的检测和跟踪,监视目标的活动。不同于多数人体目标跟踪系统, M4不采用颜色线索,而采用单目灰 度或红外摄像机作为视觉传感器,以目标形状分析和跟踪技术实现人体及其头部、手部等定位,并对目标外观进行建模,以便在目标叠加或遮挡时依然能够进行跟踪。 国内这方面的研究较晚。为推动我国在此国际前沿方向的研究,共同探讨目6 标足艮踪技术的发展动态与趋势,促进我国科研人员在此领域的交流与合作,在中国科学院自动化研究所、国家 863计划计算机软硬件技术主题、中国图形图像协会、国家自然科学基金委员会和中国自

19、动化协会的支持下,中科院自动化研究所模式识别国家重点实验室已分别于 2002年 5月和 2003年 12月在北京承办了两届“全国 智能视频监控学术会议 “,来自全国各地高校、研究所、企事业单位的研究人员、专家学者们参加了学术会议,期间报告人和与会人员之间就目标跟踪领域中的理论、算法和应用实例等一系列问题做了广泛而深入的探讨 5。 目前,国内的相关研究机构中,中科院自动化研究所下属的模式识别国家重点实验室成立的视频监控研究小组处于领先地位。该实验室在交通场景的视频监控、入的运动视频监控和行为模式识别方面做了深入研究,并取得了一定的成果。模式识别实验室还与英国雷丁大学、法国波尔多第三大学 EGID

20、研究所等多所国外研究机构就相关项目的研究进行 交流与合作。除此之为,国内一些高校,如:上海交通大学航空航天信息与控制研究所、华中科技大学图像识别与人工智能研究所、西安电子科技大学 ISN国家重点实验室图像传输与处理研究所等机构都对该领域进行了相关的研究。 基于计算机视觉、计算机图形学和图像处理的全景技术兴起于上世纪九十年代,最早是指单视点全景图像,由一台相机严格围绕光心旋转所拍摄的图像拼接而成。此后出现了条带全景图 (Strip Panorama),由平移的相机连续拍摄普通窄视角图像进行拼接。例如,沿街拍摄一系列的水平图像,处理后构成类似清明上河图的长街景 观,可应用于网上虚拟旅游、数字地图等

21、场合。然而,这类技术都是针对静态全景图像的,算法复杂度较高,无法实现实时处理;并且由于是连续拍摄,处理前所有原始图像已按序排好,即拼接时无需考虑图像的相对位置;同时,由于相机的运动轨迹简单,不同图像间一般仅存在平移关系,故较容易进行配准。目前,这类技术已应用到高端数码相机中,可对用户拍摄的存在简单平移关系的照片进行自动拼接。 对于实时视频,则尚未有较好的全景合成技术。主要困难之一在于实时性的要求。众所周知,正常视频帧率一般为 25 30FPS,这意味着至少必须在 0.04秒内 合成一幅全景帧,而现有的静态全景图像生成算法都无法做到这一点,因此无法直接应用于视频合成。而针对静态全景图像质量的改进

22、算法也由于计算量太大无法用于处理视频帧。所以,有些学者采用硬件方法来避免复杂的运算。例如,A Majumder 等人提出一种精心设计的摄像机组,各摄像机间保持虚拟的公共7 投影中心,从而所有视频帧可以通过简单算法进行配准;同时这种特制的结构可以在一定程度上避免视差,无需额外的修正算法。但从另一个角度看,这类技术极大地依赖于特制硬件结构,因此不易推广普及。 1.3 概述 1.3.1 计算机视觉研究 感觉是人的大脑与周围世界联系的窗口,它的任务是识别周围的物体,并告诉人们这些物体之间的关系。对客观世界与环境的认识是人们的思维活动基础,而感觉则是外界客观世界与人们对环境的认识之间的桥梁,它使人们的思

23、维与周围世界建立某种对应关系。在各种感觉中,视觉则是对人的智力产生影响的最重要的感觉,它是人的主要感觉来源,人类接受的 80%外界信息来自视觉。它是一种高度清晰的媒介,它提供关于外界世界中各种物体和事件的丰富信息。因此视觉是思维的一种最基本的工具。 计算机正在向智能化发展。让机器像人一样具有视觉是人类的一个梦想, 机器拥有视觉功能对世界产生的影响怎么估计大概都不为过。现实世界中的物体都是三维的,而人眼所获得的景物图像是二维的,人类的视觉系统能从二维图像中获得三维信息,从而感知三维世界。但是让机器拥有这样的能力却是一件很困难的事情。信号处理理论的发展和计算机的出现,似乎给人们提供了一条模拟人类视

24、觉的可行之路:用摄像机获取环境图像并转换成数字信号,用计算机通过数字图像处理的方法模拟天类对视觉信息处理的全过程,一门新兴的学科 计算机视觉由此而生。 计算机视觉既是工程领域,也是科学领域中的一个富有挑战性的重要研究领域。计算机 视觉是一门综合性的学科,它已经吸引了来自各个学科的研究者参加到对它的研究之中。其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学,神经生理学和认知科学等。 计算机视觉是各个应用领域,如制造业、检验、文档分析、医疗诊断和军事等领域中各种智能 /自主系统中不可分割的 部分。由于它的重要性,一些先进国家,例如美国把对计算机视觉的研究列为对经济和科学有广泛影响的科学

25、之一,并把它作为工程中的重大基本问题,即所谓的重大挑战。计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。计算机视觉需要图像 信8 号,纹理和颜色建模,几何处理和推理,以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。作为一门学科,计算机视觉开始于60年代初,但在计算机视觉的基本研究中的许多重要进展是在 80 年代取得的。现在计算机视觉已成为一门不同于人工智能、图像处理、模式识别等相关领域的成熟学科。计算机视觉与人类视觉密切相关,对人类视觉有一个正确的认识将对计算机视觉的研究非常有益。 1.3.2 目标跟踪技术简述 目标跟踪是计算机视觉中的经典问题,是

26、指计算机或其它仪器设备依据某种算法对目标进行跟踪和定位,并根据目标的位置和动向采取相应措施。其基本任务可简述为在视频序列中对感兴趣的目标或对象的位置等运动特征进行有效的确定和估计。 目标跟踪是一个应用前景非常广泛的技术。近几年,目标跟踪广泛应用于监控、视频编码以及军工领域。 个普通的目标跟踪系统常常包括以下几个环节:图像采集、视频图像处理、数据通信、传感控制和伺服系统等。图像采集通过摄像机捕获监视场景的光学图像,采用视频卡和视频检测技术,并通过 A/D转换将视频信号转换成数 字图像序列,为视频图像处理提供数据。传感控制系统与伺服系统对传感器进行反馈控制,在主动视觉系统中,驱动云台是使摄像机跟随

27、被跟踪目标运动。数据通信则是完成视频图像数据的传输和控制以及反馈信号的通信。 按不同标准可将目标跟踪问题分成很多类型:根据摄像机的数目可分为单摄像机目标跟踪和多摄像机目标跟踪,目前大多数研究都属于单摄像机的跟踪问题,但是,在实际的视频监视系统中,单摄像机所能监视的区域很有限,因此,在一些大的公共场合,更多的是使用多摄像机以扩大监视的范围;同运动目标检测一样根据摄像机是否运动,目标跟踪也可分 为为摄像机静止时的运动目标跟踪和摄像机运动时的运动目标跟踪;根据视频场景中运动目标数目的多少,目标跟踪问题可以被分为单目标跟踪和多目标跟踪两类,单目标跟踪并不是一个简单的问题,而多目标跟踪比单目标跟踪要困难得多,在多目标跟踪过程中,必须考虑到多个目标在场景中会互相遮挡 (Occlusion),合并 (Merge),分离 (Split)等情况,这是多目标跟踪问题的难点;根据视频场景中运动目标类型的不同,可将目标跟踪问题分为对刚体的跟踪和非刚体的跟踪,所谓刚体是指具有刚性结构、不易变形的物体,对这类运动目标的跟踪采用 基于 3D 模型的跟踪方法比较常见。而非刚

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。