1、 攻读硕士学位研究生学位(毕业)论文 目标跟踪中的目标表示方法研究 学科专业 计算机 应用技术 研究方向 图像分析与机器视觉 中国 陕 西 杨凌 目标跟踪中的目标表示方法研究 摘 要 作为计算机视觉领域的重要研究方向,目标跟踪问题近年来持续受到人们的关注。运动目标跟踪技术在智能监控、军事制导、人机交互、交通控制、自动导航、行为识别等领域具有广泛应用前景。 目标表示方法 的选择 是一个目标跟踪算法 取得成功 的关键因素。 本文 以最近提出的分布场和多示例学习两种跟踪算法中的目标表示方法为研究对象, 在详细分析了其原理、实现过程、主要优势及不足后 , 针对其缺陷进行改进, 主要成果如下: ( 1)
2、提出了一种加权分布场的目标表示方法, 通过 为与背景具有判别性 的层赋予较 大的权重,从而 增强分布场描述目标的鲁棒性,提高分布场目标跟踪算法的性能。 加权分布场 跟踪 算法 利用相关系数对候选块与目标 各相应层 的相似度进行 自适应 加权 。 与目标越相似,与背景越相异, 则权重越大,反之亦然。实验结果表明 , 在目标发生明显形变、尺度和光照变化、遮挡及旋转等复杂场景下, 加权分布场跟踪算法比分布场跟踪算法、多示例学习跟踪算法、压缩感知跟踪算法 在 12 个视频测试序列的 平均 跟踪准确率分别提升了 7.17%, 28.59%, 6.96%。 ( 2)提出了一种基于多通道 Harr-like
3、 特征的多示例学习目标跟踪算 法 ,增强其在跟踪彩色视频时的性能。该方法 提出 在 RGB 三通道上生成位置、大小和通道完全随机的 Haar-like特征来表示目标,用更多信息表示目标外观。其次,提出在分类器选择过程中用新随机生成的 Haar-like特征实时替换和淘汰部分分类器响应最小的特征,从而在目标表示中引入新的信息,以适应目标外观和外界条件的动态变化。对 8个 具有挑战性的彩色视频序列实验结果表明,与 多示例学习跟踪算法、加权多示例学习跟踪算法和分布场跟踪算法相比 ,提出的算 法 的 平均 跟踪准确率分别提升了 52.85%, 34.75%, 5.71%。 关键词 :目标跟踪;加权分布
4、场;多示例学习; Haar-like特征;弱特征更换 OBJECT REPRESENTATION METHOD FOR OBJECT TRACKING ABSTRACT As an important field of computer vision research, object tracking problem is concerned steadily in recent years. Object tracking technology for moving targets has broad application prospects in intelligent monitori
5、ng, military guidance, human-computer interaction, traffic control, automatic navigation, behavior recognition, etc. How to select the object representation method is a critical factor for a successful object tracking algorithm. In this paper, the object representation methods in the distribution fi
6、elds (DFs) and the multi-instance learning (MIL) tracking algorithms which are proposed recently are studied. After a detailed analysis of their principles, implementation processes, main strengths and weaknesses, their shortcomings are improved in the new algorithms. The main achievements are shown
7、 as follows: (1) An object representation method with weighted distribution field is proposed by giving a greater weight to the layers which are more discriminative to the background. It enhances the DFs robustness for object description and improves the performance the DFs tracking algorithms. The
8、weighted distribution field tracking algorithm adaptively weights the similarity of the candidate blocks and the targets corresponding layers with correlation coefficient. The more similar to the layers of the target and the more dissimilar to that of the background, the greater the weight is, and v
9、ice versa. Experiments on 12 test video sequences show that, compared to the distribution filed tracking algorithm, the multiple instance learning tracking algorithm and the compressive tracking algorithm, the weighted distribution filed tracking algorithm gets a higher average tracking accurate rat
10、e by 7.17%, 28.59%, 6.96% in complex scenes including obvious deformation, scale and illumination changes, occlusion and rotation of the target. (2) A multi-channel Haar-like feature based object tracking algorithm with multi-instance learning is proposed to improve the tracking performance on color
11、 videos. We propose that target is represented with Haar-like features generated from three channels of RGB with completely random location, size and channel. They represent the target using more information. Next, some weakest discriminative Haar-like features are replaced with new randomly generat
12、ed Haar-like features when weak classifiers are selected. It introduces new information to the target model and adapts to the dynamic changes of the target appearance and external conditions. The experiment on 8 challenging color videos shows that the proposed method obtains a higher average trackin
13、g average accurate rate by 52.85%, 34.75%, 5.71% than the multiple instance learning tracking algorithm, the weighted multiple instance learning tracking algorithm and the distribution field tracking algorithm, respectively. KEYWORDS: object tracking, weighted distribution field, multi-instance lear
14、ning, Haar-like feature, weak classifier replacing 目 录 第一章 绪论 . 1 1.1 研究目的与意义 . 1 1.2 国内外研究现状 . 2 1.3 主要研究 内容 . 5 1.4 论文的组织结构 . 5 第二章 相关理论与技术概 述 . 7 2.1 基于分布场的目标跟踪 . 7 2.1.1 分布场目标表示简介 . 7 2.1.2 分布场目标跟踪算法 . 8 2.2 基于多示例学习的目标跟踪 . 9 2.2.1 多示例学习简介 . 9 2.2.2 在线 Boosting算法简介 . 10 2.2.3 Haar-like特征简介 .11 2.
15、2.4 多示例学习目标跟踪算法 . 13 2.3 分布场与多示例学习目标跟踪算法比较 . 15 2.4 本章小结 . 16 第三章 加权分布场目标跟踪算法 . 17 3.1 基于加权分布场的目标跟踪 . 17 3.1.1 基于相关系数的 模板匹配算法简介 . 17 3.1.2 加权分布场目标跟踪算法 . 18 3.2 实验结果与分析 . 19 3.2.1 参数设置 . 19 3.2.2 定量分析 . 20 3.2.3 定性分析 . 21 3.3 本章小结 . 23 第四章 多通道 Haar-like特征多示例学习目标跟踪算法 . 24 4.1 基于多通道 Haar-like特征的多示例学习目标
16、跟踪 . 24 4.1.1 多通道 Haar-like特征目标表 示简介 . 24 4.1.2 动态更换判别力最弱的 Haar-like特征 . 25 4.2 实验结果与分析 . 26 4.2.1 参数设置 . 26 4.2.2 定量分析 . 27 4.2.3 定性分析 . 27 4.3 两种改进的目标跟踪算法比较 . 28 4.4 本章小结 . 29 第五章 总结与展望 . 30 5.1 总结 . 30 5.2 展望 . 30 参考文献 . 31 致 谢 . 35 作者简介 . 36 第一章 绪论 1 第一章 绪论 1.1 研究目的与意义 随着计算机技术和信息技术的飞速发展,让机器拥有人类的
17、感知和判断能力,继而为人类服务成为可能。拥有视觉能力是计算机进行后续理解判断和行为组织的先决条件。经过大量的艰苦探索,计算机视觉逐渐发展成一项相对成熟的研究方向,涵盖了计算机科学、数字图像处理、模式识别、机器学习和人工智能等众多高科技领域的结晶。然而,由于理论的相对不完善和问题的客观复杂性,计算机视觉仍然是一个值得进一步研究的课题。 视频分析 是计算机视觉研究的重要 内容之一,它 主要由三个关键步骤组成:感兴趣区域的检测与提取、运动目标的跟踪、目标行为的分析。其中,目标跟踪是在一段视频序列中寻找与感兴趣目标最相似区域的过程,是介于目标检测与目标行为分析的中间阶段。 随着硬件成本的大幅降低和软件
18、性能的逐步提高,运动目标跟踪技术在智能监控、军事制导、人机交互、交通控制、自动导航、行为识别等领域具有广泛应用前景,例如: ( 1)智能监控( Haritaoglu I et al. 2000; KaewTrakulPong P and Bowden R 2003; Zhao T and Nevatia R 2004)。该应用主要是自动监控一个场景,监测可疑行为,并在必要时发出告警。 ( 2)军事制导( Jung B and Sukhatme G S. 2004a, 2004b)。目标跟踪技术在现代军事领域具有现实意义,比如导弹跟踪技术能有效地确定可疑目标,提高预警和应对时间。 ( 3)人机交
19、互( MacCormick J and Blake A 2000; Pentland A 2000; Shan C F et al. 2004; Wu Y and Huang T S 2004)。传统人机交互方 式主要运用键盘和鼠标,通过目标跟踪技术,可进行表情理解,手势解读、手语翻译等工作,且不需要对操作人员进行专业训练。 ( 4)交通控制 ( Coifman B et al. 1998; Hsieh J W et al. 2006; Kettnaker V and Zabih R 1999) 。该应用主要运用目标跟踪技术对各种交通工具自动跟踪和分析,进而完成一些主要交通参数的设置,有效控制
20、交通流量。 ( 5)自动导航 ( Bonin-Font F et al. 2008; Li T H and Chang S J 2003)。依靠相对成熟的目标跟踪技术,可以对机器人或无人驾驶车辆进行导航,实现自动驾驶并有效避障。 ( 6)行为识别( Ning H Z et al. 2004; Wai L M et al. 2002; Xiang T and Gong S G 2006)。主要包括根据人的面部特征或步态进行身份识别以及行为判断等。 然而,由于现实场景中目标运动 机动性高, 随机性强,而且自然环境复杂,各种外界因素的干扰使目标跟踪问题成为计算机视觉和数字视频 处理领域最重要的研究热
21、点之一。目标跟踪问题面临的主要难点包括: ( 1) 目标信息丢失。三维目标降维到二维平面上成像,一定会损失部分有用信息。 2 目标跟踪中的目标表示方法研究 ( 2)视频序列中的噪音、背景或相似物体的干扰。 ( 3)目标发生形变等非刚体运动,造成跟踪困难。 ( 4) 光照等 外界场景变化造成目标特征的改变。 ( 5)目标的快速或复杂运动,使某些跟踪算法很难有效建立模型。 ( 6)视频跟踪时目标全部或部分被遮挡。 ( 7)视频序列较长造成的对算法稳定性的考验。 经过 国内外学者的不懈研究,大量跟踪理论、模型以及算法被先后提出。跟踪算法的多样性客 观上需要一些合理的评价法则去评判其优劣。目前, 评价
22、 一个跟踪算法的性能 主要包括以下三个方面: 准确性:准确性是一个跟踪算法的首要目标,要求在合适的目标模型下尽可能准确地定位到各帧中的目标位置。 鲁棒性:跟踪过程中的各种复杂场景要求一个跟踪算法能尽可能地排除干扰,在长时间和复杂条件下的视频序列中持续有效进行跟踪。 实时性:考虑到实际场景中的各种应用,一个良好的跟踪算法必须具有较低的时间复杂度以满足控制系统实时跟踪的需要。 1.2 国内外研究现状 作为计算机视觉领域的重要阵地,目标跟踪技术近年来逐渐形成了一股研究 热潮。1996年,美国国防高级研究项目署( DARPA)耗资上亿规划 VSAM项目( Collins R T et al. 2000
23、),意图利用机器理解视频信息,结合网络通信和传感器融合技术达到自动监控未来城市应用、未来战场的目的。由 Maryland大学开展的 W4计划( Haritaoglu I et al. 2000)实时视觉监控系统研究,通过对人体及肢体行为实时分析,可以检测和跟踪人体运动,同时进行多人跟踪,检测是否携带物体等。法国国家计算机科学 与 控制研究院INRIA 与比利时 Katholieke 大学在欧盟 EULTR的资助下试图研究一个为司法机关提供可视化的监控系统( Coifman et al. 1998),用于犯罪取证等工作。 1999年欧盟 IST也设立 ADVISOR项目(王亮等 2002),目的
24、是开发一个能有效管理地铁和高速公路等的公共交通系统,从而在节省人力成本,提高运营效率的基础上缓解城市交通压力。在亚洲,日本处于计算机视觉研究的领先地位,其投资的 CDVP项目( Matsuyama T 1998)主要是开发一套适用于公共区域和小区的智能监控系统。此外,国际上信息处理领域的一些权威杂志和重要年度学术会议,如 PAMI、 IVC、 CVPR、 ECCV等,都将目标跟踪技术作为主题之一。通过广泛的交流,为广大学者提供最新的研究成果。 国内的目标跟踪研究相对滞后,但目前国内许多高校和研究机构如清华大学、西北工业大学、华中科技大学、哈尔滨工业大学、中国科学院等都在该领域投入大量研究资源。
25、清华大学刘晓冬等( 2000)研制的智能监控系统利用计算机辅助完成视频运动目标的自动检测和分类。上海交通大学周小四等( 2002)提出采用最佳熵阈值 法进行图像分第一章 绪论 3 割,然后 基于 缺省规则推理方法对 各 区域分别处理,达到智能报警系统中图像分割和识别的目的。中国科 学院自动化研究所模式识别实验室在智能轮椅视觉导航、交通行为事件分析、人体运动分析等领域的研究在国内处于领先地位。第一届和第二届全国智能视觉监控会议也分别在 2002年和 2003年成功举办。国内的一些重要期刊如控制与决策、自动化学报、软件学报等也刊出了目标跟踪领域的一些最新研究成果。 一般从目标表示方法、目标搜索策略
26、和目标更新机制三个方面解决一个目标跟踪问题。 其中目标表示方法是指通过一定的方法或手段去描述目标的主要特性, 提取关键特征后 对目标建立模型,为后续的目标定位和更新提供必要的基础。 目标搜索策略 是指通过一定的匹配或分类算法对目标周围候选区域进行 判定,获取与目标最相似、匹配度最高 或分类器响应最大 的区域即为当前帧 的 目标位置。 目标的更新机制是指在获取当前帧的目标位置后,需要对目标模型进行更新 , 一般是将当前帧 的 跟踪结果与前一帧或几帧的跟踪结果进行加权融合。 这样可以防止跟踪过程中某些帧的偶然漂移导致跟踪失败,确保了跟踪过程的连续性和 稳定 性。 一些目标跟踪算法以目标特征为研究对
27、象,包括质心、面积、周长、曲率和各阶矩等全局特征,或点、线等局部特征,称之为基于特征的跟踪 ( 曹燕等 2012; 隆武林和陈颖琪 2009; 吴刚等 2010; 张小洪等 2007; Okuma T et al. 2004; Tissainayagama P and Suter D 2005; Zhu G and Zeng Q 2006)。基于特征的跟踪算法 对目标发生非刚体运动、尺度和亮度变化时比较鲁棒,但在图像自身模糊或外界干扰的情况下容易造成因图像特征提取困难而导致的跟踪性能下降。 基于轮廓的跟踪 ( Kass M et al. 1988; Vieren C et al. 1995)以
28、目标的真实轮廓为研究对象, 在多目标跟踪领域有很多基于水平集 的主动轮廓模型的多目标跟踪算法( Dgoldenberg R et al. 2001; Freedman D 2004; Mansouri A 2002; Paragios N and Deriche R 2000)。它的 缺点是 需要较大的计算量,实时性有待提高。基于区域的跟踪 ( Li et al. 2005; Nummiaro et al. 2003) 是在跟踪初期初始化一块包含目标的区域作为跟踪对象,一般为矩形或椭圆形。颜色 ( Comaniciu D et al. 2003; Ning J F et al. 2012) 、
29、纹理和梯度直方图,协方差矩阵( Tuzel O et al. 2006), Haar-like特征等都是比较常用的目标区域特征描述子。基于区域的跟踪方法在小范围遮挡的情况下跟踪精度高,性能稳定 , 但大部分跟踪算法运行速度受搜索区域大小影响,而且在目标发生形变和大范围遮挡的情况下容易发生漂移。基于模型的跟踪算法( 马颂德 和 张正友 1998; Hu W M et al. 2004)通过特定的信息将目标转化为几何模型,运用包括但不限 于高层语义描述和知识在内的信息将目标跟踪问题转化为目标识别问题。 该方法 缺点是 获取 物体的精准模型非常困难,且时间复杂度很高。 根据目标的 外观模型的不同 ,
30、目前的目标跟踪算法主要可以分为生成式模型跟踪算法和判决式模型跟踪算法( Zhang K H and Song H H 2013)。 生成式模型首先学习一个外观模型来表示目标,然后在随后的一帧通过匹配算法寻找与目标最相似的区域即为目标位置。 Black等( 1996)离线学习了一个子域外观模型。4 目标跟踪中的目标表示方法研究 然而,离线学习的外观模型很难动态适应外观变化。为了处理外观变化,一些在线学习方式已经被提出,比如 WLS跟踪( Jepson A et al. 2003), IVT方法( Ross D A et al. 2008)。最近,稀疏表示方法( Mei X and Ling H
31、2009)也被引入目标跟踪任务中,并在部分遮挡,光照变化和外观变化的情况下取得了很好的表现。 最近,基于分布场( DFs)的目标表示方法在目标跟踪领域取得了极大的成功。分布场首先根据图像的亮度、梯度、颜色等信息对图像自然分层,很好地保留了原始图像的基本信息;然后对图像各层以及层间进行高斯平滑,在目标表示中引入了“模糊性”,在一定程度上克服了形变和光照等变化的影响,保证了算法的鲁棒性;最后,基于分布场的目标 表示,该方法利用 L1 距离和梯度下降算法进行了跟踪。实验结果证明,该方法能有效定位目标。 判决式模型将跟踪作为一个二元分类问题,即通过构建分类器从周围背景中分离出目标。这些方法将跟踪转化为
32、一个检测任务,因此也被称为基于检测的跟踪( Avidan S 2004)。这些自适应算法首先利用当前帧提取的样本训练分类器,在下一帧,使用一个滑动窗口在上一帧中目标位置周围提取样本,然后使用训练的分类器进行判决,具有最大分类器响应的样本即当前目标位置。 Collins 等( 2005)已经证实在线选择有区分性的特征能大幅提高跟踪性能 。 Grabner 等( 2006)提出一种在线 Boosting特征选择方法,但是该方法仅仅使用一个正样本更新分类器。如果使用当前分类器检测的目标位置不准确,提取的正样本也会不精确,导致一个次优的更新分类器 , 误差逐渐累积将导致漂移。为了解决漂移问题,一 种
33、半监督学习方法( Grabner H et al. 2008)被提出,即只在第一帧标记样本,而随后的帧不标记。同时,多正样本和多负样本也被应用到在线更新分类器( Kalal Z et al. 2010; Zhou Q H et al. 2011)。然而,模糊问题会影响 分类器性能。由于受到人脸检测方法的启发 ( Viola P et al. 2005),多示例学习 跟踪 方法被提出。 使用Haar-like特征进行目标表示是多示例学习跟踪算法取得良好性能的重要因素。 2001年,Viola等( 2001)首先将基于 Haar-like小波的 AdaBoost算法引入到人脸检测中。由于将积分图像
34、的思想应用到 Haar-like特征的计算中,极大地提高了特征的获取速度。受此启发, Babenko 等( 2011)通过在线多示例学习训练分类器的方法,利用 Haar-like 特征对目标和背景训练一个判别式 模型实现了跟踪。 生成式模型和判别式模型在不同的场景下表现出各自的优越性。生成式模型是目标跟踪的传统方法,合适的目标表示方法和模板匹配算法是一个成功的 生成式 跟踪算法的关键因素。然而,生成式模型一般仅利用目标前景进行跟踪,常常忽略背景等有用信息。基于模板匹配算法的搜索策略也往往依赖于目标区域和候选区域的尺寸,这在很多情况下对跟踪算法的实时性是一个极大的考验。 判别式模型是最近出现的跟踪模式,并以其深厚的理论基础和稳定的跟踪性能引起了人们的兴趣。选择高效的目标表示方法描述目标特征,性能优良的分类器构建,结合目标前 景和背景的跟踪策略 是一个判别式跟踪算法的典型特征。 因此,如何更好地最大限度地获取目标结构信息,如何优化分类器 性能,提升其 对目标前景和背景的判别力 和区分性 便成为判别式跟踪模型的主要研究方向。